演讲实录:指标平台+AI 的技术落地和未来展望( 三 )


从语言模型训练的稳定性角度来说,指标的语言能力肯定是属于 NLP To SQL 的一个子领域 。我们觉得这个限定在指标领域的方向会率先成熟,因为 SQL 作为一个查询语言,自由空间度是无限大的,自然语言的自由度也是无限大的,稳定性势必会存在问题 。
但是我们如果把这个问题的目标领域缩小,比如聚焦在企业最关心的那一部分指标,基于这些指标企业会进行一些归因分析、跨时间段、跨维度的分析 。所以当我们将其限制到一个目标领域后,整个语言模型到指标平台领域的指令训练的映射就会容易很多 。所以实践下来,也对我们产品的稳定性和准确性有相当大的信心 。
最后,我们有一套把大语言模型在这个基础上训练成领域指标模型的一套工具和能力,叫做 Byzer-LLM 工具箱,从基础的模式开始可以做 -tune,加上用户自己的数据形成指标知识库来做 Fine-tune,最后变成可用的指标领域的语言模型,这套工具链我们也在持续的孵化中,现在已经可以初步使用 。
当人人开始用数,当沟通障碍也被指标标准语言所解除,我们可以预期,分析引擎的负载可能会有百倍乃至千倍的增长 。IT 部的负责人可能就开始算钱了,企业当下支持多少并发,如果资源也要成倍的投入,那成本可能就大大超出预期 。这也是一直在持续耕耘的方向,即如何用一个超高并发的 OLAP 引擎技术支撑百倍的负载 。
此外,我们还在持续推进计算引擎的性能,我们研发的向量化的 Spark 引擎技术Turbo,已经把标准的 Spark 提速 2 倍以上,可以帮助企业节省 50% 左右的算力和成本 。
我们基于 TPC-H 100 测试,Turbo 相比Spark SQL 3.3.1 耗时下降55.72%,这个测试可以在 AWS EC2 上稳定复现 。对技术感兴趣的朋友可以访问Turbo 的主页,上面开源了整个测试过程,可以重现这个实验 。我们将持续孵化这项新技术,期望今天所有用到 Spark 的场景,在向量化引擎的加持下,都可以收获立竿见影的 100% 的性能提升,或者 50% 的成本下降 。
在 OLAP 引擎这个方面,我们应该面向成本来做优化 。南京大学在去年发布的论文中提到,企业来评估 OLAP 引擎时,不应该只考虑性能,因为在云上资源弹性以后,只要钱到位,性能总是能达到的 。我们更应该从成本的角度来看,这篇论文中做了一个简单的验证,横轴为查询数量,可以看到用了 Kylin 的 OLAP 引擎成本是比较稳定的 。可以承接百倍的负载,我们的引擎会非常有优势 。
总之,我们看到在+ 指标平台 + 高并发的 OLAP 引擎这三个技术点同时到位时,一个人人用数的新时代已经开启,大家可以很快体验到 SaaS 版本,同时也可以本地部署或嵌入式的模式赋能到大家的应用系统 。Zen 和现已开启试用,欢迎大家点击链接申请试用 。
关于
跬智信息()由Kylin 创始团队于 2016 年创办,是领先的大数据分析和指标平台供应商,提供企业级 OLAP(多维分析)产品和一站式指标平台Zen,为用户提供企业级的经营分析能力、决策支持系统及各种基于数据驱动的行业解决方案 。
已服务中国、美国、欧洲及亚太的多个银行、证券、保险、制造、零售、医疗等行业客户,包括建设银行、平安银行、浦发银行、北京银行、宁波银行、太平洋保险、中国银联、上汽、长安汽车、星巴克、安踏、李宁、阿斯利康、UBS、 等全球知名企业,并和微软、亚马逊云科技、华为、安永、德勤等达成全球合作伙伴关系 。获得来自红点、宽带资本、顺为资本、斯道资本、、浦银国际、中金资本、歌斐资产、国方资本等机构多次投资 。