王琤:当数据治理遇上ChatGPT( 二 )


但这里面还有一些模糊的表述,如“当事人关系在建模中重点描述的是当事人之间的相互作用”,这个相互作用是指什么?于是,再要求对此进行澄清 。给了个例子把这个问题阐述的很清楚 。
最后,让给予再次澄清和举例 。
大家看看这是不是将获取知识(思考)的成本拉得很低,背后就是把数据转化为知识表达,通过推理和归纳来实现预期记忆和泛化 。
我们之前要搞定这个事可能要请个模型专家来做个咨询项目,前后得折腾几个月花几万、几十万,现在成本几乎是零 。这就像当年推出搜索引擎,我们获取信息的成本降为零是一样的 。所以,我们当前站在一个大的拐点上 。
成功的核心要素是什么?
【王琤:当数据治理遇上ChatGPT】的GPT模型是基于序列式的模型架构,相较于之前的知识图谱等方法,序列式的模型架构可以更高效地把大量的信息做压缩,这是最核心的突破点;其次英语是全球性的语言,信息的量其实是全世界的人都在做贡献 。如果放在中文环境,可能面临的挑战还是蛮多的,因为像是西方的文化本身是有推演演绎的哲学逻辑,但中文更复杂,理解难度大,所以相对于英文语料来说差了一个数量级 。从中文的角度来讲,未来这些信息的抓取和训练,到底把英文的信息转成中文的,还是从中文直接就开始去做起?这个是一个比较大的十字路口 。
人工智能到底可以发展到什么程度?
以为代表的人工智能技术具有强大的能力 。一般我们讲人工智能发展分为三个阶段,战胜人类国际象棋大师的阶段属于弱人工智能,目前阶段基本上快到强人工智能,跟人脑的水平差不多,甚至超过人脑,再之后就是超人工智能,就是已经到把人类的这些知识都能覆盖到的阶段,有人预测到2030年或2040年可能实现超人工智能 。
美国的益智问答大奖赛,人类冠军跟机器去PK,很难赢 。所以像益智问答、算数,死记硬背等这些早都被人工智能Cover到了 。然后就是像自动驾驶,语音的识别、视觉、翻译等这些几乎都可以实现人工智能,但像科学、像设计,像写书、像艺术这些东西短期人工智能还难以企及的,所以有一些讨论到底人工智能可以发展到什么程度,这里要提一个有意思的理论—约翰·希尔勒的“中文屋实验”,未来机器到底能不能有一些情感,它能不能发展到不可控的程度?这个尚未有结论,是个开放思考题留给大家 。
以AI赋能,数据治理智能化的引擎
其实我们也对做了蛮多研究的,首先我们先问问可以帮助数据治理干些什么?它的回答:第一、能做一些数据治理的这种制度流程 。第二、能分析一些数据的有效性、一致性 。第三、数据治理的一些质量监测、安全合规,同时做一些任务自动化 。针对它回答的第一点,我们让它列举 100 条制造业的行业数据标准,它可以大致给出符合期望的答案 。
接下来让它写了一段“用 SQL 去检查身份证号码有效性的代码”,写得非常的完美,确实很强 。
那么,数据治理该如何拥抱以为代表的新一轮的AI技术浪潮?
安全分类分级智能化实践
从实践出发,其实一直在做数据安全分类分级的智能化研发 。在我们的产品平台架构中,我们通过训练行业分类分级大体系形成一套分类分级的语料库 。再通过 Word to 将词向量的距离进行比较,也就是拿一个分类分级跟一个元数据取向量的距离 。当然这个过程中肯定也要做一些优化 。对于大段信息描述,我们通常采用拆词的方法,这个可能导致拆出来的信息没有意义,这个时候就需要人工优化 。