王琤：当数据治理遇上ChatGPT( 二 ) _人工智能

但这里面还有一些模糊的表述，如“当事人关系在建模中重点描述的是当事人之间的相互作用”，这个相互作用是指什么？于是，再要求对此进行澄清。给了个例子把这个问题阐述的很清楚。
最后，让给予再次澄清和举例。
大家看看这是不是将获取知识（思考）的成本拉得很低，背后就是把数据转化为知识表达，通过推理和归纳来实现预期记忆和泛化。
我们之前要搞定这个事可能要请个模型专家来做个咨询项目，前后得折腾几个月花几万、几十万，现在成本几乎是零。这就像当年推出搜索引擎，我们获取信息的成本降为零是一样的。所以，我们当前站在一个大的拐点上。
成功的核心要素是什么？
【王琤：当数据治理遇上ChatGPT】的GPT模型是基于序列式的模型架构，相较于之前的知识图谱等方法，序列式的模型架构可以更高效地把大量的信息做压缩，这是最核心的突破点；其次英语是全球性的语言，信息的量其实是全世界的人都在做贡献。如果放在中文环境，可能面临的挑战还是蛮多的，因为像是西方的文化本身是有推演演绎的哲学逻辑，但中文更复杂，理解难度大，所以相对于英文语料来说差了一个数量级。从中文的角度来讲，未来这些信息的抓取和训练，到底把英文的信息转成中文的，还是从中文直接就开始去做起？这个是一个比较大的十字路口。
人工智能到底可以发展到什么程度？
以为代表的人工智能技术具有强大的能力。一般我们讲人工智能发展分为三个阶段，战胜人类国际象棋大师的阶段属于弱人工智能，目前阶段基本上快到强人工智能，跟人脑的水平差不多，甚至超过人脑，再之后就是超人工智能，就是已经到把人类的这些知识都能覆盖到的阶段，有人预测到2030年或2040年可能实现超人工智能。
美国的益智问答大奖赛，人类冠军跟机器去PK，很难赢。所以像益智问答、算数，死记硬背等这些早都被人工智能Cover到了。然后就是像自动驾驶，语音的识别、视觉、翻译等这些几乎都可以实现人工智能，但像科学、像设计，像写书、像艺术这些东西短期人工智能还难以企及的，所以有一些讨论到底人工智能可以发展到什么程度，这里要提一个有意思的理论—约翰·希尔勒的“中文屋实验”，未来机器到底能不能有一些情感，它能不能发展到不可控的程度？这个尚未有结论，是个开放思考题留给大家。
以AI赋能，数据治理智能化的引擎
其实我们也对做了蛮多研究的，首先我们先问问可以帮助数据治理干些什么？它的回答：第一、能做一些数据治理的这种制度流程。第二、能分析一些数据的有效性、一致性。第三、数据治理的一些质量监测、安全合规，同时做一些任务自动化。针对它回答的第一点，我们让它列举 100 条制造业的行业数据标准，它可以大致给出符合期望的答案。
接下来让它写了一段“用 SQL 去检查身份证号码有效性的代码”，写得非常的完美，确实很强。
那么，数据治理该如何拥抱以为代表的新一轮的AI技术浪潮？
安全分类分级智能化实践
从实践出发，其实一直在做数据安全分类分级的智能化研发。在我们的产品平台架构中，我们通过训练行业分类分级大体系形成一套分类分级的语料库。再通过 Word to 将词向量的距离进行比较，也就是拿一个分类分级跟一个元数据取向量的距离。当然这个过程中肯定也要做一些优化。对于大段信息描述，我们通常采用拆词的方法，这个可能导致拆出来的信息没有意义，这个时候就需要人工优化。