新基建风向标:关于ChatGPT,必知10件事!( 四 )


2023年开始,微软将技术大规模纳入到了自己的产品和服务中 。2022年推出 ,2023年推出 365 、 365 等,直接将GPT/的超强人工智能体验推向了最广大的普通用户 。特别是 365 和New Bing将GPT/的技术嵌入到办公软件和Bing搜索引擎中,引起了极大的关注 。微软还通过Azure智能云,向全球提供服务,包括GPT、DALL-E等 。
什么是大模型的涌现性?
说到大模型,就必须提到大模型的涌现性 。在GPT-1和GPT-2阶段,模型的参数还只有亿级和十亿级,业界对于模型参数越大的价值,仍然存疑 。实际上,从GPT-1到GPT-4,模型本身并没有太多的变化,主要是参数规模从亿级飞跃到千亿甚至万亿级 。而向人们展示了,千亿级超大规模模型的价值:涌现性 。
所谓涌现性,就是当全部人类的知识被存储在千亿级大模型中、这些知识被动态连接起来的时候,大模型所具有的智能就显现了远超出人们预期的效果 。众所周知,从GPT到大模型,所采用的预训练数据主要来自互联网,那么当一个超大规模AI模型学习了所有互联网数据后,这样一个AI模型的智慧程度就出现了“涌现”现象 。例如,可以写出具有相当专业水准的商业文案、能够创作诗歌和文学作品、能够与人类进行哲学层面的对话等 。在GPT-4发布后,相继有测试表明,GPT-4可以轻松通过律师资格考试、会计师考试、大学入学考试等,甚至能够达到满分或近于满分的成绩 。有报道称,美国大学生用撰写了高质量的论文,被教授用反向查出来该论文为撰写 。
还能够进行高质量的编程 。自2022年微软推出基于GPT/技术的 以来,上数以百万计的程序员体会了人工智能编程的高质量和高效率 。前和特斯拉AI总监 (2023年2月宣布再次加入)在2023年初发布推特称,他现在80%的代码都是由 自动生成 。搜索引擎New Bing可以直接把一段代码转换为Rust代码,用户只需要在Edge浏览器中使用Bing,拷贝代码并输入“使用Rust语言重写这段代码”,即可自动生成高质量的Rust代码 。
业界专家认为,通过同时增大计算量、数据量和模型参数规模,模型性能或许能够无上限提高,也就是将人类的知识、思考和记忆能力等都连接在一起后,就能出现进化的奇点——智慧水平无限提升 。
还有哪些大模型?
从NLP模型到(超)大模型,模型参数量级一路飙升到百亿、千亿甚至万亿级,很多科技公司都加入到了大模型和超大模型的战备竞争中 。说到“战备”,实际上是因为大模型和超大模型的训练和运营成本十分高昂,属于极为烧钱的项目,而又难以在短时间内看到明确的商业回报,以至于几乎没有一家商业公司肯向大模型和超大模型进行实际的投资 。在前期作为一家公益机构,又获得了微软的数十亿美元投资,才成就了 。
自从谷歌推出以来,很多科技公司都基于推出了自己的NLP(超)大模型 。除了外,还有微软推出的具有170亿参数的- NLG、谷歌推出的具有1.6万亿参数的-C和具有5400亿参数的PaLM以及具有4800亿参数的Bert、英伟达推出的具有5300亿参数的- NLG,Meta发布的具有70亿、130亿、330亿和650亿参数规模的LLaMA,以及百度推出的具有2600亿参数的文心ERNIE 3.0、腾讯推出的具有万亿参数的混元NLP、阿里推出的具有270亿参数的PLUG、华为推出的具有2000亿参数的盘古语义、浪潮推出的具有2457亿参数的源1.0、复旦大学推出的具有百亿级别参数的Moss等等 。
除了NLP大模型外,多家公司也推出了多模态(超)大模型,例如阿里的M6、中科院自动化所的“紫东·太初”、百度的文心、华为的盘古、智源研究院的悟道2.0、谷歌的PaLM-E、的Clip等 。所谓多模态大模型,不仅能够处理NLP自然语言理解任务,还可以处理CV视觉图像识别以及文生图、视觉-语言等跨模态任务 。