>>第二是大算力,大算力是大模型的动力源泉,也是新华三非常擅长的地方 。我们知道,要训练一个大模型所需的计算量是由这个模型本身的规模和它所用的训练数据规模来决定的 。如果我们拿GPT3或者上一代的大模型为例,它每训练一次,大约需要10的23次方的计算量 。如果我们用现在比较先进的A100这样的算力,每秒可以算20万亿次,需要1000片计算100天 。假设我们现在让全世界80亿人都开始敲算盘来算,需要不停地敲100万年 。
>>除了数据、算力,还要有好的训练方法,就像人在学习过程中需要有老师、教育体系,给予我们好的指导一样 。实际上我们用相同的数据、相同规模参数的模型,用不同的方法来训练,最后的效果也大不一样,就好像我们让不同厨师用同样的食材、同样的厨具,他们做出来菜的味道也不一样 。所以要想把大模型训练好,我们还需要长期积累的经验 。
可见,训练大模型是一个非常复杂的系统工程,这就需要我们整个IT技术栈发生相应的变化 。我们知道,在PC时代和移动时代,技术栈大概是三层,也就是芯片、操作系统和应用 。但是到了IT时代,到了AI时代,IT技术栈变成了四层:
>>底层还是芯片层,但是这时候确实不再是以CPU为主,而是以GPU为主 。为了用GPU来解决大模型训练过程中的大规模并发计算的问题,百度研发了昆仑芯,大概在明年年初会规模上市的昆仑芯3很大程度上可以解决算力的问题 。
>>芯片上面是框架层,在这么复杂的算法前面,从零开始一行一行写代码基本不可能,需要一个好的开发框架,现在主要指深度学习的框架,可以帮助我们去使用和研发这个大模型 。像百度的飞桨,Meta的,谷歌的,都是在这一层 。
>>框架之上是模型层,模型层是基于下面的框架和芯片训练出来的模型,刚才提到的、文心一言都属于模型层 。除了文心一言,我们还有交通大模型、能源大模型等10多个行业大模型 。
>>再上面才是我们熟悉的应用层,通常要基于通用大模型,结合行业场景,去研发大量新的AI应用 。
我们讨论了这么多,大模型出现之前,其实AI已经诞生了 。就是刚才李滨总(紫光集团董事长)讲到的,大模型本身打破了人认识的边界,但它不是一下子出来的,是长期积累出来的 。在这个过程中,以前我们有大量的专属模型,包括语音识别、图象识别、文字识别等,这些识别在过去通常是一个单点功能,就像人的眼睛或者耳朵一样,但大模型出现以后就像有了大脑,可以把这些单点能力串起来,而且在串的过程中会出现越来越多的多模态融合的大模型 。
有了多模态融合的大模型以后,我们可以想象它对未来的影响,一方面会改变整个生产流程,大幅提高生产经营效率;另外一方面,因为它提供了人机交互这种非常自然的过程,可以使得用户的体验明显提升 。而这种生产经营效率的提升、用户交互体验的提升,会促进整个社会的加速,促进我们实现智能化的飞跃 。实际上现在全球很多领先的科技公司,都在用这种大模型来重塑他们的产品线,这里是重塑,而不是接入,不是简单的整合 。
在这个过程中,我相信很多企业会关心,这个大模型到底跟我们有什么关系?我的哪些业务场景能够跟它结合起来?我们做了大量调研之后发现,目前企业里主要在这五个方面对大模型有强烈的需求:知识管理、营销、代码生成、设计和对话 。
从3月份百度发布文心一言以后,我们也跟很多合作伙伴一起在探索内外部产品的迭代升级 。其中一个是在知识管理领域,百度内部用于知识管理的交流平台“如流”,上面有一个智能工具,可以基于这个工具去问公司里相关的规章制度以及遇到的问题,甚至给饭卡充钱等 。
- LF AIData 基金会主席孟伟:大模型开源与商业化仍处模糊地带
- ChatGLM-6B 大模型的前世今生
- 快讯|科大讯飞:将发布讯飞星火认知大模型 V1
- iPhone苹果手机如何将百度小程序添加到手机桌面方便使用?
- 垂直大模型,落地有多难?
- 再次斩获第一,文心3.5霸榜国内大模型
- “千模大战”下,讯飞星火被评为中国“最聪明”的大模型 中国之最测试
- pr破解版百度网盘 pr2020破解版百度网盘
- MIT科技评论:讯飞星火被评为中国“最聪明”的大模型 科技中国之最
- 国内AI大模型综述:ChaGPT取得突破性进展,国内大模型争相发布 中国之最oxox