国内AI大模型综述:ChaGPT取得突破性进展,国内大模型争相发布 中国之最oxox( 二 )


2)视觉类大模型:与语言模型类似 , 视觉类模型需要完成对图片的理解 。2023 年 4 月 6 日 , MetaAI 在官网发布了基础模型 Segment Anything Model(SAM)并开源 , 其 本质是基于 Transform 模型架构 , 可以对图像中的一切对象进行分割 。交互方面 , SAM 可使用点击、框选、文字等各种输入提示 , 指定要在图像中分割的内容 。精准分割为 大模型图像理解的基础 。图像理解可以在智能驾驶、图像识别、安防(人脸识别)等 方面进行利用 。
3)多模态融合:多模态为语言、图片、音频等多个模态的感知和认知融合 。多模态大 模型能够让机器结合环境因素来模拟人与人之间的交互方式 , 让图像、文本、语音等 模态之间的统一表示和相互生成 。多模态融合也是各大模型着重努力的方向 。当前 , 已有的大模型可在文本、图像等方面赋能 , 已有的渗透应用包括搜索引擎(Bing 等)、办公工具(Microsoft 365)、企业服务应用、垂直领域应用(金融、电商等) 等等 。根据 2023 阿里云峰会,阿里巴巴集团董事会主席兼 CEO 张勇表示“所有行业、 所有应用、所有软件、所有服务都值得基于新型人工智能技术、基于 AIGC 各方面技术 支撑、大模型支撑重做一遍” 。
大模型三要素:算力、算法、数据
大模型是“大数据 大算力 强算法”结合的产物 。1)算力是 AI 发展的基础设施 , 芯片至关重要 。算力的大小代表着对数据处理能力的 强弱 。芯片性能越好 , 大模型的处理能力越快 。比如 , 黄仁勋在 2023 年 2 月财报会中 表示“过去十年 , 通过提出新处理器、新系统、新互连、新框架和算法 , 并与数据科 学家、AI 研究人员合作开发新模型 , 已使大语言模型的处理速度提高了 100 万倍 。” 2)算法是 AI 解决问题的机制 , 源于算法理论发展、迭代优化 。不同算法可以看做解 决问题的不同路径 , 算法的优劣可以用空间复杂度与时间复杂度来衡量 。例如 , GPT 是在 Transformer 模型基础上发展的 , Transformer 由 GOOGLE 在 2017 年提出 。Transformer 相比于传统的循环神经网络(RNN)或卷积神经网络(CNN) , 在处理长 文本时具有更好的并行性和更短的训练时间 。
3)数据是算法训练的养料 , 前期需要给模型喂养大量数据 , 形成模型理解能力 , 中后 期数据质量决定了模型精度 。机器学习中要用标注好的数据进行训练 , 数据标注对未 经处理的初级数据进行加工处理, 转换为机器可识别信息 , 只有经过大量的训练 , 覆 盖尽可能多的各种场景才能得到一个良好的模型 。
当前 , 数据的丰富度和量对大模型的训练至关重要 , 只有大量数据的训练 , 大模 型才有理解能力涌现的可能 。当前训练数据集来源多为公开数据 , 比如根据 Alan D. Thompson 文章 , 列举的大模型的数据集包括维基百科、书籍、期刊、Reddit 链接、Common Crawl 和其他数据集等 。中后期 , 高质量数据将提升模型的精度 。比如更加事实性的数据将提升模型准确 性 , 更加通顺的中文语言将提升模型理解中文语言能力 。另外 , 高质量反馈数据 也可提高模型性能 , 比如 ChatGPT 采用人类强化学习 RLHF , 通过更专业的问题、 指令、人类反馈排序等加强模型理解人类语言逻辑 。最后 , 也可以通过更精准的 垂类数据 , 完成部分更细分领域模型搭建 。