国内AI大模型综述:ChaGPT取得突破性进展,国内大模型争相发布 中国之最oxox( 五 )


阿里巴巴通义大模型模型简述:由通义-M6模型融合语言模型和视觉模型组成
通义大模型最早发布于 2022 年 9 月 2 日 , 在阿里达摩院主办的世界人工智能大会 “大规模预训练模型”主题论坛上 。通义大模型实际上是由一系列模型组成 , 包 括统一底座“M6-OFA” , 三大通用模型“通义-M6”“通义-AliceMind”“通义- 视觉大模型” , 以及行业层面的不同垂直领域专业模型 。通义系列前身为 M6 , 是阿里达摩院研发的通用性多模态大模型 , 特点是训练能耗 显著降低 。M6 自 2020 年初正式启动研发 , 于 2021 年 1 月/3 月/5 月分别发布百 亿/千亿/万亿参数多模态预训练模型 。2021 年 10 月发布十万亿参数模型 , 并且 支持使用 512 GPU 在 10 天内即训练出具有可用水平的 10 万亿模型 , 同等参数下 相较于 GPT-3 能耗降低 99% 。
M6 融合语言模型和视觉模型 , 形成当前的通义系列大模型 。2022 年 1 月 , 阿里 M6 发布了统一大模型 M6-OFA , 可以实现不同模型之间的模态表示、任务表示、模 型结构的统一 。以 M6-OFA 为统一底座 , 阿里巴巴将另外两大模型“AliceMind” “视觉大模型”与 M6 进行融合 , 形成了当前的通义系列架构 。其中 , 通义 -AliceMind 为深度语言模型体系 , 包含了通用语言模型 StructBERT、生成式 PALM、结构化 StructuralLM、超大中文 PLUG 、多模态 StructVBERT、多语言 VEC 等多个不同模型 , 具有阅读、写作、翻译、问答、搜索、摘要生成、对话等多种 能力;通义-视觉大模型包括文本到视觉生成、语言和视觉的模态映射两大基础模 型 , 可以提供文生图等能力 。
模型应用:率先应用在硬件终端天猫精灵和软件通义千问
硬件终端方面:天猫精灵基于通义大模型推出拟声助手“鸟鸟分鸟” 。4 月 4 日 ,  脱口秀演员鸟鸟在微博发布了一条关于天猫精灵的演示视频 。根据公司和鸟鸟的 介绍 , “鸟鸟分鸟”是天猫精灵联合阿里达摩院 , 基于通义大模型 , 对鸟鸟录制 的一个多小时音频进行学习训练而成 。从形态上看 , “鸟鸟分鸟”本身是一个对 话机器人 , 具备多轮对话能力 , 并且还能利用搜索引擎等工具 。个性化是“鸟鸟 分鸟”最大特点 , 具备拟人化的音色、语气、表达方式 。我们推测 , 这意味着通 用大模型将有可能在表达方式层面实现较低成本的定制化 。
对话式通义千问已经开始内测 , 包含 9 款“百宝袋”小应用 。4 月 7 日 , 阿里云 宣布大模型“通义千问”上线 , 并定向邀请企业用户进行测试 。测试版的通义千 问与 ChatGPT 和文心一言在界面上相似 , 都是采用问答对话的形式 。此外 , 通义 千问在对话模式之外 , 制作了 9 款称为“百宝袋”的小应用 , 可以分为三类:1) 效率类:写提纲、SWOT 分析、商品描述生成;2)生活类:会放飞的菜谱、小学 生作文、然后呢;3)娱乐类:彩虹屁专家、写情书、为你写诗 。我们认为 , 未来 阿里大模型有望添加至阿里系电商和钉钉等场景中 , 带动用户体验和效率的提升 。
腾讯混元大模型模型简述:热启动降低训练成本 , 文字视频等多领域表现优异
“混元”AI 大模型由 TEG 数据平台部和机器学习平台部联合主导 , 涵盖计算机视 觉、自然语言处理、多模态内容理解、文案生成、文生视频等方向 。“混元”AI 大模型由腾讯 17 级研究员/杰出科学家(腾讯史上最高专业职级)张正友博士带 队 , 2022 年 4 月公司首次披露研发进展 , 目前已更新至 2.0 版本 。性能上看 , “混元”大模型在文字、视频等多个领域表现优异 。其中 HunYuan-tvr 模型 在文字 和视频在全球 最具权威的 MSR-VTT , MSVD , LSMDC , DiDeMo 和 ActivityNet 五大跨模态视频检索数据集榜单排名第一 , 实现该领域的大满贯; HunYuan-NLP 1T 模型在 CLUE(中文语言理解评测集合)总榜、分类榜和阅读理解 榜排名第一 。