GPT4多模态预期落空 关于AIGC还有什么值得畅想?

《科创板日报》3月7日讯(编辑 邱思雨)
自走红以来 , 市场不乏追捧、跟风、质疑等等各类声音 。背后的语言模型——GPT的技术进展 , 也成为了市场关注的焦点 。各方对GPT4的猜测不断 。在A股市场上 , 各类预期概念炒作也层出不穷 。
目前来看 , 纯文本交流已逐渐无法满足公众对于人工智能的期待 , 多模态(包含文本、图像、视频处理)是最受关注的技术变革方向 。
而多模态大模型究竟何时到来?GPT4到底有什么更新?就此 , 《科创板日报》整理了目前已知的GPT4爆料、多模态大模型相关资料等 。
GPT4多模态预期落空 -1横空出世
国盛证券、天风证券等机构曾认为 , GPT4可能是一个多模态模型 , 可用于图像等领域 , 有望极大刺激视频处理的需求 。自多模态传闻兴起后 , 相关概念股也纷纷冲高 。其中 , 当虹科技(.SH)在4个交易日(2月27日-3月2日)内累计涨幅超过50% 。
但据、等外媒报道 , 创始人Sam 否认了多模态的可能性 , GPT-4仍然是纯文本模式 。基于此 ,  AI的分析师 猜测 , 在跳到下一代多模态人工智能之前 , 试图通过对模型和数据集大小等因素进行调整来达到语言模型的极限 。
而承载了公众对于多模态人工智能的期望的 , 是另一个语言模型——-1 。据ZDNET等外媒报道 , 微软近日推出的多模态大型语言模型-1 , 可以处理文本、音频、图像和视频等内容 。
图片来源于微软
微软表示 , 用于训练-1资料同样源自网络 。为了让-1能进一步理解图像内容 , 研究人员事先将图像以文字内容加上大量标记 , 让-1能够进一步理解图像内容 , 藉此实现多模态运作 。
相关研究人员在学术论文中写道:“作为智能的基本组成部分 , 多模态感知是实现人工智能的必要条件 。”加入图像内容理解能力之后 , -1不仅能够识别文字以外的图像内容 , 甚至能进一步判断视频内容 。
有关GPT4的一切
多模态、参数量暴涨、革命性突破、与人类无异……公众对GPT4加诸了许多想象 , 并翘首以盼它的到来 。在A股市场上 , 各类概念炒作也层出不穷 。

GPT4多模态预期落空 关于AIGC还有什么值得畅想?

文章插图
与多模态一样 , 参数量暴涨一事同样被创始人Sam 否定 。称 , GPT4并没有数千、数万亿个参数要训练 , 其参数量并不会比GPT3高出太多 , 因为研发的重心在如何提升数据利用效率上 。此前有市场传闻称 , GPT4参数量或有指数级暴涨 , 达到100万亿个 。
据最新报道 , 有专家指出 , 同为大语言模型的 3所用的参数比GPT3多很多 , 但前者的测试表现并没有超过后者 , AI领域内 , 数据越多并不意味着越好 。与此同时 , 提升算法效率有助于降低GPT4的运行成本 。
【GPT4多模态预期落空 关于AIGC还有什么值得畅想?】不过值得一提的是 , GPT4的编码能力或许更强大 。据外媒ZDNET今年1月报道 , 正积极招聘程序员 , 要求应聘者能用日常语言来描述代码的功能 。基于此 , 业内普遍预测 , GPT4的编码能力或将有新的突破 , 目前 , 微软和共同开发的AI编程工具 已经在使用微调后的GPT3 , 来将自然语言转换成代码 。