通过CSIG—走进合合信息探讨生成式AI及文档图像处理的前景和价值

一、前言
最近有幸参加了由中国图象图形学学会(CSIG)主办,合合信息、CSIG文档图像分析与识别专业委员会联合承办的“CSIG企业行——走进合合信息”的分享会,这次活动以“图文智能处理与多场景应用技术展望”为主题,聚焦图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等热门话题,特邀来自上海交大、复旦、厦门大学、中科大的知名高校的学者与合合信息技术团队一道,以直播的形式分享文档处理实践经验及NLP发展趋势,探讨与文档处理未来 。经过此次会议,让我对AI图像、文档处理方面有了更深刻的理解,下面聊聊我的一些感悟和想法 。
二、感悟分享 1)生成式人工智能将在未来成为主流
会议开始,来自上海交大的杨小康教授带来了他的报告《生成式人工智能与元宇宙》
生成式人工智能这个词对于非AI领域的同学一定很陌生,但它就在我们身边,这里给大家简单说明一下:
我们熟知的通过AI进行图像识别、垃圾邮件检测、数据预测、自动驾驶等这些都属于分析或决策式的人工智能,我们给机器大量的数据,建立学习模型,让它们能够比人类更高效精准的完成一些任务 。而生成式人工智则是进行“创造”,通过从数据中学习要素,进而生成全新的、原创的内容或产品,它不仅能够实现传统AI的分析、判断、决策功能,还能够实现传统AI力所不及的创造性功能,如今大火的、AIGC都属于生成式人工智能,2021年4月,英伟达公司创始人兼首席执行官黄仁勋的演讲会就有15秒的视频通过生成式人工智能合成的:
杨小康教授在会议中首先分享了他们对元宇宙和生成式人工智能发展趋势和价值:
然后介绍他们在流体现象模拟推理、物理环境持续预测学习、强化学习中世界模型表征解耦、虚拟数字人重建与驱动等方面的生成式人工智能取得成果:
并表示,目前的生成式人工智能还存在解空间巨大、宏观一致性差、微观清晰度受限等问题,需要通过数学、物理、信息论、脑认知、计算机等学科交叉研究,进一步夯实生成式人工智能的基础理论,通过“物理+数据”联合驱动,“虚拟+现实”深度融合,助力科学发现的加速 。
随着人工智能技术的飞速发展,生成式AI仿佛一股清流般涌入了人类的日常生活,充满创造力的新世界就此呈现在我们的眼前 。
【通过CSIG—走进合合信息探讨生成式AI及文档图像处理的前景和价值】据国际IT研究机构预测,到2025年,生成式人工智能产生的数据将占据人类全部数据的10% 。可以明显的看到,生成式人工智能技术正加速数字经济的发展,生成型人工智能已经成为一个重要的研究领域,因为它能够弥合物理世界和数字领域之间的差距 。它的重要性在于它能够将现实世界中的结构、操作和规则映射到计算机模型中,从而使计算机能够模仿人类的行为 。此外,它在各个行业的应用表明了它改变我们生活的潜力 。展望未来,这一领域的研究可能会集中于“新智能”模型,如转移学习、深度强化学习和贝叶斯优化,以及基于大数据和无监督学习技术的应用 。
我很赞成杨小康教授的一个观点就是:生成式人工智能是构建元宇宙的一个可行的途径 。而且在不久的将来,以“识别——分析”为代表的判别式人工智能将被“合成——重建”为代表的生成式人工智代替而成为主流 。

通过CSIG—走进合合信息探讨生成式AI及文档图像处理的前景和价值

文章插图
另外,复旦大学计算机学院教授邱锡鹏也对大语言模型的关键技术进行了深度剖析,他从大规模预训练语言模型带来的变化、 的关键技术及其局限性等角度深入地介绍了大规模语言模型的相关知识: