通过CSIG—走进合合信息探讨生成式AI及文档图像处理的前景和价值( 二 ) _人工智能

也指出了目前最大的问题之一：作为大型语言模型，它无法实时与外部世界互动，也无法利用如计算器，数据库，搜索引擎等外部工具，导致它的知识也相对落后，而未来它更应该做到提高适时性、即时性、无害等等。总的来说，如果将 LLM 作为智能体本身，能够与外部交互之后，这些模型的能力一定会有更大的提升！
随着的大火，很多公司和组织都跟风，推出类似的聊天机器人产品。这也证明了大家认可聊天机器人技术的可行性和潜力，也让人们看到了聊天机器人在未来的巨大市场和应用前景。
2）文档图像处理方向的AI应用还存在巨大的挑战，但也有巨大的行业前景和价值
我们经常提到的图像超分辨率、去模糊、去噪、破损图像恢复等都属于底层视觉应用的范畴，底层视觉的特征非常明显：输入是图像，输出也是图像。比如：图像预处理、滤波、恢复和增强等：
近年来，随着人工智能、深度学习技术的快速发展以及在高层视觉任务上的出色表现，将其应用到底层视觉任务上的工作也逐渐涌现出来。然后面临的问题却很多，效果也不太理想。
来自上海交通大学的模式识别与智能系统博士，合合信息图像算法研发总监郭丰俊表示：底层视觉的理论和方法在众多领域都有着广泛的应用，如手机、医疗图像分析、安防监控等。重视图像、视频内容质量的企业、机构不能不关注底层视觉方向的研究。如果底层视觉没做好，很多 high-level 视觉系统（如检测、识别、理解）无法真正落地。看了他针对目前底层视觉技术在处理形变、模糊、阴影遮盖、背景杂乱的文档时遇到的典型问题，就公司技术团队在智能图像处理技术模块、融合技术典型应用、图像安全领域等领域的研究成果进行的分享后我深表赞同。
之后他介绍了合合信息智能文档处理技术基于对图像目标区域的精准裁剪，对弯曲、倾斜透视的页面进行形变矫正，在去除阴影、摩尔纹后，通过人工智能技术对文档图像进行增强锐化和清晰度提升，能达到“图像质量增强”的效果，在改善阅读体验的同时，也提升了识别转换、图像分析等文档处理下游任务的质效，相关技术已通过“扫描全能王”等智能文字识别产品，服务全球上百个国家和地区的上亿用户：
去年我也使用过合合科技的PS检测合摩尔纹去除等服务，效果都很不错，特别是PS检测上，这一直是很多行业迫切需要解决的难点，特别是在保险、金融、银行等领域，如果将虚假篡改过的信息资料审核通过可能会带来巨大的影响甚至是经济上的损失：
会议中，来自中国科学技术大学语音及语言信息处理国家工程实验室副教授杜俊做的文字识别工作也惊艳到了我。

文章插图
如果仅仅是标准字体的图文识别，那相对来说很简单，但在很多现实场景中，字不一定会以规范的印刷体的形式出现，这就给字的识别带来了挑战，比如学生作业及试卷的错别字检测，医嘱识别等场景，如果能够通过自动化代替人工来做的话会对效率的提升和数据汇总分析等是特别有价值的。
杜俊教授的团队创建了一套基于部首的汉字识别、生成与评测系统，因为与整字建模相比，部首的组合要少得多：
其中，识别与生成是联合优化的，这有点像学生学习时识字与写字互相强化的过程。评测的工作以往大多聚焦在语法层面，而杜俊的团队设计了一种可以直接从图像中找出错别字并详细说明错误之处的方法。这种方法在智能阅卷等场景中将非常有用。