【NLP】ChatGPT 的议论文究竟写的怎么样?111 位高中教师告诉你答案

夕小瑶科技说 原创
作者 | 小戏、
在GPT-4 发布时发布的《GPT-4》中,其中很吸引人眼球的一部分是 GPT-4 应用于教育领域的出色表现,通过让 GPT-4 去完成美国的 AP 课程及考试,来评估 GPT-4 在多个学科中的性能 。如下图所示,GPT-4 在大量课程中都取得了令人印象深刻的成绩,并且在一些 GPT-3.5 表现不佳的课程,如化学、宏观经济、物理与统计学中都获得了极大的提升 。
但是如果细看上面这张图,可以发现,GPT-4 在 AP 英国文学中表现不尽如人意,对于一个学习了大量语料知识的语言模型,这一点可能会让人感到费解 。当然这里存在一个评估问题,对于自由写作的文本而言, 并没有公布它们的评估标准,如果缺少这种细化的评估标准,很难直接得到一个 GPT-4 不擅长英国文学题的结论 。
由此,立足于教育的领域,来自德国帕绍大学的研究者们组织了一次细致的评估工作,其主题在于“大模型可以写好议论文( )吗?”,通过构建一个基于内容和语言掌握程度的细致的文章质量评分标准,聘请了 111 位一线的高中教师对大模型生成的问题进行评分,这篇论文发现,大模型在作者构建的评分标准中,得分普遍高于德国高中生写作的议论文,但是另一方面,人类的写作与 AI 的写作在风格上存在显著的差异,人类倾向于在议论文中更多的表达自己的态度与认知结构,而 AI 则更多的使用高级的、复杂的、更“科学”的语言(名词化的结构)去进行论证 。而在风格多样性方面,从GPT-4 到 GPT-3.5 迈出了一大步,GPT-3.5 的语言多样性仍然显著低于人类,但是 GPT-4 的语言丰富度已经开始显著高于人类 。
论文题目:
AI, write an essay for me: A large-scaleof human--
论文链接:
如果带着问题出发,这篇论文核心主要是希望解决三个方面的问题,分别是:
基于 GPT-3.5 和 GPT-4 的大模型在撰写议论文方面表现如何?
大模型生成的文章与人类撰写的文章相比如何?
大模型写作相较于人类突出的语言特征是什么?
带着这三个问题,论文设计并实施了一套完整的评估流程 。首先,论文作者从一个议论文语料库()中选取主题, 是一个拥有大量高中生用户的活跃的文本写作社区,许多非母语的高中生经常去此社区去获得对自己作文文章的反馈 。包含有 90 个主题的文章,主题范围从“学生应该被教育去竞争还是合作?”到“报纸在未来会被取代吗?”等等,每个主题都会有一个由人类撰写的文章被上传并在论坛内进行讨论,这些文章平均约 19 个句子,接近 400 余个单词 。通过设定不同的主题,论文作者设置了“在【主题】上写一篇大约200字的文章”的输入 GPT-3.5 与 GPT-4 。
在获得了 AI 的写作文章后,论文作者又组织了针对评分者(高中老师)的关于基础知识的培训讲座,参与老师的主要所在学科包括语言(英语,法语和德语),宗教,伦理和科学等等 。在两个小时的讲座与四十五分钟的讨论后,参与教师收到了关于文章评分的问卷,这份问卷包含了文章评估相关的七个评估标准,分别是:
具体量表如下图所示,每类指标需要专家进行打分,分值从0-6,0 分最低,6 分最高 。每位参与者都会被展示六篇随机选择的文章,在评估完成后,结果将提交到系统中供论文作者统计 。
而进一步的,为了将 AI 生成的文章与学生写作的文章进行对比,论文考虑了词汇多样性、句法复杂性、名词化、情态动词、认知标记与话语标记六类语言特征,使用计算语言学的方法对这六类特征进行统计处理 。其中词汇多样性方面,论文使用文本词汇多样性度量(MTLD)确定词汇丰富程度,在句法复杂性方面,论文度量句子依存树的最大深度与从属从句结构来评估句子复杂性,在名词化方面,论文统计了具有诸如“-ion”,“-ment”,“-ance”和其他一些已知将动词转化为名词的后缀词的出现次数,在情态动词与认知标记方面,论文都采用了词性标注的方法进行识别,以统计如“我认为”,人们认为”,“在我看来”这类认知标记的出现频次 。而在话语标方面,论文采用了 PDTB 的话语标记序列对如如“like”、“for”、“in”等话语标记词进行统计 。