【NLP】ChatGPT 的议论文究竟写的怎么样？111 位高中教师告诉你答案 _论文

夕小瑶科技说原创
作者 | 小戏、
在GPT-4 发布时发布的《GPT-4》中，其中很吸引人眼球的一部分是 GPT-4 应用于教育领域的出色表现，通过让 GPT-4 去完成美国的 AP 课程及考试，来评估 GPT-4 在多个学科中的性能。如下图所示，GPT-4 在大量课程中都取得了令人印象深刻的成绩，并且在一些 GPT-3.5 表现不佳的课程，如化学、宏观经济、物理与统计学中都获得了极大的提升。
但是如果细看上面这张图，可以发现，GPT-4 在 AP 英国文学中表现不尽如人意，对于一个学习了大量语料知识的语言模型，这一点可能会让人感到费解。当然这里存在一个评估问题，对于自由写作的文本而言，并没有公布它们的评估标准，如果缺少这种细化的评估标准，很难直接得到一个 GPT-4 不擅长英国文学题的结论。
由此，立足于教育的领域，来自德国帕绍大学的研究者们组织了一次细致的评估工作，其主题在于“大模型可以写好议论文（）吗？”，通过构建一个基于内容和语言掌握程度的细致的文章质量评分标准，聘请了 111 位一线的高中教师对大模型生成的问题进行评分，这篇论文发现，大模型在作者构建的评分标准中，得分普遍高于德国高中生写作的议论文，但是另一方面，人类的写作与 AI 的写作在风格上存在显著的差异，人类倾向于在议论文中更多的表达自己的态度与认知结构，而 AI 则更多的使用高级的、复杂的、更“科学”的语言（名词化的结构）去进行论证。而在风格多样性方面，从GPT-4 到 GPT-3.5 迈出了一大步，GPT-3.5 的语言多样性仍然显著低于人类，但是 GPT-4 的语言丰富度已经开始显著高于人类。
论文题目：
AI, write an essay for me: A large-scaleof human--
论文链接：
如果带着问题出发，这篇论文核心主要是希望解决三个方面的问题，分别是：
基于 GPT-3.5 和 GPT-4 的大模型在撰写议论文方面表现如何？
大模型生成的文章与人类撰写的文章相比如何？
大模型写作相较于人类突出的语言特征是什么？
带着这三个问题，论文设计并实施了一套完整的评估流程。首先，论文作者从一个议论文语料库（）中选取主题，是一个拥有大量高中生用户的活跃的文本写作社区，许多非母语的高中生经常去此社区去获得对自己作文文章的反馈。包含有 90 个主题的文章，主题范围从“学生应该被教育去竞争还是合作？”到“报纸在未来会被取代吗？”等等，每个主题都会有一个由人类撰写的文章被上传并在论坛内进行讨论，这些文章平均约 19 个句子，接近 400 余个单词。通过设定不同的主题，论文作者设置了“在【主题】上写一篇大约200字的文章”的输入 GPT-3.5 与 GPT-4 。
在获得了 AI 的写作文章后，论文作者又组织了针对评分者（高中老师）的关于基础知识的培训讲座，参与老师的主要所在学科包括语言（英语，法语和德语），宗教，伦理和科学等等。在两个小时的讲座与四十五分钟的讨论后，参与教师收到了关于文章评分的问卷，这份问卷包含了文章评估相关的七个评估标准，分别是：
具体量表如下图所示，每类指标需要专家进行打分，分值从0-6，0 分最低，6 分最高。每位参与者都会被展示六篇随机选择的文章，在评估完成后，结果将提交到系统中供论文作者统计。
而进一步的，为了将 AI 生成的文章与学生写作的文章进行对比，论文考虑了词汇多样性、句法复杂性、名词化、情态动词、认知标记与话语标记六类语言特征，使用计算语言学的方法对这六类特征进行统计处理。其中词汇多样性方面，论文使用文本词汇多样性度量（MTLD）确定词汇丰富程度，在句法复杂性方面，论文度量句子依存树的最大深度与从属从句结构来评估句子复杂性，在名词化方面，论文统计了具有诸如“-ion”，“-ment”，“-ance”和其他一些已知将动词转化为名词的后缀词的出现次数，在情态动词与认知标记方面，论文都采用了词性标注的方法进行识别，以统计如“我认为”，人们认为”，“在我看来”这类认知标记的出现频次。而在话语标方面，论文采用了 PDTB 的话语标记序列对如如“like”、“for”、“in”等话语标记词进行统计。