ChatGPT能解决信息抽取吗？一份关于性能、评估标准、鲁棒性和错误的分析( 二 ) _性能

（4）其他
本文探讨了是否可以区分RE-RC子任务中两个实体的主客观顺序。由于大多数关系类型都是非对称的，因此两个实体的顺序非常关键。对于非对称关系类型的每个实例，交换实体的顺序并检测预测结果的变化，结果如图所示。
可以看到，交换顺序后大多数预测结果(超过70%)与交换前保持不变。因此对于RE-RC子任务，对实体的顺序不敏感，而且无法准确理解实体的主客体关系。
4、错误类型分析
从图中可以看出，“ spans”、“ types”和“ spans”是三种主要的错误类型，占70%以上。特别是，几乎三分之一的错误是“ spans”的错误，这也引发了对标注数据质量的担忧。
总结
本文从性能、评估标准、鲁棒性和错误类型四个角度评估了的信息抽取能力，结论如下：
性能本文评估了在zero-shot、few-shot和chain-of-场景下的17个数据集和14个IE子任务上的性能，发现和SOTA结果之间存在巨大的性能差距。
评估标准本文重新审视了性能差距，发现硬匹配策略不适合评估，因为会产生human-like的回复，并提出软匹配策略，以更准确地评估的性能。
鲁棒性本文从四个角度分析了对14个子任务的鲁棒性，包括无效输出、无关上下文、目标类型的频率和错误类型并得出以下结论：1）很少输出无效响应；2）无关上下文和长尾目标类型极大地影响了的性能；3）不能很好地理解RE任务中的主客体关系。
错误类型通过人工检查，本文分析了的错误，总结出7种类型，包括 spans、 spans、 spans、 span 、 types、 types和other 。发现“ spans”是最主要的错误类型。这引发了大家对之前标注数据质量的担心，同时也表明利用标记数据的可能性。
进NLP群—>加入NLP交流群