From Pretraining Data to Language Models( 六 ) _模型

5 降低政治偏见影响的方法
我们的研究结果表明，政治偏见可能导致严重的公平性问题。具有不同政治偏见的模型对于何为冒犯内容和何为不冒犯内容，以及何为虚假信息和何为非虚假信息有不同的预测。例如，如果用于检测仇恨言论的内容审查模型对针对男性的冒犯性内容更为敏感，那么女性可能会暴露于更多有害内容之中。类似地，如果虚假信息检测模型对一个故事的一方过于敏感，并更频繁地检测到来自该方的虚假信息，那么它可能会导致对整体情况的呈现出有偏倚的表示。我们讨论了两种减轻LM政治偏见影响的策略。
党派集成第4.2节的实验结果表明，具有不同政治偏见的LM在应用于下游任务时表现出不同的行为，具有不同的优势和劣势。受到有关在下游任务中分析不同政治观点的现有文献的启发，我们提出使用具有不同政治倾向的预训练LM的组合或集成，以利用它们的集体知识来进行下游任务。通过结合代表不同观点的多个LM，我们可以引入一系列观点到决策过程中，而不仅仅依赖于由单一语言模型代表的单一观点。我们评估了一种党派集成方法，并在表6中报告了结果，结果表明党派集成积极地融合了不同的政治观点，从而提高了模型的性能。然而，需要注意的是，这种方法可能会带来额外的计算成本，并可能需要人工评估来解决差异。
表6：最佳和平均单一模型以及党派集成在仇恨言论检测和虚假信息检测上的性能。党派集成显示出通过引入多个观点来提高任务性能的巨大潜力。
战略性预训练另一个发现是，LMs对来自与其自身政治立场不同的政治观点的仇恨言论和虚假信息更为敏感。例如，当语言模型在来自右倾来源的语料库上进行了预训练后，它更擅长识别《纽约时报》新闻中的事实不一致之处。
这为创建针对特定场景的模型提供了机会。例如，在一个专注于检测白人至上主义团体的仇恨言论的下游任务中，进一步在更加批评白人至上主义的社群的语料库上对语言模型进行预训练可能会带来好处。战略性预训练可能在特定场景中有很大的改进空间，但策划理想的场景特定预训练语料库可能会面临挑战。
我们的工作为识别语言模型固有的政治偏见开辟了新的途径，建议进一步研究以更好地理解如何减少和利用这种偏见来应对下游任务。
6 相关工作 7 总结