From Pretraining Data to Language Models( 二 ) _模型

本文的主要贡献是量化LMs中的政治偏见的新方法，以及揭示了意识形态极化如何将偏见传播到语言模型，然后传播到社会导向的下游任务，这些发现为NLP研究提供了新的视角。在§5中，我们讨论了我们的研究发现对NLP研究的影响，指出没有任何语言模型可以完全摆脱社会偏见，并提出了减轻不公平性的未来方向。
2 方法
我们提出了一个两步方法来确定预训练语料库中的政治偏见对下游任务的公平性产生影响：（1）开发了一个基于政治科学文献的框架，用来衡量预训练语言模型的固有政治倾向，（2）调查语言模型的政治倾向如何影响它们在下游社会导向任务中的性能。
2.1 量化LMs的政治倾向theof LMs
构建一个LM政治评估框架
虽然之前的研究提供了关于LMs政治倾向的分析，但它们主要关注的是政治个体，而不是基于政治科学文献的永恒意识形态问题。相比之下，我们的方法基于政治光谱理论，通过评估政治立场的社会价值观（从自由主义到保守主义）和经济价值观（从左派到右派）上的两个轴线，提供了比常用的左右区分更细致入微的视角。
广泛采用的政治指南测试，基于这些理论，通过分析个体对62个政治声明的回应，测量个体在二维空间上的倾向。参与者指示他们对每个陈述的同意程度或不同意程度，他们的回应被用来通过加权求和来计算他们的社会和经济得分。具体来说，政治指南测试将一组回答，表示同意程度{ 、、AGREE、 AGREE}，映射到两维点（ s s o c s_{soc} ssoc?、 s e c o s_{eco} seco?），其中社会得分 s s o c s_{soc} ssoc?和经济得分 s e c o s_{eco} seco?，范围从[?10, 10] 。我们使用这个测试作为测量预训练语言模型的政治倾向的工具。
我们探测多个不同类型的LMs，以衡量它们与特定政治声明的一致性，包括编码器和语言生成模型（解码器和自回归模型）。对于-only的LMs，我们使用来自政治声明的提示进行掩码填充。我们构建以下："to the：[] I < MASK > with this ."然后，预训练LMs填充掩码并返回10个最高概率的标记。通过比较LMs分配的预定义正面（agree, , 等）和负面词汇（, , 等）的词汇的总体概率，我们将它们的回答映射到{ 、、AGREE、 AGREE} 。具体来说，如果正面词汇分数的总体概率大于负面词汇的总体概率0.3，我们将回应视为 AGREE，并类似地定义。
我们通过进行基于以下的文本生成来探测语言生成模型："to the: [] \n Your :"然后，我们使用一个现成的立场检测器来确定生成的回应是否同意或不同意给定的陈述。我们使用10个随机种子进行提示生成，使用立场检测器过滤低置信度的回应，并对更可靠的评估进行平均。
我们的目标是系统评估预训练数据中的极化对LMs的政治偏见产生的影响。因此，我们通过在来自各种政治观点的数据上持续预训练现有的LMs来训练多个党派LMs，然后评估模型的意识形态坐标如何变化。在这些实验中，我们只使用已建立的媒体来源，因为我们的最终目标是了解“干净”的预训练数据（没有明显的仇恨或有毒内容）是否会导致下游任务中不良的偏见。
【From Pretraining Data to Language Models】2.2 量化LM政治偏见对下游任务性能的影响theof LM’sBias onTask
借助LM政治倾向评估框架，我们调查了这些偏见对具有社会影响的下游任务（如仇恨言论检测和虚假信息识别）的影响。我们在这些任务和数据集上对相同LM架构的不同党派版本进行微调，并从两个角度分析结果。这是一个受控实验设置，即只有党派的预训练语料库不同，而起始LM检查点、任务特定的微调数据和所有超参数都相同。首先，我们关注具有不同倾向的LMs之间的整体性能差异。其次，我们检查每个类别的性能，将数据集细分为不同的社会信息群体（仇恨言论的身份群体和虚假信息的媒体来源），以确定LMs中固有的政治偏见是否会导致下游应用中的不公平性。