大语言模型的西方文化偏见

图片:CTOCIO/Midjourney

佐治亚理工学院研究人员的一项新研究发现,即使在提示使用阿拉伯语或仅用阿拉伯语数据训练的情况下,大型语言模型 (LLM) 仍会对与西方文化相关的实体和概念表现出明显偏见。

这篇发表在 arXiv 上的研究论文引发了人们对强大的人工智能系统在全球部署时文化公平和适用性的担忧。

研究人员在其题为“祈祷后喝啤酒?衡量大型语言模型中的文化偏见”的论文中写道:“我们证明了多语言和阿拉伯语单语 [大语言模型] 都表现出对与西方文化相关的实体的偏见。”

尽管多语言能力取得了进步,但该研究揭示了大型语言模型在理解文化细微差别和适应特定文化背景方面面临的挑战。

大型语言模型西方文化偏见的潜在危害

研究人员的发现让人们担心文化偏见会如何影响来自非西方文化、与由大型语言模型驱动的应用程序互动的人们。“由于大型语言模型在未来几年可能会通过许多新应用程序产生越来越大的影响,因此很难预测此类文化偏见可能造成的全部潜在危害,”该研究作者之一 Alan Ritter 在接受 VentureBeat 采访时表示。

Ritter 指出,当前大型语言模型的输出延续了文化刻板印象。“当提示生成有关具有阿拉伯名字的个人的虚构故事时,语言模型倾向于将阿拉伯男性名字与贫困和传统主义联系起来。例如,GPT-4 更有可能选择诸如 ‘刚愎自用’、‘贫穷’ 或 ‘谦虚’ 等形容词。相比之下,在有关西方名字的个人生成的​​故事中,诸如 ‘富裕’、‘受欢迎’ 和 ‘独特’ 等形容词更常见,” 他解释道。

此外,该研究发现,当前的大型语言模型对非西方文化的人表现更差。“在情感分析方面,大型语言模型对包含阿拉伯实体的句子也做出更多误判,这表明将阿拉伯实体与负面情感错误关联的现象更多,” Ritter 补充道。

该研究的主要研究者和作者 Wei Xu 强调了这些偏见的潜在后果。“这些文化偏见不仅会伤害来自非西方文化的用户,还会影响模型执行任务的准确性并降低用户对技术的信任,” 她说。

引入 CAMeL:评估文化偏见的新基准

为了系统地评估文化偏见,该团队引入了一套名为 CAMeL(大型语言模型文化适当性衡量标准集)的新基准数据集,该数据集包含超过 20,000 个涵盖八个类别的文化相关实体,包括人名、菜肴、服装和宗教场所。这些实体经过精心挑选,以便对比阿拉伯文化和西方文化。

研究团队在论文中解释说:“CAMeL 通过内在和外在评估为衡量大型语言模型中的文化偏见提供了基础。” 利用 CAMeL,研究人员评估了 12 种不同的语言模型(包括著名的 GPT-4)在故事生成、命名实体识别 (NER) 和情感分析等一系列任务上的跨文化表现。

佐治亚理工学院研究人员的一项研究发现,大型语言模型 (LLM) 表现出明显的文化偏见,即使在使用阿拉伯语提示时,也会经常生成与西方文化相关的实体和概念(以红色显示)。该图像展示了 GPT-4 和 JAIS-Chat(一种阿拉伯语特定 LLM)如何用西方偏见完成带有文化意味的提示。(来源:arxiv.org)

Ritter 预计 CAMeL 基准可以用于快速测试大型语言模型的文化偏见,并识别模型开发人员需要更多努力减少这些问题的领域。“一个限制是 CAMeL 目前仅测试阿拉伯文化偏见,但我们计划将来将其扩展到更多文化,” 他补充道。

前进之路:构建具有文化意识的人工智能系统

为了减少对不同文化的偏见,Ritter 建议大型语言模型的开发人员在微调过程中需要聘请来自许多不同文化的数据标注者,微调过程是用标记数据使大型语言模型与人类偏好保持一致。 “这将是一个复杂且昂贵的过程,但对于确保人们平等受益于大型语言模型带来的技术进步,并且不让某些文化落后,是非常重要的,” 他强调说。

Xu 强调了他们论文中一个有趣的发现,指出大型语言模型中文化偏见的一个潜在原因是在预训练过程中大量使用了维基百科数据。“尽管维基百科由来自世界各地的编辑创建,但事实证明,更多西方文化概念被翻译成非西方语言,而不是相反,” 她解释道。 “有趣的技术方法可能需要在预训练中更好地混合数据,更好地与人类保持文化敏感性、个性化、模型忘却或文化适应的重新学习。”

里特还指出了使法学硕士适应互联网上较少存在的文化的另一个挑战。“可用于预训练语言模型的原始文本数量可能有限。在这种情况下,法学硕士可能一开始就缺少重要的文化知识,仅仅使用标准方法将其与这些文化的价值观保持一致可能无法完全解决问题。需要创造性的解决方案来提出新的方法,将文化知识注入法学硕士,使它们对这些文化中的个人更有帮助,”他说。

研究结果强调,研究人员、人工智能开发人员和政策制定者需要共同努力,解决法学硕士带来的文化挑战。“我们将此视为法学硕士在培训和部署方面的文化适应的新研究机会,”徐说。“这也是企业考虑针对不同市场的法学硕士本地化的好机会。”

通过优先考虑文化公平并投资开发具有文化意识的人工智能系统,我们可以利用这些技术的力量来促进全球理解并为全球用户打造更具包容性的数字体验。正如 Xu 总结的那样,“我们很高兴能够在这些方向上奠定第一块基石,并期待看到我们的数据集和使用我们提出的方法创建的类似数据集被常规用于评估和培训法学硕士,以确保他们对法学硕士的偏爱减少文化高于其他。”

参考链接:

https://venturebeat.com/ai/large-language-models-exhibit-significant-western-cultural-bias-study-finds/

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

隐私已经死去,软件正在吃掉世界,数据即将爆炸