针对大语言模型存在的“英语思维定式”问题,研究人员确实进行了深入研究,并提出了创新的解决方案。这些问题主要表现在非英语语种输出中普遍存在的语法与词汇偏差上。通过覆盖中文、法语、英语(基于维基百科)的语料测试,研究人员发现即使是专为中文优化的Qwen模型,在母语(中文)的表现上仍然落后于人类水平。Meta的Llama3.1模型虽然综合表现最佳,但在输出自然度上仍有显著差距。所有模型在非英语输出中均残留有英语语法结构,这意味着即使模型在使用中文或法语进行对话时,它们实际上仍在用英语进行“思考”,并且非英语输出遵循类似英语的语法和词汇模式。
为了解决这些问题,研究团队提出了两项量化指标:
1. 词汇自然性(Lexical Naturalness):这个指标用于评估大语言模型(LLM)使用的词汇是否符合母语习惯,即是否自然地融入了目标语言的文化和语境中。
2. 句法自然性(Syntactic Naturalness):这个指标用于检验大语言模型生成的语句是否贴合本土语法,即是否遵循目标语言的语法规则。
为了缩小模型输出与人类自然语言之间的差距,研究人员采用了“回译法”来自动生成训练样本。这种方法涉及将人工撰写的流畅中文内容先翻译成英文,然后再逆向翻译回中文,从而产生带有“翻译腔”的“反面”样本。通过对比这些样本和流畅的原文本,模型可以在训练中学习如何加强自然表达能力。这样的训练方法有助于在保持基准性能的同时,显著改善模型的语言输出质量,使其更贴近人类的自然语言习惯。