人工智能语言模型不是人类,但我们使用律师资格考试或美国医学执照考试之类的测试来评估它们,就好像它们是人类一样。
模型在这些考试中往往表现得很好,可能是因为模型的训练数据中有大量此类考试的例子。正如我的同事威尔·道格拉斯·海文(Will Douglas Heaven)在他最近的一篇文章中所写的那样,“有些人被它们展现出的‘人类’智慧所迷惑,另一些人则一点也不相信。”
越来越多的专家呼吁,不要用这些测试来评估人工智能模型,理由是这种行为助长了人工智能的炒作,并造成了“人工智能语言模型的水平比实际水平更高的错觉”。
在威尔的故事中,让我印象深刻的是:我们对人工智能语言模型是如何工作的,以及它们为什么会生成特定的结果知之甚少。利用这些测试,我们试图根据它们的输出来衡量和美化它们的“智能”,但却没有完全了解它们究竟是如何运作的。