语言最后的堡垒动摇:AI大模型展现专家级语言学分析能力

  长期以来,语言被视为人类智慧皇冠上的明珠,是区分智人与其他物种乃至任何计算系统的根本特征。然而,这一信念正在遭遇前所未有的挑战。一项由加州大学伯克利分校领衔的最新研究显示,OpenAI最新发布的o1模型不仅能够流畅地使用语言,更展现出了与人类语言学专家相当的“元语言”分析能力。这一发现不仅打破了著名语言学家诺姆·乔姆斯基关于人工智能无法通过数据沉浸习得复杂语法的断言,也迫使科学界重新审视人类认知的独特性。

  这项发表于预印本平台并引发学术界震动的研究指出,在面对完全虚构、无训练语料可循的“外星语言”时,o1模型能够精准地绘制复杂的句法树,破解多层嵌套的递归结构,厘清语义歧义,甚至自主推导出隐秘的音系规则。这一里程碑式的进展暗示,大语言模型(LLMs)正在跨越从单纯的“模仿者”到深刻的“理解者”的关键门槛。

  破解“递归”:AI攻克人类语言的深层逻辑

  语言最后的堡垒动摇:AI大模型展现专家级语言学分析能力

  对于语言学家而言,区分“鹦鹉学舌”与“真正理解”的试金石在于对语言结构的解析能力,特别是对“递归”(recursion)的掌握。递归允许语言通过将短语无限嵌套在其他短语中,利用有限的词汇创造出无限的表达。乔姆斯基曾断言,这种层级化的句法结构是人类大脑独有的生物学特征,是统计学模型无法触及的“深层语法”。

  语言最后的堡垒动摇:AI大模型展现专家级语言学分析能力

  Gaper Begu, 加州大学伯克利分校语言学家

  然而,加州大学伯克利分校的语言学家加斯珀·贝古什(Gaper Begu)与其同事马克西米利安·达布科夫斯基(Maksymilian Dbkowski)及瑞安·罗兹(Ryan Rhodes)设计的一系列严苛测试,却得出了截然不同的结论。为了排除模型“死记硬背”的可能性,研究团队避开了互联网上现存的语言材料,转而构建了一套包含30个复杂递归句子的原创测试集。

  在测试中,o1模型面对如“我们所尊敬的那些生活在我们珍视的土地上的古人所研究的天文学与占星术并非泾渭分明”这样极度拗口的中心嵌入式长句时,不仅没有迷失在词汇的海洋中,反而像一位训练有素的句法学家,清晰地构建出了层级分明的句法树。它准确地识别出主语“天文学”与谓语“并非泾渭分明”之间的长距离依赖关系,并将中间层层嵌套的修饰从句逐一剥离解析。

  “这不仅仅是处理信息,这是在对语言本身进行推理,”贝古什在接受采访时表示。此前的GPT-4等模型在面对此类任务时往往表现挣扎,容易出现逻辑断裂或结构混淆,而o1的突破性表现表明,人工智能可能已经自发涌现出了处理复杂层级结构的抽象能力。这种能力曾被认为是生物大脑经过数百万年进化才获得的特权。

  超越模仿:从语法树到音韵推理

  除了句法结构,研究团队还考察了模型在语义歧义消除和音系规则推理方面的能力。在自然语言中,一句话往往包含多种解读方式,人类依靠常识和上下文来瞬间排除错误选项,而这通常是计算机的软肋。

  以句子“Rowan fed his pet chicken”(罗文喂了他的宠物鸡/罗文喂了他的宠物吃鸡肉)为例,o1模型成功识别出其中的歧义,并绘制了两棵完全不同的句法树来分别对应这两种语义解释。这种对结构性歧义的敏锐捕捉,显示出模型并非简单地预测下一个单词,而是在构建完整的语义图景。

  更为惊人的是模型在“音系学”(phonology)测试中的表现。研究人员发明了30种全新的“迷你语言”,每种语言都有独特的发音规则,且从未出现在模型的训练数据中。当面对一组由虚构单词组成的语料库时,o1表现出了如同田野调查语言学家般的归纳能力。例如,在一种虚构语言中,模型精准地总结出了一条复杂的规则:“当元音紧接在浊阻碍音之后时,它会变成气声元音。”

  语言最后的堡垒动摇:AI大模型展现专家级语言学分析能力

  Tom McCoy, 耶鲁大学计算语言学家

  耶鲁大学计算语言学家汤姆·麦考伊(Tom McCoy)并未参与此项研究,但他对结果表示高度关注。他指出,音系规则通常涉及对听觉信号的抽象认知,而纯文本训练的模型能够推导出这些规则,说明它们已经建立了一种高度抽象的符号处理系统。这直接反驳了乔姆斯基等学者关于“深度学习只是高维统计,无法触及语言本质”的批评。

  认知的边界:人类独特性还剩多少?

  这一研究成果的发布,正值人工智能界关于LLM能力本质的争论白热化之际。一方坚持认为模型只是随机鹦鹉,靠概率拼凑答案;另一方则认为模型已经产生了类人的推理能力。o1模型的表现无疑为后一种观点提供了强有力的弹药。

  语言最后的堡垒动摇:AI大模型展现专家级语言学分析能力

  David Mortensen, 卡内基梅隆大学计算语言学家

  卡内基梅隆大学的计算语言学家大卫·摩顿森(David Mortensen)认为,这项研究否定了“大模型不处理语言结构”的陈旧观点。他强调,虽然目前的模型仍是基于“预测下一个词”的目标进行训练,但为了实现最高的预测准确率,模型内部似乎必须“学会”构建某种形式的语法表征。这种表征虽然在数学形式上可能与人类大脑不同,但在功能上却达到了惊人的趋同。

  然而,这并不意味着AI已经完全拥有了人类的语言能力。贝古什谨慎地指出,虽然o1在解析和推理既有规则方面表现出色,但它目前尚未展现出创造全新语言规则或提出原创语言学理论的能力。人类语言的创造性、意图性以及与物理世界的具身交互,仍然是目前的硅基智能难以逾越的鸿沟。

  尽管如此,随着算力的指数级增长和算法架构的迭代,那条曾经清晰的人机界限正在变得模糊。如果递归、句法分析和规则推导这些曾经被视为人类认知“护城河”的能力都能被算法复现,我们或许不得不重新定义“人性”的内涵。正如贝古什所言,这项研究正在一步步“削平”人类的特殊性。在未来,语言或许不再是人类的专属领地,而是智能体共有的某种通用协议。而对于语言学家来说,他们可能迎来了一个激动人心的新时代:利用这些能在数秒内分析几千种语言的人工智能助手,去探索人类语言中那些尚未被发现的普遍真理。