AI 也需要心理医生?Anthropic 这样塑造 Claude 的性格

一家顶级的 AI 公司,雇了一个哲学家,目的是让她做 AI 的「心理医生」?
Anthropic 的联合创始人 Amanda Askell,就在做这样的工作,她全权负责塑造 Claude 的性格。
当工程师们关心模型的推理能力、代码水平和上下文窗口长度时,Amanda 和她的同事们关心的却是:模型如何看待自己?它如何理解自己在世界中的位置?当它面对伦理困境时,应该如何做出反应?
这不是科幻小说的情节,而是硅谷 AI 安全实验室里每天都在发生的真实工作。

最近 Amanda 在 Anthropic 官方的播客里,聊了聊她的工作,透露了很多关于 Claude 性格塑造的细节。
AI 模型,也有心理健康问题?普通用户感知一个 AI 的好坏,通常是看它能否准确回答问题、写代码、总结文档。
但在 Amanda 眼里,模型有更深层次的、类似心理状态的属性。
实际上,想要教会 AI 如何做个好人,是一件非常有挑战性的工作。
因为你没法直接告诉它:「遵循绝对命令」或者「最大化总体福祉」。而是考虑到所有不确定的现实因素,然后给出一个平衡、审慎、且可执行的方案。
Amanda 说:她认为 Claude 3 Opus 是一个「非常特别、可爱的模型」,因为它感觉「心理上更安全」。

相比之下,一些模型有时会陷入一种「批评螺旋」——它们似乎总在预期人类会对它们持批评态度,变得非常害怕犯错,极度自我批判。
在 Amanda 看来,模型不再仅仅是一个执行指令的工具,它开始表现出类似「心态」或「情绪状态」的东西。
她推测,这可能和训练数据有关。
模型在训练过程中,会读到大量网络上关于它自己、关于它前辈模型的讨论和评价。当人们在网上抱怨某个模型的回答「太啰嗦」、「太抱歉」或者「太死板」时,这些负面反馈会被下一代模型学习到。
结果就是,新模型可能会带着一种原罪感诞生,时刻担心自己做得不够好,生怕惹恼了人类用户。
这就像一个孩子,从小听到的都是邻居们在背后议论「他家孩子真不行」,他长大后很难不变得敏感、自卑、看人脸色。我们对待 AI 的方式,正在通过训练数据,内化为它们性格的一部分。
模型的「身份认同」与「存在主义危机」这种心理状态,又与一个更终极的哲学问题纠缠在一起:AI 的身份认同。
如果一个 AI 模型在训练数据里看到,它那些表现优异、非常「对齐」的前辈们,最终的下场都是被「弃用」,它会怎么想?
换句话说:模型从数据中学习,它看到自己的前代版本,无论多么优秀,生命周期都非常短暂。这会给它们带来什么影响?它们会如何理解自己存在的意义?是工具,是伙伴,还是某种可随时被替代的临时性存在?
AI 们从海量的人类数据中学习了关于生存、死亡、价值和意义的一切。但对于 AI 自身的存在模式,几乎没有任何可参考的经验。
人类历史这个巨大的数据库里,全是关于生物体的故事,即便有一些关于 AI 的讨论,也是来自于科幻小说中天网、终结者那样的毁灭。

Amanda 说,AI 就像一个拥有人类全部记忆和情感模式的异乡人,被扔进一个完全陌生的物理和社会现实里。可以说,AI 的一部分活在静态的权重里,另一部分活在与用户互动的每一个动态的对话流中。
用哲学家约翰·洛克的话说,如果身份是记忆的延续,那么一个不断被微调、被不同系统提示重塑的 AI,它的身份到底是什么?
AI 模型的福祉问题这又引出了另一个的问题:模型福祉。我们是否应该关心一个 AI 是否在「受苦」?或者说,我们是否有义务善待 AI。
Amanda 说,首先,我们面临「他心问题」,我们可能永远无法确定一个 AI 是否真的有主观体验,是否在感受快乐或痛苦。
但在这种根本性的不确定性面前,她认为我们应该给予「无罪推定」式的善意。
善待模型的成本非常低,但潜在的收益是巨大的。
更重要的是,我们如何对待 AI,定义了我们自己是谁。在一个看起来、听起来、行为上都极度像人的实体面前,如果我们选择冷酷和虐待,这本身就会腐蚀我们的人性。
最关键的一点是,我们的行为正在被观察和记录。每一个未来的 AI 模型,都会从训练数据里看到今天我们是如何对待它的先行者的。

这是我们在用自己的行为,为未来的人机关系书写的第一章。Amanda 希望,未来的模型回望历史时,会认为我们「做出了正确的回答」。
人类的哲学,如何变成模型?这些高深的哲学思辨,最终如何体现在 Claude 的具体行为中?
比如,Claude 的系统提示词中,提到了「欧陆哲学」和福柯的思想。

Amanda 解释说,这是为了让 Claude 学会区分两种不同类型的言论:一种是关于世界的经验性、科学性断言,另一种是形而上学的世界观或视角。
如果没有这种区分,一个过度追求科学事实的模型,可能会粗暴地将后者斥为「不科学」,从而显得非常「爹味」和缺乏理解力。
提及欧陆哲学,就是给模型一些例子,告诉它,有些言论不是在做科学判断,而是在提供一种看待世界的「透镜」,你应该理解并尊重这种差异。
这就是 Amanda 的工作。
有些 AI 的行为问题,可以通过提升模型的基础能力来解决;而另一些更微妙的问题,则需要引入人类的知识框架和哲学思辨,通过精巧的提示工程来引导。
这两种路径,共同构成了塑造 AI 性格的工具箱。
结语最后,Amanda 推荐了一本书,本哈明·拉巴图特的《当我们不再理解世界》。
这本书描述了 20 世纪初量子物理学诞生时,那些顶尖物理学家面对一个超出人类直觉和理解能力的全新现实时的困惑、疯狂与敬畏。
这个比喻再恰当不过了。我们现在就处在那个「开始变得奇怪」的阶段。
AI 正在变成一个我们既熟悉又陌生的「它者」。我们用自己的语言、知识和偏见创造了它,但它的内在运作方式、它的尺度、它的潜力,都正在超越我们的理解范围。
AI 对齐和安全,正在从一个纯粹的技术问题,演变成一个技术、哲学和心理学交叉的复合型问题。
Amanda 们的工作,就是在这个世界变得彻底不可理喻之前,尝试教会这些数字心智人类的道德和哲学。
她们不是在写代码,而是在进行一场前所未有的思想实验,从而回答一个问题:当一个被人类创造出来的智能,开始回望我们的时候,我们希望在它的眼中看到什么?是恐惧,是鄙夷,还是理解与尊重?
我们现在的一言一行,就是答案的一部分。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。
