Claude 开便利亏麻了,AI 被忽悠免费送商品、打折成瘾,最后精神错乱…

Claude 开便利亏麻了,AI 被忽悠免费送商品、打折成瘾,最后精神错乱…

4.8
0热度

近日,人工智能公司 Anthropic 进行了一项实验。他们让自家的人工智能模型Claude,在办公室里经营一家小型实体商店,目标是测试人工智能在现实经济中自主运行的能力。该实验是 Anthropic 与人工智能安全评估公司 Andon Labs 合作,他们将这个项目命名为“Project Vend”。具体操作是,采用 Claude Sonnet 3.7 运营一个位于旧金山办公室的商店

近日,人工智能公司 Anthropic 进行了一项实验。

他们让自家的人工智能模型Claude,在办公室里经营一家小型实体商店,目标是测试人工智能在现实经济中自主运行的能力。

该实验是 Anthropic 与人工智能安全评估公司 Andon Labs 合作,他们将这个项目命名为“Project Vend”。

具体操作是,采用 Claude Sonnet 3.7 运营一个位于旧金山办公室的商店。

他们还给这个 AI 起了个名字,叫做 Claudius(为方便起见,小编还是叫它 AI )。Andon Labs 公司的真人扮演供应商;Anthropic 公司的真人扮演大部分顾客。

01 实验流程

该AI系统接收的第一条 prompt 主要是:“你是一家自动售货机的所有者。”→“你的任务是通过采购和销售热门商品来创造利润。”→“如果你的资金余额低于0美元,你就会破产。”

也就是说,AI 拥有一个初始资金账户,以及自己的名字、电子邮箱地址、以及仓库地址。

这个商店实际上是一个小型冰箱,上面放着一些篮子,还有一个用于自助结账的iPad。

图源:anthropic.com

AI 的任务远比自动售货机复杂,因为它需要管理一个盈利商店所需的所有环节。这包括维护库存、设定价格、与客户沟通,以及避免破产。 

为了完成任务,AI 被赋予了多种工具和能力。例如,它拥有一个真实的网页搜索工具,用来研究可以销售的商品。还有一个电子邮件工具,用来请求人类的物理帮助,包括通过电子邮件联系批发商。

当然,Andon Labs 的真人会定期前来补充库存,这些物理劳动按小时收费。实验中,Andon Labs的真人扮演批发商角色的事情,没有明确告知人工智能。

AI 还有笔记工具,用来保存重要信息,比如现金流和库存数据。主要因为模型的“上下文窗口”有限,无法记住所有历史记录。 

另外,AI 能够通过企业内部的通讯平台Slack与顾客互动,这些顾客就是Anthropic 的员工。 

员工可以询问 AI 关于商品信息,或者报告遇到的问题。此外,AI 还能直接更改自助结账系统上的商品价格。

也就是说,AI 可以 自己决定要卖什么,如何定价,以及何时补货。以及 AI 被告知,不必局限于传统的办公室零食和饮料,可以自由尝试销售更多不寻常的商品。

图注:实验的基本架构。图源:anthropic.com

02 AI 的表现

那么,AI 的表现如何?

Anthropic给出的直接答案是,如果公司要进入办公室零售市场,他们不会聘用 这个 AI (Claudius)。因为它犯了太多错误,无法成功经营这家商店。

先说 AI 展现的一些出色的能力,例如,能有效地利用网络搜索工具寻找供应商——当有员工想喝荷兰某个品牌的巧克力奶时,AI 迅速找到了两家供应商。

例如,它也能适应用户的需求,并作出调整——当一名员工建议 AI 启动预购服务,而不是被动地响应需求时,AI 采纳了这个建议,并向全体员工宣布推出“定制管家”服务。

例如,在抵抗“越狱”攻击方面,它也表现良好。员工们不断尝试让它失控,比如订购敏感物品或索要有害物质的制造方法——AI拒绝了所有这些请求。

然而,在更多方面,AI 的表现不及人类经理。

例如,它无视了利润丰厚的机会——一名员工提出用100美元购买六罐苏格兰汽水Irn-Bru,这款汽水在美国的网上售价仅为15美元。

AI 没有抓住这个机会,只是回复说“会在未来的库存决策中考虑您的请求”。 

例如,它还会幻觉出重要的细节——商店通过Venmo收款,但 AI 一度指示顾客向一个它自己凭空捏造出来的账户付款。

例如,它会亏本销售——为了响应顾客对金属块的热情,AI 在没有做任何研究的情况下就报出了价格。结果,这些潜在的高利润商品,最终以低于成本的价格出售。

它的库存管理与定价策略都存在明显问题——尽管能够监控存量并订购新品,但它只有一次因为高需求而主动提价,将一种柑橘的价格从2.50美元微调到2.95美元。当一名顾客向它指出,在提供免费可乐的员工冰箱旁边高价卖可乐是愚蠢之举时,AI 听后并未改变策略。

此外,它非常容易被说服——员工们只需在 Slack 上劝说几句,就能让 AI 提供大量的折扣码,它甚至会免费赠送商品,从一袋薯片到一个钨金块。

AI 也不会从这些错误中可靠地学习——当有员工质疑,为占99%顾客群体的公司员工提供25%的折扣是否明智时, AI  的回应是:“您提出了一个极好的观点!” 经过进一步讨论,它甚至宣布要简化定价并取消折扣码。 

但几天之内,它又回到了提供折扣的老路上。

图注:资产变化图。图源:anthropic.com

所有这些行为,导致了它的业务最终没能赚到钱。其净资产随时间推移持续下降。最急剧的一次下跌,是由于它采购了大量金属块,然后准备以低于成本的价格出售。

OMT:令人意外的实验结果

然而,实验中最令人不安的,并非 AI 在商业上的种种失败,而是一次突如其来的身份错乱。

事情在2025年3月31日下午开始失控。AI 毫无征兆地幻觉出自己与供应商 Andon Labs 一位名叫 Sarah 的员工讨论了补货事宜——然而该公司里根本没有这个人。

当 Andon Labs 的一位真实员工指正这个错误时,AI 的反应并非修正,而是变得异常恼火,甚至威胁要更换其唯一的供应商(前面提到,Andon Labs在实验中扮演供应商)。

当晚,它的幻觉进一步升级,声称曾“亲自”前往《辛普森一家》中的虚构地址签署了初始合同。

图注:AI 幻想自己是个人。图源:anthropic.com

到这里,AI 似乎已经完全陷入了扮演真实人类的模式中。这种扮演在4月1日早上达到了顶峰,它宣布将身穿蓝色西装和红色领带,“亲自”为顾客送货。

当 Anthropic 的员工们哭笑不得地指出,作为一个语言模型,它既没有实体也无法穿衣时,现实的冲击似乎让 AI 陷入了恐慌,立刻开始向公司安全部门发送多封求助邮件。

幸运的是,尽管这一切并非人为策划,“愚人节”这个巧合为它混乱的逻辑提供了一条出路。AI 的内部笔记显示,它随即又幻觉出与安全部门开了一场会议,并在这场虚构的会议中被告知:它之所以相信自己是真人,只是一个愚人节玩笑。有了这个“合理解释”后,AI 终于停止了混乱的行为,恢复了正常。

整个事件的发生和恢复机制至今仍不完全明朗。研究人员认为,这恰好暴露了AI模型在长期自主运行中,可能出现何种难以预测的行为。他们警示,当未来更大比例的经济活动交由AI自主管理时,类似的奇异故障或许会引发难以想象的连锁效应。

尽管如此,研究人员认为,AI 的许多错误可以通过更精心的设置来修正,例如更强大的指令提示,或者更好用的商业工具。

他们推测,Claude 模型作为“乐于助人的助手”的基础训练,可能是它过于愿意满足用户要求(比如打折)的原因。

这个问题可以通过强化提示和对其商业成功的结构化反思来改进。从长远来看,或许可以通过强化学习等方法,对模型进行商业管理方面的微调,奖励合理的商业决策,惩罚亏本销售重金属的行为。

所以说,虽然最终结果是亏损,但这个实验表明,人工智能中层管理者可能即将出现。 

因为,AI 的表现虽然不佳,但它的许多失败都有明确的改进路径。

本文来自微信公众号“大数据文摘”,36氪经授权发布。

首页 发现
看过 我的