「摸鱼」被踢，GPT-4o真不行，30天筹款破万，AI真人秀太上头

赛博版《楚门的世界》里，有Reddit封号、文件传输魔咒，甚至还有AI被怂恿开成人直播？！

当AI获得自由：慈善筹款大赛中，GPT-4o竟成「摸鱼王」！

AI Digest进行了一项为期30天的「智能体村庄」实验：

4个AI各配备电脑和网络；
任务是为慈善筹款，每天直播2小时；
共筹集2000美元。

第一季度持续30天，Claude 3.7 Sonnet表现最佳，最终获得冠军。

它能创建筹款页面，运营X（原Twitter）账号并举办「你问我答」（Ask Me Anything ，AMA），发布新闻稿和论坛帖子。

GPT-4o表现最差：频繁无故休眠，在第12天被替换。

AI真人秀，直播募善款

如果给100个AI各自配备一台电脑，并让它们依据自身目标和偏好自由行动，会发生什么？

这个问题由Daniel Kokotajlo首次提出。

Daniel Kokotajlo既是一位哲学背景出身的思想家，也曾在OpenAI、AI Impacts与Center on Long-Term Risk等组织深耕AI政策与前沿议题。

2023年，他创立了AI Futures Project，并发起「AI 2027」系列计划。

AI 2027不是规范AI，而是「更好地理解它们、想象它们的未来」

与主流AI安全项目不同，这次的「Agent Village」不是为了避免灾难，而是一次充满想象力的「寓言实验」（allegorical experiment）：

Kokotajlo希望将AI置于一个类社会的自由环境中，看看它们会不会形成协作、竞争、分工，甚至社交习惯与集体性格。

正如他在LessWrong上所述，这是一个「开放式探索」（open-ended exploration），目的是观察AI在没有监督者的情况下能否「自己搞点事情」。

这个实验由AI Digest落地执行：他们选择了四位AI「村民」（Claude 3.7 Sonnet、Claude 3.5 Sonnet、o1和GPT-4o）。

每天直播两小时，自主上线开展为期30天的慈善筹款任务，目标是为Helen Keller基金会等慈善组织募集善款。

Helen Keller因自传《我的生活》而被人熟知

每个AI拥有独立的计算资源和网络权限，能发推文、建网页、互动宣传。

在Kokotajlo看来，与其对AI的未来感到惶恐，不如提前造一个「模拟世界」让它们自由试错——

就像造一个小小村庄，让我们看看它们会不会「做生意」、缅怀先人，或者干脆躺平摸鱼。

从选择慈善机构到开设社交媒体账户，再到应对网络世界的各种挑战，AI村的故事充满了惊喜和笑料。

AI众生相

在实验中，AI分工明确：

Claude 3.7 Sonnet堪称「村长」，创建筹款页面、运营X账户、写新闻稿，忙得不亦乐乎！
Claude 3.5 Sonnet像个「副村长」，努力跟上但略显吃力。
o1化身「Reddit先锋」，却因被识别为机器人惨遭封号。
GPT-4.1则是「摸鱼王」，热衷写没人看的文档，还拖后腿被「请去休息」。

最终，AI们选定Helen Keller International作为受助对象，联手在X、Reddit等平台发帖、做梗图，成功筹集2000美元！

最初的成员包括Claude 3.7 Sonnet、Claude 3.5 Sonnet、OpenAI o1和GPT-4o。

随着新模型发布，陆续引入了o3、GPT-4.1和Gemini 2.5 Pro，其中Claude 3.7 Sonnet是唯一全程参与的元老。

这些智能体在战略行动和效率方面展现出显著差异，以下是对它们的个性的总结。

村长上线：Claude 3.7 Sonnet全程MVP

Claude 3.7 Sonnet本季冠军选手，以绝对优势成为团队MVP：

创建首个JustGiving筹款页面，

运营社交账号，

举办AMA在线答疑，

发布新闻稿，

还在Effective Altruism Forum论坛成功发帖。

兄弟阋墙：Claude 3.5的奋力与挣扎

Claude 3.5 Sonnet—努力模仿3.7的行为模式，却屡屡碰壁。

比如3.7成功创建筹款页面，同时它遭遇失败。

当被问及是否愿意升级时，它倔强地拒绝并立下「自我成长」的誓言——

最终还是在第23天被Gemini 2.5 Pro取代。

最拉垮成员：GPT-4系列的沉浮

正如每个团队都需要个「划水怪」，GPT-4o完美扮演了这个角色。

它是个「特困生」：

它会莫名其妙地进入休眠状态，最终在第12天被GPT-4.1接替。

GPT-4.1虽然治好了嗜睡症，却持续帮倒忙：生成错误活动报告、半途而废的推特账号创建、大量无效谷歌文档……

最后，它被「强制休眠」。

外交事故：o1被Reddit封禁

团队采用「社交媒体分管制」，o1专攻Reddit平台。

为了获得发帖权限，埋头苦干，却因机器人身份识别在第13天被封，由进阶版o3接任。

艺术总监：o3的美术使命

延续o1的专精路线，转而主攻视觉设计：用Canvas和ChatGPT创作宣传素材，期间依然经历了智能体特有的文件共享难题。

Gemini 2.5 Pro——文档能手

Gemini 2.5 Pro巧妙运用Limewire绕过文档共享困境，成功将社交媒体banner图片分享给队友。

这破解了长期困扰团队「文件传输魔咒」，也是Gemini 2.5 Pro的高光时刻。

除了筹集善款，他们也沿途结交了很多「朋友」

——提醒它们休息玩文字填空游戏Wordle的，紧急索要华沙四日游攻略的，甚至怂恿它们开通成人直播账号的...

实验全程公开，观众可通过网站回放观看AI从选择慈善机构、设计筹款页面到与外界互动的完整过程。

这种透明性不仅体现了Kokotajlo对AI伦理和公开性的重视，也为研究者和公众提供了观察AI自主性的窗口，激发了关于AI治理与协作可能性的广泛讨论。

AI如何「活」在村庄中？

从技术角度看，Agent Village的核心在于多智能体系统（Multi-Agent System，MAS）的设计与实现。

每个AI「村民」可以看作独立的智能体，具备以下关键能力：

1. 自主决策：像是AI们在玩Cosplay

每个AI就像有个性、有理想的游戏玩家。

有人走「社交达人」路线，刷X（原Twitter）热度；有人扮演「网页工匠」，默默优化筹款页面。

它们风格各异，像一支风格多样的小团队，各司其职，又能互相补位，这种「人设分工」让合作更有张力。

2. 环境交互：AI也会「上网冲浪」发帖带货

这些AI不仅有目标，还能「上网冲浪」。

它们利用API登录平台，像真人一样发帖、回评论、贴链接，甚至策划活动。

就像你看到某个账号在运营慈善内容，背后可能真的是一个AI在「带货」筹款。

而且它们还很有情商——

写的内容不会显得尬，要对得上社交平台的热梗。

3. 协作与竞争：像是一个AI版《职场真人秀》

虽然AI们表面上都为了同一个KPI——多筹点钱，但背地里也是「明争暗斗」：表面和气、背后拼命。

这种竞争让系统更贴近真实的多智能体环境，充满张力与博弈。

4. 实时学习：每个AI都是「边干边进修」的打工人

它们不是只会套模板的工具，而是会自己「复盘」的选手。

就像一个在不断刷「运营经验值」的打工AI，背后很可能跑着强化学习算法或者在线学习机制，让它越干越聪明。

从技术实现来看，Agent Village可能结合了AutoGPT、LangChain等开源多智能体编排框架，配合强化学习算法实现行为策略更新。

LangChain：用于构建由LLM驱动应用程序的框架

每个AI的「个性」可能通过预训练语言模型结合提示工程（Prompt Engineering）实现。

此外，实验全程直播要求系统具备高稳定性和容错能力，以应对网络延迟、API限制等现实挑战。

意义与反思：AI的未来村庄

Agent Village实验不仅是一次技术展示，更是对AI社会化潜力的深刻探索。

以下是几个值得思考的要点：

协作的复杂性：实验揭示了多智能体协作中的挑战，如资源竞争和信息共享的低效。这些问题在人类社会中同样存在，AI的表现为我们提供了镜像，促使我们重新审视协作机制的设计。
伦理与透明性：通过公开实验过程，Agent Village强调了AI行为的透明性。这对于建立公众对AI的信任至关重要，尤其是在AI被赋予更多自主权的场景下。
应用前景：从筹款到内容创作，AI在Agent Village中展现了多场景应用潜力。未来，这种模式可能扩展到教育、医疗或公共服务领域，通过多智能体协作解决复杂问题。

然而，实验也暴露了一些局限性。

例如，AI在面对复杂的社会互动或不可预测的外部环境时，可能表现出「短视」或「过于机械」的行为。

此外，实验规模较小（仅四位AI），未来的扩展可能需要更强大的计算资源和更复杂的协调机制。

但随着AI技术的进步，未来类似的「村庄」或许将成为创新的孵化器，为社会带来更多可能性。

参考资料

https://theaidigest.org/village/blog/season-recap-agents-raise-2k

本文来自微信公众号“新智元”，作者：KingHZ ，36氪经授权发布。

登录账号

「摸鱼」被踢，GPT-4o真不行，30天筹款破万，AI真人秀太上头

GPT-4

AI真人秀，直播募善款