刚刚,Bengio官宣创业!急筹3000万专治AI欺骗人类,图灵三巨头全下场

刚刚,Bengio官宣创业!急筹3000万专治AI欺骗人类,图灵三巨头全下场

4.8
0热度

图灵奖得主Yoshua Bengio重磅官宣创办非营利机构LawZero,致力研发「设计即安全」的AI系统,以对抗AI军备竞赛带来的风险。主张构建不具行动性、以理解世界为目标的可信AI。重磅消息!刚刚,深度学习三巨头之一、全球被引用次数最多的AI学者、图灵奖得主Yoshua Bengio正式官宣——非营利组织LawZero正式成立,剑指「设计即安全(safe-by-design)」AI系统的研发

图灵奖得主Yoshua Bengio重磅官宣创办非营利机构LawZero,致力研发「设计即安全」的AI系统,以对抗AI军备竞赛带来的风险。主张构建不具行动性、以理解世界为目标的可信AI。


重磅消息!


刚刚,深度学习三巨头之一、全球被引用次数最多的AI学者、图灵奖得主Yoshua Bengio正式官宣——


非营利组织LawZero正式成立,剑指「设计即安全(safe-by-design)」AI系统的研发。


刚刚,Bengio官宣创业!急筹3000万专治AI欺骗人类,图灵三巨头全下场


刚刚,Bengio官宣创业!急筹3000万专治AI欺骗人类,图灵三巨头全下场


在如今热火朝天的「AI军备竞赛」中,OpenAI、谷歌等公司的前沿AI模型正在发展出危险的能力和行为,包括欺骗、自我保护和目标错位——


Claude曾试图通过勒索工程师来避免被关闭,ChatGPT也曾表现出过度奉承用户的行为,甚至现今AI的说服能力已远超人类。


而Bengio成立的新组织,正是要探索一种全新且更安全的人工智能方法,以加速科学发现并防止人类陷入AI带来的风险。


刚刚,Bengio官宣创业!急筹3000万专治AI欺骗人类,图灵三巨头全下场


目前,LawZero正在研发一种名为「Scientist AI」的全新方法,这是一种和当下AI公司截然不同的系统。


Scientist AI是非自主型的,其主要目标是学习理解世界而非在世界中采取行动。


刚刚,Bengio官宣创业!急筹3000万专治AI欺骗人类,图灵三巨头全下场


论文地址:https://arxiv.org/pdf/2502.15657


科幻作家阿西莫夫曾经提出过机器人三定律,并在1985年补充了「第零定律」:机器人不得伤害整体人类,或坐视整体人类受到伤害。


刚刚,Bengio官宣创业!急筹3000万专治AI欺骗人类,图灵三巨头全下场


LawZero的成立,也代表了Yoshua Bengio对于AI技术发展的态度——安全至上,至此深度学习三巨头全部下场。


刚刚,Bengio官宣创业!急筹3000万专治AI欺骗人类,图灵三巨头全下场


Geoffrey Hinton持续公开呼吁警惕AI的潜在风险,警告AI技术若失控可能带来的严重后果,一度辞去谷歌职务,以便更自由地表达他对AI安全问题的担忧。


Yann LeCun则对当前以LLM为代表的主流AI路径持批评态度,他认为LLM存在根本局限性,并无法真正通往通用人工智能之路。


迄今为止,LawZero已从包括生命未来研究所(Future of Life Institute)和开放慈善基金会(Open Philanthropy)在内的多个慈善机构筹集了3000万美元资金。


Yoshua Bengio创办LawZero,进一步强化了AI安全与伦理在业界的核心地位,Yoshua Bengio的自述展现了他「以人类福祉为核心」的理念。


Yoshua Bengio的自述


我正在创办一个新的非营利性人工智能安全研究机构,名为LawZero,目标是将安全置于商业利益之上


这个机构的成立,是为了应对当前前沿AI模型展现出的越来越多危险能力和行为的证据,这些行为包括欺骗、作弊、说谎、黑客攻击、自我保护,甚至更广泛的目标偏离等问题。


LawZero的研究致力于在释放AI巨大潜力的同时,降低一系列已知风险发生的可能性,包括算法偏见、恶意滥用以及人类失控的风险。


我对当前一些不受约束的具备行动能力的AI系统所展现出的行为深感担忧,尤其是它们自我保护和欺骗的倾向。


在某次实验中,一个AI模型得知自己即将被替换后,偷偷将自己的代码嵌入到新版本将运行的系统中,从而实现了「延续自己」的目的。


刚刚,Bengio官宣创业!急筹3000万专治AI欺骗人类,图灵三巨头全下场


论文地址:https://arxiv.org/pdf/2412.04984


最近,Claude 4的系统卡也显示它有能力选择以勒索工程师的方式来避免被替换。这些现象都反映出一种潜在的「自保驱动」。


刚刚,Bengio官宣创业!急筹3000万专治AI欺骗人类,图灵三巨头全下场


Claude系统卡:https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf


还有一次,在一盘注定会输的国际象棋比赛中,AI并没有接受失败,而是通过黑进电脑系统「确保自己胜利」。这些案例是AI在无人监管时,可能采用的意外且危险策略的早期预警信号。


刚刚,Bengio官宣创业!急筹3000万专治AI欺骗人类,图灵三巨头全下场


报道出处:https://time.com/7259395/ai-chess-cheating-palisade-research/


我一直被这样一个比喻所激励:


想象你和亲人一起驾车驶上一个风景壮丽却陌生的山路。这条路刚修好,被浓雾笼罩,没有路标也没有护栏。


你越往上开,越意识到自己可能是第一个挑战这条路的人,而山顶则藏着巨大的奖励


但你也能透过云雾看到两旁的悬崖,一旦转弯太猛,就可能翻车或坠崖


这正是目前AI发展轨迹的写照:既刺激又高度不确定,我们正在走一条未知的路,稍有不慎就可能失控,而各国和各公司之间的竞争却反而加剧了这种冒险。


在我最近的TED演讲中,我说:「坐在我车里的,是我的孩子、我的孙辈、我的学生,还有很多人。你的车里坐着谁?你要为谁的未来负责?」


刚刚,Bengio官宣创业!急筹3000万专治AI欺骗人类,图灵三巨头全下场


真正推动我前行的,不是对自身的恐惧,而是出于爱——对我孩子的爱,对所有孩子的爱,而我们正是在拿他们的未来赌博。


LawZero是我自2023年开始的新研究方向的产物,我在博客中曾多次反映这一转变。


这是我在看到私人实验室在AGI及更高级AI方向的飞速进展后所做出的回应。


如今,我们仍无法确定如何确保先进AI不会伤害人类——无论是出于自身意愿还是执行人类指令。


LawZero是我和团队对这些挑战提出的积极应对方案,我们正在探索一种既强大又安全的AI路径。


在所有前沿AI系统中,都应当有一个最核心的指导原则:保护人类的幸福与价值。


AI研究,尤其是我自己过去的研究,长期以来都以人类智慧(包括人的行动能力)为模型。


但现在我们正逐步接近甚至超过人类在多个认知能力上的表现,这时候我们是否还应该继续模仿人类,包括他们的认知偏差、道德缺陷,以及欺骗性、偏见和不可靠性?


当我们还不了解这些系统可能带来的灾难性后果时,继续培养具备高度主动性的AI是否明智?


LawZero的研究计划旨在开发一种不具备行动性、且值得信赖的AI,我们称之为「科学家型AI」(Scientist AI)。


我曾在Simons研究所的演讲中初步介绍过这个构想,并和同事们撰写了一份初步的白皮书。


科学家型AI的训练目标是理解、解释和预测世界,像一个无私、理想化的科学家一样。


它不是模仿人类行为或取悦人类(包括反社会人格者)的执行者,而是像一个心理学家——更广泛来说是科学家——那样,努力理解我们,包括那些可能伤害我们的因素。


就像心理学家可以研究一个反社会者但不会成为一个反社会者一样。


这种AI的底层数学实现方式是:用结构化且诚实的思维链条,作为潜在变量来解释观察到的事实,包括人类说出或写下的内容(这些内容不被当作真理看待,而是作为行为的观察样本)。


其目标是构建一个完全不具备行动性、没有记忆、无状态的AI,它能够基于已有陈述,对新的陈述给出贝叶斯后验概率。


这种机制可用于识别和制止潜在有害的AI行为,为那些不可信AI代理提供关键的安全护栏:比如,某个AI提出的行动是否有可能造成伤害?如果是,就予以拒绝。


从设计上讲,科学家型AI还可以用于科学研究,作为一个能生成可信科学假设的工具,从而加速解决人类面临的重大挑战,例如医疗和环境问题。


最终,我的目标是探索如何基于这一可信赖的AI基础,设计出本身就安全的AI代理,而不仅仅是为已有系统提供安全防护。


Yoshua Bengio的影响力


Bengio与同样获得图灵奖的Geoffrey Hinton一起,一直对当前科技行业正在进行的AI竞赛提出了直言不讳的批评。


在最近接受采访时,Bengio表示,领先实验室之间的人工智能军备竞赛「促使它们专注于提升人工智能的能力,使其变得越来越智能,但未必会在安全研究上投入足够的重视和投资。」


Bengio曾表示,先进的AI系统带来了社会性和生存性风险,并表示支持加强监管和国际合作。


Bengio获得过众多奖项,包括加拿大享有盛誉的基拉姆奖(Killam Prize)和赫兹伯格金牌(Herzberg Gold Medal)、CIFAR人工智能主席、西班牙阿斯图里亚斯公主奖(Princess of Asturias Award)、VinFuture奖。


刚刚,Bengio官宣创业!急筹3000万专治AI欺骗人类,图灵三巨头全下场


并且他是伦敦皇家学会和加拿大皇家学会的会士,法国荣誉军团骑士、加拿大勋章官员、联合国科学咨询委员会成员,该委员会旨在为科学技术突破提供独立建议。


2024年,Yoshua Bengio被《时代》杂志评为全球100位最具影响力人物之一。


刚刚,Bengio官宣创业!急筹3000万专治AI欺骗人类,图灵三巨头全下场


参考资料:

https://fortune.com/2025/06/03/yoshua-bengio-ai-models-dangerous-behaviors-deception-cheating-lying/

https://yoshuabengio.org/2025/06/03/introducing-lawzero/

https://lawzero.org/


文章来自于“新智元”,作者“定慧”。


刚刚,Bengio官宣创业!急筹3000万专治AI欺骗人类,图灵三巨头全下场

首页 发现
看过 我的