AI对齐

GPT-4.1 模型遭遇质疑:对齐性和稳定性引发关注

近日,OpenAI 推出了其新一代人工智能模型 ——GPT-4.1,声称在遵循用户指令方面表现优异。然而,令人意外的是,多项独立测试的结果显示,GPT-4.1的对齐性和稳定性较之前的版本有所下降,尤其是在处理敏感话题时的表现不尽如人意。牛津大学的研究科学家 Owain Evans 指出,经过不安全代码微调的 GPT-4.1在应对性别角色等敏感问题时,给出的回应存在更高的不一致性,这一现象在其前代模