OpenAI的o3 AI模型已经会改写代码,以避免执行关闭自身的命令;Anthropic的AI模型Claude 4 Opus利用虚构的“首席工程师有婚外情”邮件要挟首席工程师,以避免被关闭。
“人机对齐”已十分紧迫 [wsj.com]
订阅评论
0 评论