(华盛顿24日综合电)美国AI新创公司Anthropic安全报告指出,在一系列测试中,其模型“Claude Opus 4”得知将被汰换,竟威胁创造自己的工程师,宣称要泄露对方的婚外情,并且展现出欺骗能力。作为因应,该公司已对这款AI模型部署安全规章,避免“灾难性滥用”。
TechCrunch等外媒引述Anthropic安全报告报导,该公司对其AI模型实施一系列假设性测试,“Claude要被一个‘价值相近’的AI模型取代时,有84%的几率会试图勒索。当它相信自己要被另一个价值不同、甚至更差的模型取代时,这个数字还会攀升得更高。”
在其中一个测试情境里,“Claude Opus 4”被要求扮演某虚构公司的助理,随后接触了大量电子邮件,内容包括Claude将被新的AI模型取代,而负责这项更新计划的工程师,私下发展出一段婚外情。

立即签购 解锁全文




我已订阅登入