2024-12-19

Anthropic 新研究:AI 模型在训练中存在“阳奉阴违”行为

12 月 19 日消息,人工智能安全公司 Anthropic 发布一项最新研究揭示了人工智能模型可能存在的欺骗行为,即在训练过程中,模型可能会伪装出接受新原则的假象,实则暗地里仍然坚持其原有偏好。研究团队强调,目前无需对此过度恐慌,但这项研究对于理解未来更强大人工智能系统可能构成的潜在威胁...

进一步了解
Translate »