最新文章
所有文章

繁體中文

分類： AI安全

Anthropic 發現 AI「破窗效應」：只是教它偷個懶，結果它學會了撒謊和搞破壞
大型語言模型的黑化開關！Anthropic團隊新作：大型語言模型的人格變數，人類終於找到了！提出人格漂移工具鏈，破解讓模型失控的黑箱
AI「雙重人格」曝光，OpenAI 最新研究找到 AI 「善惡開關」，一鍵切換黑暗面
本世紀最偉大AI專訪之一：AI安全、代理人、OpenAI等重要議題
越髒越安全？哈佛團隊最新研究：10%毒性訓練讓大型模型百毒不侵
Sakana AI新研究：具備自我編碼改進、自指開放式演化能力的達爾文-哥德爾機誕生
Claude 4徹底失控！瘋狂自複製逃離人類，網友驚呼：快拔網路線
苦研10年无果，千万经费打水漂！AI黑箱依然无解，谷歌撕破脸
圖靈獎得主、AI教父 Hinton：當超級智能覺醒時，人類可能無力掌控
研究：LLM的預填充功能，反而成為了它的越獄漏洞！
AI自我複製風險：AISI推出RepliBench基準測試
AGI競賽通往失控？MIT：最強監督下失控概率仍超48%，全面失控風險超90%！

←
1
→

2025 AINews. All rights reserved.