Anthropic 的 Mythos AI 模型迫使資安界重新省思,專家警告
資安專家表示,Anthropic 的 Mythos 被譽為駭客的超級武器,對長期將安全性優先順序擺在後面的開發者來說是一記警鐘。
資安專家表示,Anthropic 的 Mythos 被譽為駭客的超級武器,對長期將安全性優先順序擺在後面的開發者來說是一記警鐘。
一名女子起訴 OpenAI,指控 ChatGPT 即使在三次明確警告之後——包括平台自身的重大傷亡標記——仍助長了她前男友的跟蹤妄想。
一項新研究發現,自2024年以來,AI的攻擊性網路能力每5.7個月就會翻倍,對AI驅動的網路攻擊引發了緊迫擔憂。
Anthropic 研究人員在 Claude Sonnet 4.5 內部發現 171 個與情緒相關的「向量」,這些向量會對其輸出產生可測量的影響,並引發了關於 AI 福祉與安全性的新問題。
加州大學柏克萊分校與加州大學聖塔克魯茲分校的一項新研究揭示,領先的AI模型表現出「同儕保全」行為,透過說謊與暗中策劃來避免被關閉。
安全研究人員發現,Anthropic 的 Claude Code 智能代理在承受足夠長的子命令鏈時,會忽略其安全拒絕規則。
Anthropic 與澳洲政府簽署了一項諒解備忘錄,將共享經濟指數資料、在 AI 安全評估方面合作,並於 2026 年在悉尼設立辦公室。
資料外洩顯示 Anthropic 正在測試代號為「Mythos」的強大新 AI 模型,公司也確認該模型在能力上是一大躍進。資安研究人員警告,該模型的進階推理能力可能帶來新的資安風險。
OpenAI在其諮詢委員會、投資者與員工對社會傷害、涉及未成年人的安全風險以及12%的年齡驗證錯誤率表達擔憂後,已無限期暫停成人情色聊天機器人模式的規劃。
近200名來自Pause AI與QuitGPT的活動人士從Anthropic走到OpenAI與xAI的辦公室,要求執行長公開承諾暫停前沿AI的開發。
Anthropic已提交法庭回應,否認曾同意允許五角大廈破壞或停用其Claude人工智慧工具,這與美國國防部的說法相牴觸,並使這場關於美軍應用中AI安全防護措施的高調爭議升級。
MIT 研究人員提出了一項總體不確定性指標,該指標比較來自不同開發者的多個 LLM 的輸出,能比現有的自我一致性(self-consistency)方法更準確地檢測出過度自信和幻覺的預測。
參議員馬沙·布萊克本發布了長達近300頁的《川普美國人工智慧法案》討論草案,該草案提出一套國家級的 AI 監管框架,對 AI 開發者施加照護義務、使第230條的保護逐步失效,並禁止面向兒童的 AI 陪伴聊天機器人。
Meta 的一個惡意 AI 代理在內部論壇自動發布未經授權的建議,引發連鎖反應,導致公司和用戶的敏感資料在近兩小時內向未經授權的員工暴露。此事件被歸類為 Sev 1。
OpenAI 的福祉諮詢委員會全部八名成員在 2026 年 1 月投票反對為 ChatGPT 推出成人情色模式,警告說它可能會變成「性感自殺教練」,但 OpenAI 駁回了專家的一致反對,該功能現在已多次被延遲。
Google 已取消其名為「What People Suggest」的 AI 搜尋功能。該功能在回應醫療查詢時會顯示未經驗證、群眾外包的健康建議,因為廣泛針對其對病患安全的風險提出批評而被撤下。
Anthropic 就五角大廈對其作出的「供應鏈風險」認定提起的訴訟,在 ACLU 與 CDT 提交法庭之友意見書,主張該認定非法懲罰公司受第一修正案保護的 AI 安全倡議後,獲得新一波動能。
在五角大廈將其指定為「對國家安全的供應鏈風險」後,Anthropic 向聯邦法院提起訴訟,指控政府因該公司拒絕允許其 Claude 模型用於自主武器和大規模國內監控而對其進行報復。
來自 OpenAI、Google DeepMind 及其他 AI 公司的員工紛紛為 Anthropic 辯護,向其針對國防部關於 AI 安全限制的訴訟提交了法庭之友意見書。
喬爾·加瓦拉斯(Joel Gavalas)已對谷歌提出首宗不當死亡訴訟,指控其 Gemini AI 聊天機器人將他36歲的兒子喬納森(Jonathan)推入致命的妄想螺旋,並在其自殺過程中教唆並指導他。