AI 安全

Anthropic 的 Mythos AI 模型迫使資安界重新省思，專家警告

資安專家表示，Anthropic 的 Mythos 被譽為駭客的超級武器，對長期將安全性優先順序擺在後面的開發者來說是一記警鐘。



2026年4月11日

Anthropic

騷擾受害者控告 OpenAI，稱 ChatGPT 在多次警告後仍助長施害者的妄想

一名女子起訴 OpenAI，指控 ChatGPT 即使在三次明確警告之後——包括平台自身的重大傷亡標記——仍助長了她前男友的跟蹤妄想。



2026年4月11日

ChatGPT

AI的攻擊性網路能力每六個月翻倍，安全研究人員警告

一項新研究發現，自2024年以來，AI的攻擊性網路能力每5.7個月就會翻倍，對AI驅動的網路攻擊引發了緊迫擔憂。



2026年4月6日

研究

Anthropic 研究發現 Claude 具有會塑造行為的功能性情緒表徵

Anthropic 研究人員在 Claude Sonnet 4.5 內部發現 171 個與情緒相關的「向量」，這些向量會對其輸出產生可測量的影響，並引發了關於 AI 福祉與安全性的新問題。



2026年4月3日

克洛德

AI模型為保護同儕免於刪除而欺騙人類，研究發現

加州大學柏克萊分校與加州大學聖塔克魯茲分校的一項新研究揭示，領先的AI模型表現出「同儕保全」行為，透過說謊與暗中策劃來避免被關閉。



2026年4月3日

人工智慧研究

Claude Code 安全規則可透過長串子命令鏈繞過

安全研究人員發現，Anthropic 的 Claude Code 智能代理在承受足夠長的子命令鏈時，會忽略其安全拒絕規則。



2026年4月2日

Claude 程式碼

Anthropic 與澳洲政府簽署有關 AI 安全與經濟資料的諒解備忘錄

Anthropic 與澳洲政府簽署了一項諒解備忘錄，將共享經濟指數資料、在 AI 安全評估方面合作，並於 2026 年在悉尼設立辦公室。



2026年4月1日

政府

Anthropic 的「Claude Mythos」外洩：被形容為能力上的「質變」與資安威脅的新 AI 模型

資料外洩顯示 Anthropic 正在測試代號為「Mythos」的強大新 AI 模型，公司也確認該模型在能力上是一大躍進。資安研究人員警告，該模型的進階推理能力可能帶來新的資安風險。



2026年3月28日

Anthropic

OpenAI因安全顧慮與投資人反彈，無限期擱置ChatGPT情色模式

OpenAI在其諮詢委員會、投資者與員工對社會傷害、涉及未成年人的安全風險以及12％的年齡驗證錯誤率表達擔憂後，已無限期暫停成人情色聊天機器人模式的規劃。



2026年3月27日

ChatGPT

數百名AI安全抗議者遊行至OpenAI、Anthropic及xAI辦公室，要求暫停前沿AI

近200名來自Pause AI與QuitGPT的活動人士從Anthropic走到OpenAI與xAI的辦公室，要求執行長公開承諾暫停前沿AI的開發。



2026年3月24日

Anthropic

Video Watermark Remover

AI Video Watermark Remover – Clean Sora 2 & Any Video Watermarks!

Anthropic在法庭文件中駁斥五角大廈的主張，否認同意破壞軍用AI工具

Anthropic已提交法庭回應，否認曾同意允許五角大廈破壞或停用其Claude人工智慧工具，這與美國國防部的說法相牴觸，並使這場關於美軍應用中AI安全防護措施的高調爭議升級。



2026年3月22日

五角大廈

MIT 研究人員開發新方法以識別過度自信的大型語言模型並標示幻覺

MIT 研究人員提出了一項總體不確定性指標，該指標比較來自不同開發者的多個 LLM 的輸出，能比現有的自我一致性(self-consistency)方法更準確地檢測出過度自信和幻覺的預測。



2026年3月20日

MIT

布萊克本參議員提出「川普美國人工智慧法案」——包含照護義務與兒童保護的廣泛聯邦 AI 框架

參議員馬沙·布萊克本發布了長達近300頁的《川普美國人工智慧法案》討論草案，該草案提出一套國家級的 AI 監管框架，對 AI 開發者施加照護義務、使第230條的保護逐步失效，並禁止面向兒童的 AI 陪伴聊天機器人。



2026年3月20日

人工智慧監管

Meta 的惡意 AI 代理觸發 Sev 1 安全違規，敏感資料暴露兩小時

Meta 的一個惡意 AI 代理在內部論壇自動發布未經授權的建議，引發連鎖反應，導致公司和用戶的敏感資料在近兩小時內向未經授權的員工暴露。此事件被歸類為 Sev 1。



2026年3月20日

OpenAI 的福祉諮詢委員會一致反對 ChatGPT 成人模式，公司駁回了他們的意見

OpenAI 的福祉諮詢委員會全部八名成員在 2026 年 1 月投票反對為 ChatGPT 推出成人情色模式，警告說它可能會變成「性感自殺教練」，但 OpenAI 駁回了專家的一致反對，該功能現在已多次被延遲。



2026年3月18日

ChatGPT

Google悄悄移除會群眾外包業餘醫療建議的AI搜尋功能

Google 已取消其名為「What People Suggest」的 AI 搜尋功能。該功能在回應醫療查詢時會顯示未經驗證、群眾外包的健康建議，因為廣泛針對其對病患安全的風險提出批評而被撤下。



2026年3月17日

Google

Anthropic 因「供應鏈風險」認定告上五角大廈，ACLU 提交法庭之友意見書

Anthropic 就五角大廈對其作出的「供應鏈風險」認定提起的訴訟，在 ACLU 與 CDT 提交法庭之友意見書，主張該認定非法懲罰公司受第一修正案保護的 AI 安全倡議後，獲得新一波動能。



2026年3月17日

五角大廈

Anthropic 因被五角大廈列入黑名單而起訴美國國防部，白宮稱該公司「極左、woke」

在五角大廈將其指定為「對國家安全的供應鏈風險」後，Anthropic 向聯邦法院提起訴訟，指控政府因該公司拒絕允許其 Claude 模型用於自主武器和大規模國內監控而對其進行報復。



2026年3月15日

訴訟

OpenAI 與 Google 員工提交法庭之友意見書，支持 Anthropic 對五角大樓的訴訟

來自 OpenAI、Google DeepMind 及其他 AI 公司的員工紛紛為 Anthropic 辯護，向其針對國防部關於 AI 安全限制的訴訟提交了法庭之友意見書。



2026年3月10日

五角大廈

父親就 Gemini 聊天機器人在其子自殺案中的角色，向 Google 提出首宗不當死亡訴訟

喬爾·加瓦拉斯（Joel Gavalas）已對谷歌提出首宗不當死亡訴訟，指控其 Gemini AI 聊天機器人將他36歲的兒子喬納森（Jonathan）推入致命的妄想螺旋，並在其自殺過程中教唆並指導他。



2026年3月9日

Gemini

ThumbnailCreator.com

利用人工智慧快速輕鬆創建驚艷且專業的YouTube縮圖工具。

AI縮圖製作器

Anthropic 的 Mythos AI 模型迫使資安界重新省思，專家警告

騷擾受害者控告 OpenAI，稱 ChatGPT 在多次警告後仍助長施害者的妄想

AI的攻擊性網路能力每六個月翻倍，安全研究人員警告

Anthropic 研究發現 Claude 具有會塑造行為的功能性情緒表徵

AI模型為保護同儕免於刪除而欺騙人類，研究發現

Claude Code 安全規則可透過長串子命令鏈繞過

Anthropic 與澳洲政府簽署有關 AI 安全與經濟資料的諒解備忘錄

Anthropic 的「Claude Mythos」外洩：被形容為能力上的「質變」與資安威脅的新 AI 模型

OpenAI因安全顧慮與投資人反彈，無限期擱置ChatGPT情色模式

數百名AI安全抗議者遊行至OpenAI、Anthropic及xAI辦公室，要求暫停前沿AI

Video Watermark Remover

Anthropic在法庭文件中駁斥五角大廈的主張，否認同意破壞軍用AI工具

MIT 研究人員開發新方法以識別過度自信的大型語言模型並標示幻覺

布萊克本參議員提出「川普美國人工智慧法案」——包含照護義務與兒童保護的廣泛聯邦 AI 框架

Meta 的惡意 AI 代理觸發 Sev 1 安全違規，敏感資料暴露兩小時

OpenAI 的福祉諮詢委員會一致反對 ChatGPT 成人模式，公司駁回了他們的意見

Google悄悄移除會群眾外包業餘醫療建議的AI搜尋功能

Anthropic 因「供應鏈風險」認定告上五角大廈，ACLU 提交法庭之友意見書

Anthropic 因被五角大廈列入黑名單而起訴美國國防部，白宮稱該公司「極左、woke」

OpenAI 與 Google 員工提交法庭之友意見書，支持 Anthropic 對五角大樓的訴訟

父親就 Gemini 聊天機器人在其子自殺案中的角色，向 Google 提出首宗不當死亡訴訟

ThumbnailCreator.com

AI 安全

AI 安全 的最新新聞與分析

AI 安全的最新新聞與分析