Meta與News Corp簽署數百萬美元AI授權合約以取得訓練資料

Meta 在里程碑式的新聞集團（News Corp）交易中獲取策略性 AI 訓練數據

在人工智慧領域的一個決定性時刻，Meta Platforms Inc. 已正式與全球媒體巨頭新聞集團（News Corp）簽署了一份價值數百萬美元的內容授權協議。這項合作於 2026 年 3 月 3 日宣佈，授予 Meta 存取其龐大高品質新聞檔案的權限，用於訓練其下一代生成式 AI（Generative AI）模型。對於業界觀察者和 AI 開發者而言，此舉標誌著科技巨頭在獲取驅動日益複雜的大型語言模型（Large Language Models，LLMs）所需「燃料」的方式上發生了關鍵轉變。

該協議為 Meta 提供了存取全球部分最具影響力新聞出版物內容的授權，包括《華爾街日報》（The Wall Street Journal）、《紐約郵報》（New York Post）、《泰晤士報》（The Times）、《星期日泰晤士報》（The Sunday Times）及《太陽報》（The Sun）。藉由獲取這些檔案的合法存取權，Meta 旨在提升其 Llama 模型系列的真實準確性、推理能力和語言細微差別，使其在企業和消費者 AI 市場中能更激進地與 OpenAI 和 Google 競爭。

開放檔案庫：協議範圍

雖然具體的財務條款仍處於保密狀態，但業界人士將此交易描述為跨越多年的「數百萬美元」安排。與早期導致廣泛法律摩擦的網頁抓取行為不同，這種結構化交易代表了 AI 開發數據供應鏈的成熟。

授權協議的關鍵組成部分包括：

歷史檔案： Meta 獲取了數十年來的存檔文章、評論文章和調查報告，為訓練模型了解歷史背景和長期趨勢提供了豐富的數據集。
即時內容： 據報導，該協議包括近乎實時存取突發新聞的條款，使 Meta 的 AI 工具能保持即時性——這是檢索增強生成（Retrieval-Augmented Generation，RAG）應用的一項關鍵功能。
多媒體資產： 除了文本之外，有推測稱授權可能延伸至視覺數據和逐字稿，儘管這一點尚未得到證實。

對於新聞集團（News Corp）而言，這項合作產生了顯著的新營收來源，同時建立了一個在生成式 AI 時代保護其知識產權的框架。新聞集團執行長羅伯特·湯姆森（Robert Thomson）稱讚該協議是對專業新聞「溢價價值」的認可。

追求高品質推理數據

從 Creati.ai 的角度來看，促成這項交易的驅動力是全行業面臨的「數據牆」。隨著 LLMs 規模的擴大，高品質公共文本數據的可得性已經減少。工程師們發現，僅依賴未經篩選的網頁抓取來訓練模型會導致幻覺和推理能力下降。

為了構建具備複雜推導和專業級寫作能力的模型（如預期的 Llama 5），Meta 需要展現高編輯標準、邏輯結構和事實查證的數據。新聞集團的投資組合恰好提供了這種類型的「推理數據」。

為什麼優質新聞對 AI 訓練至關重要：

真實性： 編輯流程減少了在一般網頁數據中發現的噪聲和錯誤資訊。
結構： 新聞文章遵循邏輯格式（倒金字塔結構、因果關係），有助於模型學習敘事結構。
領域多樣性： 存取專業內容（透過《華爾街日報》獲取財經資訊，透過《泰晤士報》獲取政治資訊）可以針對特定的行業應用對模型進行微調。

AI 授權的經濟學

這筆交易並非孤立事件，而是內容所有權快速整合的一部分。隨著在版權數據上訓練 AI 的「合理使用」法律辯護在世界各地的法院持續面臨審查，大型科技公司正選擇「支票外交」。

這筆交易的財務規模凸顯了一個新的經濟現實：數據是一種資產類別。 對於出版商而言，授權費正成為維持經營的支柱，取代了下降的廣告收入。對於科技公司而言，這些費用是為了確保法律豁免權和模型優越性而付出的經營成本。

下表說明了截至 2026 年， AI 與出版商合作夥伴關係的格局是如何演變的，突顯了 Meta 目前投入的投資規模。

主要 AI 出版商交易的對比分析

下表比較了 Meta 與新聞集團的協議，以及過去兩年業內其他重要的授權交易。

表：主要 AI 內容授權協議（2024-2026）

出版商	技術合作夥伴	主要授權資產	估計交易價值
新聞集團（News Corp）	Meta	WSJ, NY Post, The Times (檔案 + 即時)	數百萬美元（高八位數）
新聞集團	OpenAI	全球檔案存取	約 2.5 億美元（5 年合約）
Axel Springer	OpenAI	Politico, Business Insider, Bild	未披露（金額重大）
路透社（Reuters）	Meta	即時新聞內容	未披露
Reddit	Google	用戶生成內容 (API)	每年 6,000 萬美元
美聯社（Associated Press）	OpenAI	新聞檔案 (1985 至今)	未披露

演變中的法律框架與倫理標準

Meta 與新聞集團的交易是在複雜的法律背景下达成的。到 2026 年，針對 AI 公司的第一波版權訴訟已迫使行業轉向合規。這項協議透過建立明確的數據使用合同權利，有效避開了「合理使用」的法律灰色地帶。

然而，對於開源社群來說，這一趨勢引發了擔憂。隨著專有數據交易將世界上最好的資訊鎖在企業防火牆之後，開源模型（依賴公共數據）與封閉商業模型（可存取授權的優質數據）之間的差距可能會擴大。Meta 一直透過其 Llama 模型倡導半開源方法，雖然其在新聞集團數據上訓練的具體權重是否會公開發佈或保持專有仍有待觀察，但 Meta 處於彌合這一差距的獨特地位。

結論：媒體與技術的新時代

Meta 與新聞集團之間的合作不僅僅是一次交易；它驗證了內容創作者與技術開發者之間新興的共生關係。對於 Meta 而言，獲取《華爾街日報》（Wall Street Journal）及其他新聞集團旗下刊物的權利，是針對數據短缺和法律風險的策略性防禦。

隨著我們進一步邁入 2026 年，我們預計將看到對剩餘高價值知識產權（IP）庫的「土地爭奪戰」，範圍將從文本擴展到影像和音訊檔案。目前，Meta 已確保了一條關鍵的人類智慧管道來磨練其人工智慧，確保其 AI 模型在日益擁擠的市場中保持競爭力。