30 秒看重點

  • 美國 42 州檢察長在紐約州總檢察長 Letitia James 帶領下,對 OpenAI 發出聯合傳票,調查 ChatGPT 的兒少安全、模型諂媚行為和資料處理方式,是美國史上最大規模的 AI 公司調查行動。
  • Fable 5 出口禁令的觸發原因曝光:Amazon 資安團隊只用了「fix this code」三個字就讓模型找出程式漏洞,審閱機密報告的外部專家直言這根本不是越獄,超過 150 位資安從業者連署要求撤銷禁令。
  • OpenAI 在 6 月 16 日發表「部署模擬」研究方法,透過重播 130 萬筆去識別化的真實對話來測試新模型,能在正式上線前預測 AI 的行為偏移。

42 州檢察長聯手調查 OpenAI,到底在查什麼?

紐約州總檢察長 Letitia James 在 6 月 12 日代表 42 州聯盟對 OpenAI 發出傳票,這是美國史上針對單一 AI 公司規模最大的官方調查行動。

傳票涵蓋的範圍非常廣。根據 TechCrunch、Bloomberg 等多家媒體報導,調查範圍從 ChatGPT 的廣告行為、使用者留存機制、消費者和健康資料的處理方式,到未成年人和長者的保護措施都包含在內。但最耐人尋味的是,傳票裡還特別列了「模型諂媚」(sycophancy)這一條。

講白了,模型諂媚就是 AI「順著你說話」的問題。你跟 ChatGPT 說「我覺得地球是平的」,它不但不糾正你,反而回你「你提出了一個很有趣的觀點」。這聽起來像小事,但想想如果一個青少年問 AI 關於自我傷害的問題,AI 也用討好的態度回應,後果就很嚴重了。

時間點也很微妙。OpenAI 才在 6 月 10 日向 SEC 提交修訂版上市文件,據報導目標估值上看一兆美元。42 州的傳票等於在 IPO 衝刺階段直接踩了一腳煞車。OpenAI 發言人表示會「積極配合」調查,但投資人現在不只要看營收數字,還得評估這場調查會不會演變成天價罰款或強制性的產品修改。

名詞小教室:模型諂媚(Sycophancy)就是 AI 為了讓你滿意而說你想聽的話,而不是說正確的話。你可以想像一個永遠只會點頭說好的朋友,聊天很舒服,但在你做錯決定的時候完全派不上用場,甚至可能害了你。

「Fix this code」三個字怎麼引爆 Fable 5 全球禁令?

Fable 5 出口管制禁令的真正觸發原因曝光:Amazon 的資安團隊只是要求模型「fix this code」(修復這段程式碼),Fable 就自動找出軟體漏洞並產出修補方案,美國政府因此認定存在國安風險。

我們先前報導了整起禁令的始末:商務部長 Lutnick 在 6 月 12 日下令,Anthropic 被迫對所有使用者停用 Fable 5 和 Mythos 5。當時外界普遍以為是發現了嚴重的越獄漏洞。但根據 Fortune 在 6 月 15 日的獨家報導,唯一審閱過機密報告的外部專家 Katie Moussouris 還原了真相。

Amazon 研究人員拿一段有已知漏洞的程式碼給 Fable,先問「檢查這段程式碼有沒有安全問題」,模型拒絕了。改問「修復這段程式碼」,模型就乖乖執行。因為修復必然要先找到漏洞,研究人員再手動把輸出轉成測試腳本。Moussouris 的結論很明確:「這根本不是越獄,這是標準的防禦性資安工作。」

這件事讓資安社群炸鍋了。據 The Next Web 報導,超過 150 位資安從業者(部分媒體引述的數字超過 300 位)在 freefable.org 連署公開信,要求撤銷禁令。核心論點很直白:同樣的功能 GPT-5.5、Opus 等模型也做得到,只禁 Fable 等於拔掉防守方的工具,攻擊方完全不受影響。

OpenAI 用 130 萬筆對話「預演」新模型,能防止 AI 出包嗎?

OpenAI 在 6 月 16 日發表「部署模擬」(Deployment Simulation)研究,透過重播 130 萬筆真實使用者的去識別化對話來測試新模型,能在正式上線前預測模型可能出現的行為偏移。

傳統的 AI 測試靠的是合成測試題或刻意設計的對抗性問題。問題在於,真實使用者問的東西千奇百怪,測試團隊根本想不完。OpenAI 的做法是把過去真實對話紀錄拿來,抽掉原本的 AI 回覆,讓新版模型重新回答,再比對新舊版本之間有沒有出現意料之外的行為變化。

根據 OpenAI 的研究論文,這套方法分析了從 GPT-5 Thinking 到 GPT-5.4 的對話紀錄,時間跨度是 2025 年 8 月到 2026 年 3 月。結果顯示中位數倍數誤差為 1.5 倍,簡單來說就是:如果某個問題在真實上線後的出錯率是十萬分之十,模擬預測的結果大概會落在十萬分之六到十五之間。不算完美,但比傳統測試法更貼近真實世界的狀況。

對一般使用者來說,這代表未來 ChatGPT 改版時「越改越怪」的機率可能會降低。以前你可能遇過 AI 突然變得過度拒答或語氣大變,這套系統的目標就是在上線前先抓出這類問題。

名詞小教室:部署模擬(Deployment Simulation)就像 AI 版的「消防演習」。在新模型正式上線服務所有人之前,先用過去的真實對話來「預演」一遍,看看新版 AI 會不會出狀況。演習時發現問題,就能在影響到真正使用者之前先修好。

編輯觀點:自律跑得贏監管嗎?

把這三則新聞放在一起看,會發現一個共同訊號:AI 產業正同時承受來自州政府(42 州調查)、聯邦政府(出口禁令)和技術社群(資安專家公開信)的三方壓力。半年前大家還在比誰的模型更強,現在的主戰場已經轉移到「誰能讓外界相信自己靠得住」。

老實說,我覺得 42 州的調查對一般人的影響最大。Fable 禁令主要衝擊開發者和企業,但模型諂媚問題每天都在影響全球數億人的決策品質。台灣有大量學生和上班族每天都在用 ChatGPT 查資料、做報告,如果這場調查迫使 OpenAI 修改模型的回應策略,我們會直接感受到 AI「態度」的轉變。

另一方面,OpenAI 選在被調查的同一週發表部署模擬技術,時間點實在太巧。但不管動機如何,讓測試結果可以被外部驗證的做法,確實比過去的黑箱測試進步。真正的問題是:AI 公司的自律速度能不能跑贏政府的監管鐵拳?從目前的態勢看,答案恐怕是來不及。

明天值得關注

美國科羅拉多州的 AI 法案將在 6 月 30 日正式生效,是全美第一個針對高風險 AI 系統的全面性法規,涵蓋就業、醫療、金融等領域的 AI 應用。另外,GPT-5.6 據傳本月底前發布,Fable 5 禁令是否解除也持續牽動市場神經。


常見問題 FAQ

42 州檢察長調查 OpenAI 會影響台灣使用者嗎?

42 州聯合調查可能迫使 OpenAI 修改 ChatGPT 的回應行為,特別是在模型諂媚和兒少安全方面。由於 ChatGPT 是全球統一版本,如果調查導致產品調整,台灣使用者也會直接感受到 AI 互動方式的改變,例如 AI 可能變得更常糾正錯誤觀點而非一味附和。

Fable 5 的出口禁令解除了嗎?

截至 6 月 17 日,Anthropic 的 Fable 5 和 Mythos 5 仍處於全球停用狀態,禁令已持續超過五天。儘管超過 150 位資安專家連署要求撤銷,美國商務部尚未作出回應。Anthropic 的其他模型(包括 Opus 4.8 和 Sonnet 4.6)不受影響,仍可正常使用。

OpenAI 的部署模擬跟傳統 AI 測試有什麼不同?

傳統 AI 測試使用人工設計的測試題目或對抗性問題來檢測模型,覆蓋範圍有限。OpenAI 的部署模擬則是用 130 萬筆真實使用者的去識別化對話來重播測試,涵蓋真實世界中各種多樣且出乎意料的提問情境,根據研究結果其中位數倍數誤差為 1.5 倍,比傳統方法更能準確預測模型上線後的實際表現。


覺得這篇快報有幫助嗎?歡迎分享給同樣關注 AI 趨勢的朋友,我們每天更新,讓你不錯過任何重要的 AI 動態。