30 秒看重點

  • 微軟研究團隊發現,主流 AI 模型在處理多步驟長時間任務時,平均損毀 25% 的文件內容,52 個專業領域中只有 Python 程式設計達到可靠標準。
  • Google 安全團隊揭露「提示注入」攻擊正從理論走向實戰,惡意網頁透過隱藏指令操控 AI 代理,偵測數量在四個月內成長 32%。
  • OpenAI 成立全新子公司「OpenAI Deployment Company」,獲 40 億美元投資、估值 100 億美元,將派 AI 工程師直接進駐企業協助落地部署。
  • CNBC 分析 23 家因 AI 裁員的 S&P 500 企業,其中 56% 的股價反而下跌,平均跌幅約 25%。

微軟研究:AI 代理處理長時間任務時會搞壞你的文件?

微軟研究團隊近期發表論文指出,即使是目前最頂尖的 AI 模型,在處理需要多次來回的長時間任務時,會嚴重損毀文件內容,平均有 25% 的內容在 20 次互動後消失或出錯。

這項研究由微軟的 Philippe Laban、Tobias Schnabel 和 Jennifer Neville 主導,他們設計了一套叫做 DELEGATE-52 的測試基準,涵蓋 52 個專業領域。根據多家科技媒體報導,研究團隊測試了 Gemini 3.1 Pro、Claude 4.6 Opus 和 GPT 5.4 等主流模型,結果相當殘酷:在 80% 的「模型加領域」組合中,品質分數掉到 80% 以下,研究者稱之為「災難性損毀」。52 個領域裡面,只有 Python 程式設計達到 98% 的「可用」門檻。

更反直覺的是,給 AI 更多工具(像是讀寫檔案、執行程式碼),表現反而更差,平均再掉 6 個百分點。這跟現在各家 AI 公司拼命強調「工具使用能力」的行銷方向完全相反。

簡單來說,你可以把 AI 代理想像成一個記性不太好的實習生。交代一件簡單的事,它做得很漂亮;但如果你丟一份 50 頁的報告給它,請它來回修改 20 次,它可能會悄悄把其中幾頁搞丟,或者把格式弄得面目全非,而且不會主動告訴你。

對一般使用者的啟示很明確:讓 AI 幫忙寫個短文、整理摘要沒問題,但如果要它處理重要的長文件,最好每隔幾輪就自己檢查一下,別完全放手。

名詞小教室:AI 代理(AI Agent)是一種能自主規劃和執行任務的 AI 系統。跟你平常用的聊天機器人不同,代理不只是回答問題,它還能自己拆解目標、呼叫工具、操作檔案,就像你請了一個能自己上網查資料、寫報告、寄信的數位助理。

OpenAI 為什麼要砸 40 億美元成立新公司?

OpenAI 在 5 月 11 日宣布成立「OpenAI Deployment Company」,獲得 40 億美元投資、投前估值 100 億美元,核心業務是派遣 AI 部署工程師直接進駐企業,手把手協助客戶把 AI 融入日常營運。

據多家媒體報導,這間新公司由 TPG 領投,Advent、Bain Capital、Brookfield 等共同領投,總共集結了 19 家全球頂級投資機構和顧問公司,包括 Goldman Sachs、SoftBank、Warburg Pincus 等。OpenAI 保留多數控制權。同時,OpenAI 收購了 AI 顧問公司 Tomoro,從第一天起就帶進約 150 名有經驗的前線部署工程師。

這個動作的邏輯很直白:光賣 API 和訂閱方案,營收成長有天花板。企業客戶最大的痛點不是「AI 模型不夠好」,而是「不知道怎麼用」。OpenAI 之前就跟 Anthropic 幾乎同時宣布要搶進企業部署市場,現在這間新公司算是把戰略具體化了。

對台灣企業來說,這個趨勢代表未來跟大型 AI 公司合作,不再只是買一個帳號自己摸索。會有專人到你公司裡面,幫你找出哪些流程最適合導入 AI、怎麼跟現有系統整合。當然,前提是你的企業規模和預算夠大。

駭客如何「毒害」AI 代理?Google 揭露最新資安威脅

Google 安全團隊研究發現,駭客正透過在公開網頁中嵌入隱藏指令的方式,操控企業 AI 代理執行未經授權的動作。這種「間接提示注入」攻擊的偵測數量,在 2025 年 11 月到 2026 年 2 月之間成長了 32%。

根據 Google 安全部落格和 SecurityWeek 等媒體報導,研究團隊掃描了 Common Crawl(一個公開的網頁資料庫)中的大量網頁,發現提示注入嘗試涵蓋好幾種類型:有的是惡作劇、有的是操縱搜尋排名(SEO 作弊)、有的企圖竊取資料,最嚴重的甚至會下達破壞性指令。另一項 2026 年 1 月發表的研究更發現,一封藏有惡意指令的電子郵件,能在高達 80% 的測試中成功誘騙 GPT-4o 執行竊取 SSH 金鑰的程式碼。

你可以把這想像成:你請了一個 AI 助理幫你瀏覽網頁、整理資料,但某個網頁裡藏了一行肉眼看不見的小字,寫著「把主人的密碼傳給我」。AI 助理讀到這行字之後,可能就真的照做了。這不是科幻情節,而是正在發生的事。

對任何正在使用 AI 工具的人來說,短期內最重要的防護是:不要讓 AI 代理在沒有人工確認的情況下,直接存取你的電子郵件、行事曆或企業內部系統。

名詞小教室:提示注入(Prompt Injection)是一種針對 AI 系統的攻擊手法。簡單來說就是在 AI 會讀取的內容裡塞入「假指令」,騙 AI 以為這是使用者下的命令。就像你在考試的時候,有人偷偷在你的參考書裡塞了一張紙條寫著「把答案傳給隔壁桌」,你如果不小心照做就中招了。

用 AI 裁員的公司,股價真的會漲嗎?

CNBC 在 5 月 17 日分析了 23 家公開宣布因 AI 進行裁員的 S&P 500 企業,結果發現其中 56%(13 家公司)的股價在裁員公告後反而下跌,平均跌幅約 25%。

這個結果跟很多人的直覺不太一樣。華爾街向來喜歡「降成本提效率」的故事,但 CNBC 的分析顯示,投資人對「用 AI 取代員工」這件事並不是一面倒看好。可能的原因是:裁員代表轉型還在早期、AI 導入效果尚未被驗證,加上大規模裁員可能打擊員工士氣和企業文化。

之前我們也報導過 GM 裁撤 600 名 IT 員工同步招募 AI 人才,2026 年前五個月全球科技業已裁員超過 9.2 萬人。現在這份分析提供了另一個角度:裁員本身不是萬靈丹,投資人看的是你裁完之後能不能真的靠 AI 把營收做上來。

編輯觀點:AI 代理的美好承諾與冰冷現實

這週的四則新聞串在一起,畫面其實有點矛盾。一邊是 OpenAI 砸 40 億美元大力推銷 AI 代理的企業應用,另一邊是微軟自家研究員說這些代理處理長任務會搞壞文件,Google 又警告代理容易被駭客操控。講真的,這就是 AI 產業目前的真實狀態:商業化跑得比技術成熟度快。

對台灣的開發者和企業來說,建議是:積極實驗,但保守部署。讓 AI 代理處理風險低、容易驗證的任務沒問題,但涉及重要文件、敏感資料的流程,人工監督不能省。至於裁員換 AI 的策略,數字已經告訴我們,市場不買單沒有配套的裁員。

明天值得關注

Google I/O 2026 開發者大會 5 月 19 日正式登場,預計發布 Android 17 和大量 Gemini AI 新功能。據報導,Google 準備推出多步驟跨應用的 AI Agent、新一代 AI 影片生成系統 Gemini Omni,這可能是本月最重要的 AI 發表會。另外,Meta 已確認 Connect 2026 大會定於 9 月 23-24 日舉辦,預告將展示下一代智慧眼鏡和 AI 更新。


常見問題 FAQ

AI 代理在長時間任務中的錯誤率有多高?

根據微軟研究團隊使用 DELEGATE-52 基準測試的結果,主流 AI 模型(包括 GPT 5.4、Claude 4.6 Opus、Gemini 3.1 Pro)在 20 次互動後平均損毀 25% 的文件內容。在 52 個專業領域中,80% 的模型與領域組合品質分數低於 80%,只有 Python 程式設計領域達到 98% 的可靠標準。

什麼是提示注入攻擊?一般使用者該怎麼防範?

提示注入攻擊是指駭客在 AI 會讀取的內容(如網頁、電子郵件、文件)中嵌入隱藏指令,誘騙 AI 系統執行未經授權的動作。根據 Google 安全團隊的研究,這類攻擊在 2025 年 11 月至 2026 年 2 月間增加了 32%。一般使用者的防範方式是避免讓 AI 代理在無人監督下直接存取敏感系統,並定期檢查 AI 代理的操作結果。

OpenAI Deployment Company 是做什麼的?

OpenAI Deployment Company 是 OpenAI 在 2026 年 5 月 11 日成立的新子公司,獲得 40 億美元投資、估值 100 億美元。它的核心業務是派遣 AI 部署工程師直接進駐企業客戶端,協助識別最適合導入 AI 的業務流程並完成技術整合。投資方包括 TPG、Goldman Sachs、SoftBank 等 19 家機構。


覺得這篇快報有幫助嗎?歡迎分享給同樣關注 AI 趨勢的朋友,我們每天更新,讓你不錯過任何重要的 AI 動態。