AI趨勢周報第287期:Meta推TRIBE v2腦模型,可預測人類大腦反應、準確度還提高2~3倍
Meta TRIBE v2 大腦反應
Meta推TRIBE v2腦模型:可預測人類大腦反應,準確度提高2~3倍
Meta最近發表新一代腦科學AI模型TRIBE v2(Trimodal Brain Encoder),可預測人類大腦在觀看影像、聆聽聲音時的神經反應,讓過去只能透過實驗觀察到的大腦活動,能漸漸用AI模擬了。
該模型以超過700名受試者、累計500多小時的fMRI腦部掃描資料訓練,學習人在不同影音和語言刺激下的大腦活動模式。TRIBE v2可同時整合影像、音訊和文字三種模態,並預測全腦約7萬個體素(voxels)的活動,就像是重建一張高解析度的大腦反應圖,解析度較前一版模型提升了70倍左右。
這款模型的一大突破,在於零樣本預測能力。模型不必重新訓練,就能預測未見過個體的大腦反應。在電影與有聲書的測試任務中,TRIBE v2表現比既有方法還要好,準確度提高2至3倍。Meta表示,這項技術可加速神經科學研究,並有助開發更貼近人類認知的AI系統,甚至應用於神經疾病的模擬與治療。不過,當AI能預測腦部反應,也引發一些隱私和潛在濫用的倫理討論。(詳全文)

Google 壓縮 生成式AI
跑LLM更快也更省錢:Google新壓縮技術記憶體用量降6倍、效能不打折
Google研究團隊提出一套新模型壓縮技術TurboQuant,改良了既有的向量量化(Vector quantization)方法,大幅降低AI模型的記憶體使用量,同時維持原本的準確度。
這項技術鎖定大型語言模型(LLM)的瓶頸——KV cache(鍵值快取),這類資料是用來加速模型推論,但也非常耗費記憶體。因此,TurboQuant採用兩階段設計,一邊用PolarQuant壓縮主要資訊,一邊再用僅1-bit的QJL演算法,來補償壓縮誤差,在幾乎不增加額外負擔的情況下,維持模型的精度。
從實驗結果來看,TurboQuant可以把KV cache壓縮到3-bit,記憶體使用量降低至少6倍,同時在長文本理解和搜尋任務中維持原本的準確度,甚至在部分情境下,還能提高效能最高8倍。這類壓縮技術的影響不只在模型本身,還會直接牽動向量搜尋效率,對生成式AI和語意搜尋這類應用來說,都是關鍵的基礎能力。(詳全文)

Gemini AI代理 暗網
Google把Gemini放進暗網,用AI蒐集威脅情報
在RSA 2026資安大會上,Google Cloud宣布將Gemini部署於暗網環境,打造自動化威脅情資服務。該系統可每日蒐集並分析數百萬則暗網貼文,結合資安專家產出企業專屬報告,不僅能揭露資料外洩與攻擊討論,還能解析攻擊手法並提前預警。
這套機制由一組AI代理運作,負責資料彙整與初步分類,讓資安人員專注於進階分析。Google表示,內部測試顯示,暗網威脅情報分析的外部事件準確率可達98%。
除了暗網情報,Google也同步強化代理人化資安工具。例如在Security Operations中加入自動調查代理人,可自主分析警報、蒐集證據並提出建議;Security Command Center則整合Vertex AI Agent Engine,偵測未授權存取與資料外洩等代理式威脅。(詳全文)
Claude 代理 Computer Use
Anthropic讓Claude親手操作電腦,AI代理進入桌面時代
Anthropic推出Claude「Computer Use」功能,讓AI代理可透過滑鼠、鍵盤與螢幕直接操作電腦,完成開啟檔案、瀏覽網頁和執行開發工具等任務,正式邁向「電腦操作代理人」階段。
該功能整合於Claude Cowork和Claude Code等AI工作環境中,系統會優先透過API或既有工具(如Slack、Google Calendar)完成任務,若無法處理,才改以「看畫面+操作滑鼠鍵盤」方式執行。所有操作需經使用者授權,並內建提示注入防護與權限控管,降低AI被誘導執行錯誤指令的風險。
目前Computer Use以研究預覽形式提供,僅支援macOS,且在複雜任務中仍可能需要多次嘗試,效率也低於直接系統整合。此次功能也結合Dispatch跨裝置任務機制,讓使用者可從手機指派任務,由AI在電腦端持續執行。(詳全文)

Ai2 視覺代理 瀏覽器
Ai2開源一款AI代理,可以看畫面、操作瀏覽器
Ai2最近開源一款視覺網頁代理MolmoWeb,以Molmo 2多模態模型為基礎而建立,提供4B和8B兩種版本,並同步公開模型權重、資料集和評測工具,支援自行部署。相較多數封閉系統,這次Ai2連訓練資料與流程也一併開放。
MolmoWeb的最大特色是「看畫面來操作網頁」。它不讀HTML或無障礙樹,而是直接看網頁截圖,搭配任務指令與操作紀錄,逐步完成點擊、輸入和捲動等動作。Ai2認為這種方式更接近人類操作邏輯,也能降低token消耗。
Ai2揭露,MolmoWebMix資料集包含了3.6萬筆人工任務軌跡、超過62萬筆子任務,以及近220萬筆截圖問答資料,涵蓋1,100個網站。另外,資料集也包含文字代理產生的合成操作軌跡,用來提升模型泛化能力。在效能測試上,MolmoWeb 8B在WebVoyager任務成功率達78.2%,pass@4可提升至94.7%。不過,模型仍可能誤判畫面文字,且尚未支援登入或金融交易等高風險場景。(詳全文)

Cloudflare AI代理 API
Cloudflare推新功能,讓AI生成程式碼「跑完即丟」
Cloudflare最近推出Dynamic Worker Loader功能,開放Workers付費用戶在執行期間動態載入新的Worker,將AI即時生成的程式碼放入獨立沙箱中執行。這也讓AI代理不再只是呼叫工具,而是直接撰寫程式串接API,再交由隔離環境執行,達到「用完即丟」的運作模式。
在安全設計上,該機制可將未受信任程式碼與主程式、外部網路及敏感資源隔離,並支援細部權限控管,例如封鎖對外連線、攔截或改寫HTTP請求,以及注入憑證,確保AI程式碼只能存取指定服務。與傳統容器不同,Dynamic Worker Loader採用V8隔離模型作為執行邊界,啟動時間可達毫秒等級,適合為單次任務建立一次性執行環境,任務完成即銷毀。這種設計可降低延遲與資源成本,也讓每次請求獨立隔離更容易實現。
Cloudflare也將這項能力整合到Code Mode,讓AI以TypeScript撰寫程式並直接在沙箱中執行,甚至可預設封鎖對外網路連線。整體來看,AI代理正從呼叫工具呼叫,逐步走向生成程式並即時執行的新開發模式。(詳全文)
思科 AI代理 OpenClaw
思科推DefenseClaw,為AI代理加上三層防護
在聚焦AI與資安的RSA 2026大會上,思科推出AI代理安全管理工具DefenseClaw,鎖定開源框架OpenClaw的應用風險,強化AI代理的系統操作安全。
OpenClaw可讓AI代理直接呼叫工具、存取檔案甚至執行系統指令,雖然大幅提高自動化能力,卻也帶來權限濫用風險。為此,DefenseClaw提供三層防護機制:在安裝前整合skill-scanner、mcp-scanner和CodeGuard等工具進行掃描;在執行期間持續檢查AI輸入與輸出行為;並透過封鎖和允許清單,限制特定功能或元件被呼叫。
底層則結合Nvidia OpenShell架構的核心隔離與預設拒絕網路存取等設計,形成從基礎設施到應用層的防護架構,同時還可與Splunk整合,強化監控和可觀測性。整體來看,隨著AI代理逐步取得更高系統權限,執行環境安全也成為新課題。(詳全文)
OpenAI Sora 影片生成
OpenAI喊停Sora:影片生成退場,轉攻企業與超級App布局
OpenAI近日宣布將停止影片生成模型Sora服務,後續也將公布應用與API下線時程,以及使用者作品的保存方式。這項決策也意味著,ChatGPT未來將不再支援影片生成功能。
Sora自2024年推出以來,以高擬真影片生成能力引發關注,並在2025年發展為獨立應用,主打創作與分享。不過,根據《華爾街日報》報導,OpenAI此次收掉Sora,反映整體策略轉向,將資源集中在企業應用與開發者工具等AI生產力場景,並為可能的IPO布局。
報導指出,OpenAI正整合ChatGPT、程式工具Codex和瀏覽器,打造單一「超級App」,將聊天、開發與搜尋等功能整合在同一平臺。隨著Sora退場,OpenAI在多模態影音領域的布局也出現調整,顯示其產品策略正從創作導向,轉向更直接帶來商業價值的應用場景。(詳全文)
圖片來源/Meta、Google、Anthropic、Ai2
AI近期新聞
1.ARC-AGI-3互動推理基準上線,人類可全解但主流AI得分卻不到1%
資料來源:iThome整理,2026年3月
TRIBE v2
A self-supervised vision transformer model by Meta AI
aidemos.atmeta.com
Comments (0)