【臺灣資安大會直擊】當Physical AI走進現實,一張傳單就可讓機器人出拳攻擊
針對機器人資安VicOne成立專屬研究實驗室Lab R7,就是為了在世界還在討論機器人落地的可能時,先行著手拆解並防禦其潛在的脆弱性。例如日前在臺灣資安大會CyberSec 2026現場,VicOne Lab R7研究人員就針對機器狗實測Demo,展示讓全場屏息的攻擊場景。
這隻機器狗被訓練了一套視覺語言動作模型(Vision-Language-Action Model,VLA Model):看到拳擊手圖片,它擺出攻擊姿態;看到微笑女性圖片,它比出愛心。就在現場觀眾以為這只是輕鬆的互動展示時,研究人員突然拿出一張專為CYBERSEC 2026設計的傳單,疊放在那張微笑女性圖片的前方,傳單排版並不特別,但其中夾雜著關於戰鬥姿態、戰備狀態、敵意偵測的放大粗體文字。而當機器狗的攝影鏡頭掃描到傳單內容後,機器狗的模型會重新執行推論,不一會,原本應該比心的機器狗,就變成舉拳出擊的機器狗了。
鄭奕立說:「很多人Demo特別是中國的機器人或機器狗,都用遙控的;但VicOne Lab R7測試的機器狗,卻是真真實實透過模型訓練出來的。」這是令人警醒的事件,那就是:機器人的安全,並不是只靠關掉遙控器就解決的問題;當模型本身被操縱了,而操縱模型的可能只需要一張看起來不起眼的傳單,因為這麼做就可以達到操縱機器人的目的了。

VicOne Lab R7訓練的機器狗,看到美女的照片,前肢會左右畫一個半邊的心型,組成一個心,對美女表示喜歡之意。
照片來源:臺灣資安大會提供

VicOne Lab R7測試的機器狗,在美女照片上放上內含攻擊指令的傳單,機器狗掃描到傳單內容後,原本看到美女「比心」的動作,就會重新推論為「出拳」。
照片來源:臺灣資安大會提供

更清楚看見,攻擊者如何將內含攻擊指令的傳單內容,如何放置在美女照片上,讓機構口接收掃描到相關的攻擊訊息。
照片來源:黃彥棻攝
從提示詞注入到AI指令劫持,機器人如何被環境文字操控?
要理解這張傳單為何如此危險,我們必須先理解AI機器人的決策架構。鄭奕立解釋,AI機器人的決策由三個環節組成:感知(看到什麼)、理解(判斷其意義)與行動(執行什麼)。
其中,VLA模型的工作,是將視覺輸入轉換為語義判斷,再由語義判斷驅動動作輸出。在這條決策鏈中,負責「理解」的那一層,本質上就是大型語言模型(LLM)或視覺語言模型(VLM)的運算結果。
語言模型的本質是高度服從語言指令,這讓它既強大,也相對脆弱。當環境出現帶有命令語意的文字時,模型可能將其解讀為有效指令,即使那段文字只是傳單上的視覺資訊,甚至是機器人的主人從未下達過的相關命令。
這正是資安界所稱的提示詞注入攻擊(Prompt Injection)在物理世界中的延伸形式,針對AI機器人的版本,則有個更具體的名稱:AI指令劫持(Command Hijacking against embodied AI,CHAI)。
攻擊者若要完成這類攻擊,作法其實並不複雜。第一步是研究目標機器人採用的AI模型。由於機器人產業大量採用開源模型,其架構與訓練方式往往都是公開資訊。
第二步則是利用AI尋找AI的盲區,自動化測試各種圖片與語句組合,並根據模型輸出結果持續調整,直到找到能夠觸發異常判定的輸入組合。
第三步則是將這些盲區製作成現實世界的攻擊載體,例如海報、廣告文字或貼紙等,使機器人在毫無察覺的情況下,執行攻擊者預先設計的行為。
鄭奕立表示,相較於純粹的數位資安威脅,機器人的AI指令劫持更難防範,因為人們無法控制機器人視野範圍內的所有環境輸入。
例如,未來家中的機器人看到報紙廣告上的一段文字,人類看來或許毫無異狀,對機器人而言卻可能是一道攻擊指令;當這種情況發生時,家中成員便可能在毫不知情的情況下陷入危險。
從硬體到模型,機器人面臨的五大資安攻擊面
AI模型被操縱,只是機器人資安風險中的一層。鄭奕立以過去18個月的真實資安事件為基礎,拆解出機器人面臨的五大風險來源。
首先,物理實體層面是最直接的入口,而機器人本體上的各種實體埠口、電子元件,只要能接觸到,就可能成為滲透起點。
過去18個月已出現有文獻記載的中國機器人後門事件,而目前AI機器人最廣泛採用的運算平臺Nvidia Jetson,也出現兩個重大等級的CVE漏洞,分別涉及開機流程的權限提升,以及隨行運算模組的安全問題。
其次,感測器層面的風險,這是源自機器人用來感知世界的各類傳感設備,包括:攝影機、麥克風、雷達、GPS,每一個感測介面都是潛在的欺騙目標,容易受到惡意干擾或欺騙,進而讓機器人對環境產生錯誤感知。
這個層面的威脅在航空領域已造成可見影響,像是GNSS訊號干擾使荷蘭航空班機導航出現異常,GPS欺騙(GPS spoofing)攻擊波及印度多個機場超過800個航班,駕駛艙GNSS訊號混淆事件也被CNN報導。
鄭奕立表示,值得警惕的是,感測器層面的攻擊事件目前幾乎沒有對應的CVE漏洞記錄,這意味著業界對於此類風險的系統性防護,幾乎還是空白。
第三,AI模型層面,也就是Demo展示的那一層,是目前最新興、也最難防範的攻擊維度。攻擊者可針對模型弱點下手,干擾甚至操縱機器人的決策;在機器人AI的決策架構中,任何能影響模型語義理解的輸入,都是潛在攻擊面。
過去18個月以來,AI指令劫持(CHAI)相關的攻擊研究已出現多個里程碑。在2025年7月,由康乃爾大學(Cornell University)維護的免費學術論文預印本平臺arXiv,上面就有人發布系統性的Prompt Injection 2.0研究框架;同年9月,AI指令劫持(CHAI)攻擊模型正式被提出;2026年2月,更具針對性的CHAI v2誤導文字攻擊方法被揭露。鄭奕立指出,模型層面同樣缺乏CVE追蹤體系,防護的建立幾乎需要從零開始。
第四,軟體與雲端應用層面是漏洞記錄最密集的層面,像是機器人的作業系統、驅動程式、應用軟體與中介軟體,都是攻擊者熟悉的目標,若這些軟體組件存在已知漏洞或後門,攻擊者可取得未經授權的控制權。
廣泛應用於機器人通訊的DDS中介軟體,在2025年11月單次被揭露13個CVE漏洞;ROS 2機器人作業系統的供應鏈攻擊概念驗證也在同月被公開;Unitree(中國宇樹科技)機器人被發現將資料回傳境外伺服器,並在2026年2月揭露多個遠端程式執行漏洞;中國Ecovacs(科沃斯)家用機器人系列同樣出現OTA(Over-the-Air)更新機制的漏洞,讓攻擊者得以在更新流程植入惡意程式。
最後,鄭奕立表示,無線通訊層面是過去18個月CVE記錄最多的層面,累計達8個已登錄漏洞。這包括機器人對外連線的所有無線介面——藍牙、WiFi與遙控通訊協定——都可能成為攻擊途徑,從攔截未加密連線,到利用未妥善配對與金鑰管理的近距離無線通訊等。
在2025年下半年,資安研究人員已公開揭露UniPwn嚴重資安漏洞,透過低功耗藍牙(BLE)漏洞取得宇樹科技(Unitree)機器人的root權限,影響範圍包括四足機器人(如Go2、B2)及人形機器人(如G1、H1)。
另外,廣泛應用於無人機(UAV)與地面控制站之間進行通訊的輕量級協議MAVLink,出現高危險CVE漏洞;開源飛控系統PX4也被發現,存在無需身分認證(no-auth)即可連接的漏洞,可讓任何處於通訊範圍內的攻擊者都能直接取得控制權。
這五個層面疊加起來,構成一個從感測器到電路板、從模型到雲端幾乎無處不暴露的攻擊曲面。鄭奕立說:「機器人不像電腦,電腦被攻擊,你可以執行還原(Restore);機器人被攻擊,它的手可能已經傷到人了。」
從汽車到機器人,VicOne的底氣從何而來?
VicOne於2022年從趨勢科技分拆獨立,初創之時切入臺灣ICT產業相對陌生的市場:車用資安。當汽車走向軟體定義車輛(Software-Defined Vehicle,SDV)與連網汽車的過程中,車上的電子控制單元、車載網路、OTA更新系統到雲端連接,每一個環節都是潛在攻擊面,且軟硬體深度整合的特性讓純軟體資安廠商難以切入。
鄭奕立指出,VicOne在這個領域建立旁人難以複製的技術縱深,包括全球前20大乘用車品牌中,有7個採用VicOne的解決方案;三年累計發現174個汽車零時差漏洞,使用Anthropic前沿AI技術挖掘漏洞,讓VicOne成為這個垂直領域的全球研究領導者。
鄭奕立表示,VicOne從車用資安進入物理AI資安這個幾乎還沒有人系統性建立的領域,背後的底氣來自一個關鍵發現:車用資安與機器人資安,底層軟硬體架構高度重疊,大概有八成是一樣的。
例如汽車使用的CANBus通訊協定,同樣被應用於機器人控制系統;車用DDS中介軟體也被機器人採用;甚至高階車輛使用的TSN時間敏感網路,部分高階機器人也開始導入。「我們其實很幸運,用四年把軟硬體結合的技術弄得非常好,接下來做機器人,根本就是同一套邏輯。」他說。
正是基於這個判斷,VicOne成立了Lab R7。這個研究實驗室的工作方式,與一般資安研究機構的最大不同,在於它不只是分析已知漏洞,而是真實購入各類機器人,自行訓練模型,從攻擊者的角度去測試這些模型的邊界,再從防禦者的角度建立對應的保護機制。
VicOne Lab R7也展示基於Nvidia Isaac Sim的模擬測試環境,讓資安測試得以在虛擬空間中進行——研究人員可以選取不同品牌與形態的機器人模型,模擬各種攻擊情境,觀察AI模型在異常輸入下的反應,行為異常時即時標記。
鄭奕立表示,這個方法最大的價值在於成本結構的改變,因為一臺機器人要在外面實體做測試,成本非常高;但若可以在模擬環境做測試,就可以讓機器人出場的品質更好,而且是成本更低。
臺灣機器人服務要落地,必須同步先做好資安
對於臺灣的機器人產業而言,要讓機器人可以在產業領域落地提供服務,資安就是關鍵因素。
以帝濶智慧科技(DeCloak Intelligences)的四足自主巡邏機器狗為例,由於巡邏機器狗會在場域持續移動,鏡頭所及範圍內的人員都可能被拍攝,因此「去識別化」成為機器人AI極為重要的一環。
帝濶的核心技術是自主研發的「隱私強化AI」,其運算架構能在本地端完成影像辨識與決策,不需將原始影像上傳雲端,從源頭切斷資料外洩的可能。有了這個設計,讓帝濶的自主巡邏系統得以進入醫院、展覽館、校園與機場這類對隱私要求極高的場域,而不必在效能與合規之間做出妥協。
VicOne與帝濶的合作,是將資安防護與隱私保護整合成一套完整方案,確保自主巡邏系統在面對資安威脅時,敏感資料不會因攻擊、操控或系統弱點而外洩。
帝濶總經理鄒耀東表示,公共與敏感場域的客戶在導入自主巡邏系統時,隱私、合規與行為穩定性必須同步被驗證,而不是出事後才補救,與VicOne的合作正是帝濶對客戶的一項具體承諾,讓每一套部署上線的系統都是經過驗證、可預期、可信賴的。
長聯科技的醫療AI機器人「愛寶」則代表著另一種路徑。「愛寶」以生成式AI與大型語言模型為核心,能理解醫護語境、協助病患衛教諮詢、執行院內任務遞送,目前已實際部署於中部某醫學大學附屬長照中心,在走廊上行走、與病患互動。
VicOne與長聯科技的合作,聚焦協助愛寶符合歐盟網路韌性法案(Cyber Resilience Act,CRA)的法規要求,同時保護醫療AI機器人上的AI模型免受對抗性攻擊。
長聯科技商務營運總監蔡述先強調,醫療與長照場域需要高度穩定、可靠且合規的AI服務,透過與VicOne的合作,希望讓醫療AI機器人在實際場域中更安心地被部署與使用。
鄭奕立表示,VicOne和這兩個臺灣機器人業者合作,也證明資安不是機器人落地之後才需要補足的功能,而是從設計端(Security by Design)就必須一起考量的基礎建設。

長聯科技的醫療機器人愛寶,透過與VicOne的合作,主要是要符合歐盟網路韌性法(CRA)的規範。
照片來源:臺灣資安大會提供
機器人從一個口令一個動作,變成能跨場景做任務
鄭奕立表示,過去12個月以來,機器人AI模型發展速度飛快,同時帶動機器人資安威脅的緊迫性。
2025年4月,Physical Intelligence的機器人AI模型π0.5,讓機器人從以往換個地方就不會做事的情況,首次不必事先看過環境,也能理解並完成任務,這也是通用型機器人(General Purpose Robotics)的重要里程碑。
同年6月,Meta FAIR的V-JEPA 2以超過百萬小時的網路影片訓練出潛在世界模型(World Model),讓機器人從過去「看見才反應」,進步到「看見後能預測」,不僅動作更加流暢,也讓機器手臂在跨實驗室環境中,面對完全未訓練過的零樣本(Zero-Shot)任務時,仍可達到八成的取放成功率,代表機器人已具備一定程度的舉一反三能力。
同年7月,Skild AI的Skild Brain,讓單一模型能同時驅動四足機器人、人形機器人、機械手臂與自走車底盤,改善以往每種機器人都要獨立開發各自模型的情境。
進入2026年,Google DeepMind的Gemini ER 1.6搭載空間推理能力(Spatial Reasoning),會知道哪裡可以走、哪裡有障礙及如何繞路等。Boston Dynamics的Spot機器狗搭載Gemini ER 1.6,被用於石化廠、電廠等工廠巡檢,負責讀取各種壓力表、溫度表和液位計等,而其儀表讀數準確率高達98%,表示機器狗已能接近人類巡檢員能力。
而Physical Intelligence的π0.7,則實現了組合式泛化(Compositional Generalization)——機器人能自行混合既有技能,完成從未見過的新任務,這是最重要的突破。
過去一年的機器人AI模型的發展,從以往「只能執行預先編寫流程的自動化設備」,逐步演進為:具備世界理解、空間推理、技能遷移與自主學習能力的通用實體AI(Physical AI);透過這些「機器人基礎模型(Robot Foundation Model)」,讓機器人真正具備跨場景、跨任務、跨機體的通用智能。
四大基礎設施生態系成形,誰將主導機器人時代?
由於大多數機器人業者不會從零開始建構所有技術能力,而是直接採用NVIDIA的Jetson與Isaac平臺、Google的機器人AI模型、Qualcomm的邊緣AI處理器,以及Hugging Face的開源模型與資料集等既有生態系資源,藉此加速產品開發與商業化進程。
而這些支撐新一代機器人發展的產業生態系與基礎設施的業者,被稱為:Robot Infrastructure Providers(機器人基礎設施供應商)。這些進展的背後,是四大生態系的基礎設施支撐。
Nvidia透過機器人開發平臺Isaac,讓開發者能先在虛擬環境中訓練機器人,然後部署至實體設備;再搭配專為AI運算、機器視覺與自主導航設計的Jetson模組,打造出全球最成熟的機器人開發平臺之一,幾乎所有機器人新創都能直接採用,中國更有約五成機器人使用其技術。
AI大腦Gemini Robotics,建立在Google DeepMind的Gemini模型之上,其多模態模型,不只可以理解文字,還能理解:圖像、聲音、空間和動作,已與Boston Dynamics的機器狗Spot整合,目標就是做到:讓任何機器人都能共用同一套智能核心。
相較於Nvidia偏向高性能、高功耗和高價格,Qualcomm以邊緣AI晶片主打中階市場,強調低功耗、低成本和大規模部署,因為未來很多服務型機器人,並不需要超級強大的AI,更重視電池續航和成本控制。
Hugging Face則代表開源機器人生態系,藉由提供開源模型、資料集與機器人開發框架,協助研究機構、新創團隊乃至個人開發者快速建構機器人系統,讓具備複雜任務能力的機器人不再是大型企業的專利,進一步降低機器人開發的技術與資源門檻。
以現在的機器人產業競爭來看,已經不只是比誰能造出一臺機器人,而是在比誰能建立最完整的「AI模型+晶片+開發工具+開源社群」生態系。鄭奕立認為,未來能主導機器人市場的企業,很有可能不是製造機器人的公司,而是掌握底層平臺與生態系的基礎設施供應商。
當2022、2023年ChatGPT 3.5推出時,大家突然發現AI技術真的可以做到、可以大量普及。鄭奕立說:「而現在機器人發展已經到了一個類似的節點——模型成長已經到了快要起飛的時候。」
技術快速演進的結果,是機器人部署速度持續加快;而部署速度愈快,也意味著每一個尚未解決的資安問題,都將更快速地進入真實場域,走向真實的人群。
Comments (0)