大模型也能搞定螺絲釘？！MIT頂會論文讓AI學會工業CAD軟體操作

麻省理工學院 (MIT) 團隊在頂會 NeurIPS 2025 發布的 VideoCAD 研究，用超過 41,000 個影片資料證明，目前頂尖大模型在處理專業工程軟體時的無能，並提出從影片中學習複雜三維互動的解決方案。

目前的人工智慧擅長在二維螢幕上聊天、畫圖甚至寫程式碼，當面對需要精密操作和三維空間邏輯的工業軟體時，它們瞬間變成文盲。

電腦輔助設計 (CAD) 軟體是現代工業的基石，從手機殼到航空引擎的設計都離不開它。

這類軟體的操作邏輯與我們習慣的網頁點擊或手機滑動截然不同，它要求使用者在腦中建構三維模型，並透過數百個選單、快捷鍵和滑鼠動作將其實現在二維螢幕上。

這種長視野 (Long-Horizon)、高精度的互動過程，是目前 AI 智能體難以逾越的鴻溝。

VideoCAD 填補了這一空白。

研究團隊沒有選擇讓 AI 去閱讀枯燥的軟體手冊，而是透過逆向工程，讓機器觀看並學習如何像人類工程師一樣操作 Onshape 這類專業 CAD 平臺。

精密工程軟體的互動壁壘

要理解 VideoCAD 的價值，得先看清它試圖攻克的堡壘有多堅固。

普通的網際網路應用，無論是叫外送還是刷影片，其 UI 互動通常是短路徑的，使用者的每一步操作往往直接對應一個明確的結果，且容錯率極高。點錯一個按鈕，退回去重選即可。

工業級 CAD 軟體則完全不同。

SolidWorks、Autodesk Inventor 或 PTC Onshape 等平臺，擁有成百上千個工具列選項。

一個簡單的在立方體上打孔的操作，涉及選擇正確的平面、繪製草圖、定義圓心座標、設定直徑約束、退出草圖模式、選擇拉伸切除工具、設定深度參數等一系列步驟。

這一連串動作具有極強的依賴性，第一步選錯了平面，後面所有的精細操作都是白費力氣。

更棘手的，是這些操作發生在一個基於 WebGL 或 OpenGL 的畫布上。

對於 AI 來說，網頁上的按鈕是透過文件物件模型 (DOM) 程式碼讀取的文字標籤，但 CAD 畫布只是一堆像素。

要在這裡進行操作，AI 必須像人眼一樣，透過視覺判斷哪裡是模型的邊緣、哪裡是圓心，並輸出精確的 (x, y) 像素座標。

現有的 AI 訓練資料集，大多集中在安卓手機操作或簡單的網頁瀏覽，根本沒有觸及這種需要深度三維空間理解和像素級精準操控的領域。

VideoCAD 選擇了 Onshape 這個基於瀏覽器的雲端 CAD 平臺作為切入點，正是為了在標準化的環境中攻克這一難題。

為了教會 AI 使用 CAD，最直接的方法是找幾千個工程師，錄下他們工作的影片。這在成本和時間上都是不現實的。

麻省理工學院的研究團隊採用了一種極其巧妙的逆向生成策略，建構了一個自動化工廠來生產資料。

資料的源頭是 DeepCAD，這是一個包含 178,000 個由人類設計師建立的參數化 CAD 模型的資料集。

這些模型本身不僅是最終的三維形狀，還包含了完整的建構歷史 (Construction Sequence)。

研究者關注的是其中最具挑戰性的多重拉伸 (Multi-extrusion) 序列，這類模型涉及多次草圖繪製和實體拉伸，結構複雜，更能體現工業設計的邏輯。

有了設計圖紙，下一步是讓機器表演出來。

研究團隊開發了一套混合自動化框架。

對於選單點擊、對話框輸入等標準 UI 操作，系統使用 Selenium 技術，直接操控瀏覽器的 DOM 元素；對於畫布上的草圖繪製，則使用 PyAutoGUI 進行像素級的滑鼠模擬。

由於 Onshape 並沒有提供公開的繪圖 API，這種模擬必須精確到毫秒和像素。

為了讓生成的資料不僅僅是冷冰冰的機器指令，研究者在自動化腳本中注入了人類靈魂。

真實的工程師在操作時會有猶豫，會有反覆確認。

因此，資料生成過程中加入了隨機延遲，在 0.2 到 0.5 秒之間浮動。

在選擇草圖平面時，腳本不會機械地永遠點中心，而是隨機取樣表面上的點。

當遇到難以選中的微小特徵時，自動化腳本甚至會執行縮放操作，模擬人類放大視圖以進行精確輸入的行為。

這套系統在 64 個雲端虛擬機器上日夜不停地運行，以 60 幀/秒的規格錄製全解析度影片。

經過一週的運轉，生成了超過 118 天長度的影片素材。

隨後，系統對這些影片進行了嚴苛的品質控制。

每一条生成的影片對應的最終 CAD 模型，都會被渲染成等軸測視圖，並與原始 DeepCAD 模型的渲染圖進行比對。

比對過程使用了 DINOv2 視覺大模型。

實驗發現，常用的 CLIP 模型雖然擅長語義匹配（比如認出這是一張椅子），但在幾何結構的精細比對上表現不佳。

而自監督訓練的 DINOv2 能敏銳地捕捉到形狀的細微差異。

只有當兩者在 DINOv2 特徵空間中的餘弦相似度超過 0.7 時，這條資料才會被保留。

最終，VideoCAD 提煉出了 41,005 個高品質的樣本，每個樣本都包含了影片、精確對齊的動作序列以及最終的目標影像。

資料規模與複雜度的降維打擊

VideoCAD 的發布，讓現有的 UI 互動資料集顯得有些小兒科。

資料規模和任務複雜度是衡量資料集價值的兩個核心維度。

在 VideoCAD 之前，最大的相關資料集 WebLinx 平均每個任務只有 43 個動作，而 VideoCAD 的平均任務長度達到了 186 個動作，是其 4 倍以上。

這意味著 AI 需要在更長的時間跨度內保持記憶和邏輯的一致性。

更深層的差異在於任務的性質。

大多數現有資料集（如 Mind2Web）的任務是資訊檢索或表單填寫，AI 只需要辨識文字和按鈕。

VideoCAD 是目前極少數要求 AI 進行三維推理的資料集。

AI 不能僅僅依賴 DOM 解析器來作弊，它必須真正看懂螢幕上的幾何圖形。

Onshape 介面平均包含 6,740 個 UI 元素，是普通網頁的 6 倍。

這種高密度的資訊環境，加上對像素級座標操作的硬性要求，迫使模型必須具備極強的視覺感知和決策能力。

動作分佈的統計圖表揭示了 CAD 工作的真實面貌。

大量的操作集中在滑鼠移動、點擊和鍵盤輸入上，這反映了設計師在繪圖時的精細調整過程。

與那些只需要點擊下一步的任務不同，CAD 建模是一個不斷在二維平面和三維空間之間切換思維的過程。

這種複雜性使得 VideoCAD 成為了檢驗 AI 是否具備真正通用電腦操作能力的試金石。

有了資料，如何讓 AI 學會這些操作？

直接套用通用的影片理解模型效果並不理想，因為它們往往忽略了 CAD 操作中極強的因果依賴性。

麻省理工學院團隊為此設計了 VideoCADFormer，這是一個基於 Transformer 架構的自回歸模型，專門用於預測長視野的 CAD 動作。

VideoCADFormer 的設計哲學是將視覺感知與動作預測緊密解耦又深度融合。

在每一個時間步，模型會接收兩路視覺訊號：目前的 UI 介面截圖和最終的目標 CAD 影像。

前者告訴模型我現在在哪裡，後者告訴模型我要去哪裡。

這兩路訊號透過 Vision Transformer (ViT) 編碼後，提供了局部進度和全球目標的雙重脈絡。

在處理動作序列時，模型並沒有簡單地將歷史動作視為一串文字，而是將其編碼為包含命令類型和具體參數的結構化向量。例如，一個畫圓的動作不僅包含命令本身，還包含圓心的 (x, y) 座標和半徑參數。

VideoCADFormer 採用了一種雙遮罩機制的 Transformer 解碼器。

因果遮罩保證了模型在訓練時不會偷看未來的動作，而視窗遮罩則強制模型將注意力集中在最近的操作歷史上。

這種設計非常符合 UI 互動的特徵：使用者目前的點擊往往緊密依賴於前幾秒的操作，而不需要時刻回顧幾分鐘前的所有細節。

模型的輸出端被設計為兩個獨立的頭，分別負責預測命令類型和具體的參數值。

為了處理連續的螢幕座標，模型將參數離散化為 1,000 個類別進行分類預測。這種設計使得模型能夠像填空一樣，逐步輸出複雜的操作指令。

實驗結果證明了這種專用架構的有效性。

在與 Video Pre-training (VPT) 等行為克隆基線的對比中，VideoCADFormer 取得了壓倒性的優勢。

其命令預測準確率高達 98.08%，參數準確率達到 82.35%。

最令人印象深刻的是，在長度超過 200 步的長序列任務中，VideoCADFormer 依然保持了 85.46% 的完美預測率，而基線模型在這種長距離任務中往往會因為誤差累積而徹底崩潰。

為了驗證模型生成的 CAD 模型在幾何上是否準確，研究者不僅比較像素，還將生成的模型在 Onshape 中實際運行出來，並計算其與目標模型的倒角距離 (Chamfer Distance)。

VideoCADFormer 生成的模型在空間結構上與人類設計的原版高度一致，證明它不僅僅是記住了操作步驟，而是真正理解了如何建構三維形狀。

頂尖大模型的集體翻車現場

VideoCAD 不僅是訓練新模型的教材，也是現有大模型的照妖鏡。

研究團隊建構了一個名為 VideoCADQA 的視覺問答基準，專門用來測試 GPT-4、Claude 3.7、Gemini 2.5 等頂尖多模態大模型在三維空間推理上的能力。測試結果令人大跌眼鏡。

在拉伸深度比較這一任務中，模型需要觀看影片，判斷第二次拉伸操作是否比第一次更深。

這是一個典型的人類工程師一眼就能看出的問題。然而，GPT-4.1 的準確率僅為 18%。這暴露了大模型在理解相對深度和幾何空間關係時的嚴重幻覺。

在拉伸計數任務中，模型需要回答最終物體是由多少次拉伸操作構成的。GPT-4.1 的準確率不到一半，僅為 47%。而在涉及到影片時序理解的幀排序任務中，以長文字和程式碼能力著稱的 Claude 3.7 準確率更是低至 23%。

更進一步的測試是讓這些大模型直接充當 UI 智能體，透過 BrowserGym 介面在 Onshape 中嘗試完成建模任務。

結果是全軍覆沒。

所有的 LLM，無論其在文字生成上多么驚豔，都無法完成任何一個完整的 CAD 建構任務。

它們的主要問題在於無法將語義指令（畫一個圓）轉化為精確的螢幕座標。

它們知道要點擊草圖按鈕，但往往點到了旁邊的空白處，或者試圖用程式碼選擇器去點擊一個只能透過像素互動的畫布元素。

這表明，目前的通用大模型在具身智能和數位互動方面，距離專業級應用還有巨大的鴻溝。

VideoCAD 揭示了目前 AI 發展的一個重要瓶頸：從紙上談兵到實操落地的跨越。

現在的 AI 可以生成精美的圖片，卻畫不出可供生產的工程圖；可以寫出漂亮的程式碼，卻難以操作複雜的開發環境。

VideoCADFormer 展示了一種可能性，即透過觀察人類的操作影片，AI 可以學習到複雜軟體背後的操作邏輯和空間因果關係。

這種能力一旦成熟，未來的 AI 將不再僅僅是聊天機器人，而是能夠真正協助工程師的副駕駛。

它可以觀察你的設計意圖，自動補全繁瑣的建模步驟；或者在你設計出一半時，預測出你想要的最終形狀並提供操作建議。

這項研究打通了電腦視覺、強化學習和人機互動的界限。

VideoCADFormer 模型還不夠完美，存在對合成資料依賴等侷限，但它指明了方向：AI 也是可以透過學習，掌握工業級工具使用的。

參考資料：

https://ghadinehme.github.io/videocad.github.io/

https://github.com/ghadinehme/VideoCAD

https://arxiv.org/abs/2505.24838

https://news.mit.edu/2025/new-ai-agent-learns-use-cad-create-3d-objects-sketches-1119

大模型也能搞定螺絲釘？！MIT頂會論文讓AI學會工業CAD軟體操作

分享短網址