MITチームは、トップ会議NeurIPS 2025で発表されたVideoCAD研究で、41,000以上のビデオデータを使用して、現在のトップ大規模モデルが専門エンジニアリングソフトウェアを扱う無力さを証明し、ビデオから複雑な3Dインタラクションを学習する解決策を提案した。
現在のAIは2D画面上でチャット、描画、さらにはコード執筆に優れているが、精密操作と3D空間論理を必要とする産業ソフトウェアに直面すると、即座に無知になる。
コンピュータ支援設計(CAD)ソフトウェアは現代産業の基盤で、携帯電話ケースから航空エンジンまでの設計に欠かせない。
この種のソフトウェアの操作ロジックは、慣れたウェブクリックやモバイルスワイプとは全く異なり、ユーザーは頭の中で3Dモデルを構築し、数百万のメニュー、ショートカット、マウス動作で2D画面に実現する必要がある。
この長視野(Long-Horizon)、高精度のインタラクション過程は、現在のAIエージェントが越えがたい溝である。
VideoCADはこの空白を埋める。
研究チームはAIに退屈なソフトウェアマニュアルを読ませるのではなく、リバースエンジニアリングにより、機械が人間のエンジニアのようにOnshapeなどの専門CADプラットフォームを操作する方法を観察・学習させることを選択した。
精密工学ソフトウェアのインタラクションバリア
VideoCADの価値を理解するには、それが攻略しようとする要塞の堅牢さをまず見てみよう。
一般的なインターネットアプリ、出前注文や動画視聴など、UIインタラクションは短いパスで、各操作が明確な結果に直結し、耐故障性が高い。ボタンを間違えても戻って再選択可能。
産業級CADソフトウェアは全く違う。
SolidWorks、Autodesk Inventor、PTC Onshapeなどのプラットフォームは数百から数千のツールバーオプションを持つ。
立方体に穴を開ける単純操作でも、正しい平面選択、スケッチ描画、円心座標定義、直径制約設定、スケッチモード退出、押し出し切断ツール選択、深度パラメータ設定など一連のステップが必要。
この一連の動作は強い依存性を持ち、最初の平面選択ミスで以降の精密操作が無駄になる。
さらに厄介なのは、これらの操作がWebGLまたはOpenGLベースのキャンバス上で行われること。
AIにとってウェブボタンはDOMコードで読めるテキストラベルだが、CADキャンバスはピクセル群。
ここで操作するには、AIは人間の目のように視覚でモデルエッジや円心を判断し、正確な(x, y)ピクセル座標を出力せねばならない。
既存AI訓練データセットはAndroid操作やシンプルウェブ閲覧中心で、深い3D空間理解とピクセル級精密制御領域に触れていない。
VideoCADはブラウザベースのクラウドCADプラットフォームOnshapeを選択し、標準環境でこの難題を攻略。
AIにCADを使わせる最直接法は数千エンジニアの作業ビデオ録画—コスト・時間的に非現実。
MIT研究チームは巧妙なリバース生成戦略を採用し、データ生産の自動化工場を構築。
データ源はDeepCAD:人間デザイナ作成の178,000パラメトリックCADモデルデータセット。
これらは最終3D形状だけでなく完全な構築履歴(Construction Sequence)を含む。
研究者は最も挑戦的なマルチエクストルージョンシーケンスに焦点、多重スケッチ・エクストルージョンで複雑構造、産業設計論理を体現。
設計図あり、次は機械演技。
チームはハイブリッド自動化フレームワーク開発。
メニュークリック・ダイアログ入力などの標準UIはSeleniumでブラウザDOM直接制御;キャンバススケッチはPyAutoGUIでピクセル級マウスシミュ。
Onshapeに公開描画APIなしのため、ミリ秒・ピクセル精密必須。
生成データを冷たい機械指令以上にするため、自動スクリプトに人間性を注入。
本物のエンジニアは躊躇・再確認。
よってデータ生成に0.2〜0.5秒ランダム遅延追加。
スケッチ平面選択時、常に中心ではなく表面点ランダムサンプリング。
微小特徴選択難時、スクリプトがズーム実行、人間視野拡大シミュ。
このシステム64クラウドVMで24/7稼働、60fps全解像度ビデオ録画。
1週間で118日超ビデオ素材生成。
次に厳格品質管理。
各生成ビデオ最終CADモデルを等軸測ビューにレンダ、DeepCAD原レンダとDINOv2視覚大モデルで比較。
CLIPは意味匹配優(椅子認識)だが幾何細部比較劣。
自己監督DINOv2が形状微差を鋭く捕捉。
DINOv2特徴空間コサイン類似度>0.7のみデータ保持。
最終41,005高品質サンプル抽出、各にビデオ・精密アライメント動作列・目標画像。
データ規模・複雑度の次元打撃
VideoCAD公開で既存UIインタデータセットが幼稚に見える。
データ規模・タスク複雑度がデータセット価値の2核心。
VideoCAD前最大WebLinx平均43動作/タスク;VideoCAD平均186動作、4倍超。
AIが長スパンで記憶・論理一貫保持必要。
深層差はタスク性質。
既存(Mind2Web等)は情報検索・フォーム記入、AIはテキスト/ボタン認識のみ。
VideoCADは3D推論要求の稀有データセット。
AIはDOMパーサー詐称不可、画面幾何真正理解必須。
Onshape UI平均6,740要素、通常ウェブ6倍。
高密度情報+ピクセル座標強要で、強視覚知覚・決定力必須。
動作分布統計がCAD実態露呈。
マウス移動/クリック/キーボード多、描画微調整反映。
次クリックタスクと異なり、CADモデリングは2D/3D思考常時スイッチ。
この複雑性でVideoCADが真の汎用PC操作能力の試金石。
データあり、AIに操作習得如何?
汎用ビデオ理解モデル直適用不理想、CAD因果依存無視。
MITチームVideoCADFormer設計:Transformerベース自己回帰モデル、長視野CAD動作予測専用。
設計哲学:視覚知覚と動作予測を密接分離深融合。
各タイムステップ、2視覚信号受信:現在UIスクショ・最終目標CAD画像。
前者「今どこ」、後者「どこ行く」。
ViT符号化で局所進捗+全球目標双脈絡。
動作列処理時、歴史動作を単テキスト非、コマンド型+パラ構造ベクトル符号。例:円描画はコマンド+(x,y)中心+半径。
デュアルマスクTransformerデコーダ採用。
因果マスクで訓練時未来覗禁止、ウィンドウマスクで最近操作史集中。
UI特性適合:現在クリックは直近秒依存、不要分前全詳細回顧。
出力2独立ヘッド:コマンド型・パラ値予測。
連続画面座標を1,000クラス離散分類予測。穴埋め式複雑指令逐次出力。
実験で専用アーキ有効証明。
VPT等BCベースライン比圧倒優位。
コマンド予測精度98.08%、パラ82.35%。
印象的:200ステップ超長列で完璧予測率85.46%維持;ベース誤差蓄積崩壊。
幾何精度検証:ピクセル比非、Onshape実実行生成モデル、目標Chamfer Distance算出。
生成モデルが人間原版空間構造高一致、真3D形状構築理解証明。
トップ大規模モデルの集団失敗現場
VideoCADは新モデル訓練教材兼既存大モデル妖鏡。
チームVideoCADQA視覚QAベンチマーク構築、GPT-4/Claude 3.7/Gemini 2.5等トップマルチモーダル3D推論テスト。結果衝撃。
押し出し深度比較:ビデオ視聴、2回目押し出しが1回目より深いか判断。人間エンジニア一目。GPT-4.1:18%正解。相対深度/幾何関係幻覚露呈。
押し出しカウント:最終物体何回押し出し構成か。GPT-4.1:47%。フレーム順序(時序):Claude 3.7:23%。
更進:LLMをBrowserGym経由OnshapeモデリングタスクUIエージェント。
全滅。
全LLM、テキスト生成驚異でもCAD完全タスク不可。
主問題:意味指令(円描画)を正確画面座標変換不能。
スケッチボタン知るが隣空白ヒット、またはピクセル専用キャンバスにコードセレクタ試。
汎用大モデル具身知能/デジタルインタラクションでプロ級遥か。
VideoCADがAI発展ボトルネック露呈:机上論から実操落地へ。
AI美画像生成可も生産工図不可;美コード可も複雑開発環境難。
VideoCADFormer示唆:人間操作ビデオ観察で複雑ソフト論理・空間因果学習可。
成熟時AI非チャットボット、エンジニア副操縦士へ。
設計意図観察、面倒ステップ自動補完;半設計時最終形状予測+操作提案。
コンピュータ視覚・強化学習・人機インタラクション境界突破。
VideoCADFormer未完(合成データ依存等限界)も方向示:AI学習で産業ツール習得可。
参考資料:
https://ghadinehme.github.io/videocad.github.io/
https://github.com/ghadinehme/VideoCAD
https://arxiv.org/abs/2505.24838
https://news.mit.edu/2025/new-ai-agent-learns-use-cad-create-3d-objects-sketches-1119