👉目次

1 RAG：大規模モデルの触手

2 Agent：大規模モデルの統合体

3 マルチモーダル技術の応用

4 大規模モデルの将来の発展トレンド

大規模モデルは産業変革の核心エンジンとして、RAG、Agent、マルチモーダル技術を通じてAIと現実のインタラクションの境界を再構築しています。これら3つの技術の協調的な進化は、データ鮮度や専門分野への適応といった主要な課題を克服するだけでなく、業界を効率の革新からビジネスの再構築へと推進しています。本稿では、技術進化の軌跡、実戦経験、そして未来の展望を分析し、読者に最先端のトレンドの全体像と産業アップグレードの実践的な指針を提供します。

Tencent Cloud開発者をフォローして、最新の技術情報をいち早く入手しましょう👇

大規模モデル技術は、産業の核心的なシナリオへの浸透を加速させ、デジタル変革を推進するインテリジェントなエンジンとなっています。グローバル機械学習会議（ML-Summit）では、大規模モデル技術の革新的なブレークスルーと産業実践に焦点を当て、その最先端の方向性と導入経路を深く掘り下げています。AI発展の核心的な推進力として、検索拡張生成（RAG）は動的知識融合技術を通じて大規模モデルの静的知識の境界を突破します。エージェント（Agent）は自律的な意思決定と多任務協調能力によって人間と機械の協力パラダイムを再構築します。マルチモーダル大規模モデルは、クロスモーダル意味理解技術によって複雑なシナリオでの導入の可能性を解き放ちます。これら3つの協調的な進化は、データ鮮度、プライバシーとセキュリティ、専門分野への適応といった主要な課題を克服するだけでなく、医療診断、金融リスク管理、スマート製造などの分野で、効率の革新からビジネスの再構築へと産業レベルの変革をもたらしています。

ML-Summit会議大規模モデルコンテンツ分布

RAG：大規模モデルの動的知識エンジンであり、モデルの静的知識境界、鮮度、信頼性の問題を解決します。

Agent：大規模モデルのインテリジェントな実行ハブであり、モデルに自律的な計画、意思決定、ツール呼び出し能力を付与します。

マルチモーダル：大規模モデルの知覚アップグレード基盤であり、単一モーダルの理解の制限を打ち破り、現実世界のホログラフィック認識を実現します。

知識強化（RAG）→ 行動知能（Agent）→ 知覚アップグレード（マルチモーダル）→ 完全なインテリジェントエージェント

01

RAG：大規模モデルの触手

RAG（Retrieval-Augmented Generation、検索拡張生成）は、情報検索と生成モデルを組み合わせた技術です。その核心的な考え方は、回答を生成する前に、まず外部知識ベース（ドキュメント、データベース、インターネットなど）から関連する証拠を検索し、その検索結果とユーザー入力に基づいて、より正確で信頼性の高い回答を生成するというものです。下図は、最もシンプルなRAGの概念図です。

（注：画像はネットワークから）

形態上、LLMは回答生成のための脳の役割を果たし、検索は証拠収集のための触手の役割を果たします。RAGは、触手（外部知識ベース）を持つ大規模モデルシステムです。

1.1 なぜRAGが必要なのか

大規模モデルは多くの分野で優れた性能を発揮していますが、依然として限界があり、これらの限界がRAGを大規模モデルにとって重要な補完としています。

モデル能力：大規模モデルの訓練が完了すると、その能力は固定されます。例えば、ChatGPTに東方甄選の小論文の件を尋ねても、ChatGPTは知らないと答えます。理由は、GPT-4の訓練データは2023年10月までの情報しか収集していないためです。RAGはリアルタイム知識ベースを外部に追加することで、このような問題を効果的に改善できます。

ChatGPTの時限性

データプライバシー：大規模モデルではプライベートデータや閉域データをカバーすることは困難です。ローカルにRAGシステムを導入することで、このような問題も改善できます。

解析可能性：RAGの検索結果は事実に基づいた根拠を提供し、推測的な回答を減らします。同時に生成された回答は参照元ドキュメントを明示できるため、信頼性が向上します。

コスト最適化：長文コンテキストモデルは、全文入力を処理するのにコストがかかります。RAGは主要な断片を検索して入力長を圧縮するため、長文の処理においてRAGがより効率的になります。

LLMとRAGの違い

RAGは大規模モデルの限界を解決するだけでなく、より高い生成品質とコスト最適化をもたらし、異なる分野のニーズに応じて専門的な回答をカスタマイズして提供することができます。

1.2 RAGの課題

RAGには多くの利点がありますが、実際の応用では、特にRAGの構築プロセスにおいていくつかの課題に直面します。RAGの構築には、ドキュメントのデータ変換、データのチャンク分割、データのベクトル化、ベクターの保存という4つの主要なステップが含まれます。

1.2.1 テキストベクトル化の難しさ

ドキュメントは主にテキストで構成されていますが、画像、表、数式などの情報も含まれます。ドキュメントには何百万もの文字情報が存在し、大量のデータをどのようにチャンク分割するか（テキストの粒度とコンテキストの完全性のバランスを考慮する必要があるか）が課題です。適切なテキストの粒度（データチャンク分割）を選択することで、検索の精度と再現率のバランスを取ることができます。

RAG構築プロセスにおける課題

1.2.2 マルチモーダル文書の難しさ

マルチモーダル文書における画像、グラフなどの構造化されたマルチモーダルコンテンツの処理方法は、より複雑です。異なるモーダルのデータ（テキスト、画像、ビデオ）をどのように融合し、理解の正確性を高めるかが課題です。

複雑なマルチモーダル文書構造（注：画像はネットワークから）

現在、複雑な文書構造を処理するパイプラインは4つの段階から構成されています。文書解析器（OCR認識と座標、画像認識と座標、ツール解析器など）、文書構造化（データの索引順序の構築）、文書理解（データをシリアル化可能な構造に整理）です。全体として、文書解析パイプラインは長く、ステップが多く、内容の検証が困難です。

複雑な文書の一般的な解析パイプライン（注：画像はネットワークから）

1.2.2 制御可能な検索の難しさ

検索エラーはRAGアプリケーションでよくある問題です。例えば、ノイズデータ、データチャンク分割（コンテキストの誤処理）、特性ベクトル化プロセス（BGE能力不足）などがあります。再現率と精度は相反する関係にあります。したがって、RAGシステムには制御可能な処理が必要です。

RAG制御可能な処理の一つの考え方

1.3 RAGの発展

マルチモーダルデータ処理とベクトル化検索の技術的ボトルネックにより、RAGシステムの安定性はしばしば制約を受けます。したがって、マルチモーダル文書の統一処理パラダイムと次世代検索アーキテクチャの推進は、RAGの能力境界を突破するための2つの重要な経路となっています。

1.3.1 マルチモーダル文書処理

視覚質問応答（VAQ）タスクでは、マルチモーダル文書の解析には、テキストとレイアウト理解能力の統合が必要です。例えば、「2つのブランドの解像度パラメーターの差」を解析する際、モデルは画像内のテキストコンテンツを認識するだけでなく、テキスト間のレイアウトロジックやテーブル構造情報も解析する必要があります。回答の精度を高めるためには、モデルがテキストを処理する際にその元の構造的特徴を保持することが不可欠です。

マルチモーダルモデルによるテキスト抽出と視覚質問応答

マルチモーダル文書処理は、異なるモーダルのデータ（テキスト、画像、表）を同じセマンティック空間にマッピングするだけでなく、データの可用性と検索効率を向上させ、モデルの文書理解を促進します。

1.3.2 記憶駆動型RAG

RAGのもう一つの発展方向は、記憶駆動型RAGです。従来のベクトルベースRAGと比較して、記憶駆動型RAGはLLMのKVキャッシュを動的インデックスとして利用し、より高い柔軟性と適応性を持っています。図に示すように、Standard RAGとMemo RAGは原理と使用方法に明確な違いがあります。

ベクトルRAGとMemo RAGの違い

使用シナリオ：静的知識の高速検索（例：カスタマーサービス標準Q&A）が必要な場合は、ベクトルRAG（BGE（智源汎用埋め込みモデル）、Jina Embeddings（長文最適化））を優先的に選択します。動的なインタラクションと生涯学習（例：パーソナライズされた医療アシスタント）が必要な場合は、記憶駆動型RAG Memo RAG（智源研究院）：KVキャッシュ圧縮 + 動的記憶インデックスの探索を検討します。

02

Agent：大規模モデルの統合体

Agent技術は、大規模モデルの重要な統合体であり、タスクの自律的な実行、意思決定、環境との相互作用を実現できます。図に示すように、スポンジボブのイメージは、大規模モデルがどのようにして強力なエージェントへと段階的に進化するかを示しています。

（注：画像はネットワークから）

2.1 Agent概要

AIエージェントとは、AI技術を用いて設計・プログラムされたコンピュータプログラムであり、特定のタスクを自律的に実行し、環境に反応することができます。AIエージェントは、自己の環境を認識し、自ら意思決定を行い、環境を変化させるために行動できる知能体と見なすことができます。下図は、最もシンプルなAgentシステム図です。

Agentシステム図

AgentはLLM、計画、フィードバック、ツールを組み合わせることで、完全な知能システムを形成します。Agentは知覚層、意思決定層、実行層を含み、最終的には自律性、反応性、積極性、社会性を備えるようになります。

2.2 Agentの実践

多くのAgentオープンソースプロジェクトがあり、プロジェクトの実践を通じてAgentの理解を深めることができます。Agentの実践は、自律型エージェントと生成型エージェントの2種類に分けられます。

2.2.1 自律知能と生成知能

自律型エージェント：タスクを自律的に実行し、意思決定を行い、環境と相互作用する知能システム。生成型エージェント：生成モデルを利用して新しいデータやコンテンツを創造する知能システム。図に示すように、Auto-GPT（自律知能）は自問自答し、スタンフォードの小さな町仮想世界（生成知能）です。

自律知能と生成知能の違い：

単一エージェントとマルチエージェントの比較

2.2.2 Agentコアフレームワーク

成熟したAgentフレームワークは開発コストを削減でき、MetaGPTとAutoGenは現在最も人気のある2つのフレームワークです。MetaGPTは、GPTモデルに異なる役割を割り当てることで協調的なソフトウェア企業構造をシミュレートし、複雑なタスクを処理します。AutoGenはオープンソースフレームワークとして、マルチエージェント対話と強化されたLLM推論を通じて大規模言語モデルアプリケーションの開発に焦点を当てています。

MetaGPTとAutoGenの比較

MetaGPTとAutoGenにはそれぞれ特徴があり、MetaGPTはソフトウェア企業の「デジタルCTO」、AutoGenはカスタマイズAIの「レゴ工場」です。MetaGPTは、全面的な自動化と協調が必要なソフトウェア開発タスクに適しており、AutoGenは、柔軟なカスタマイズと対話が必要なLLMアプリケーション開発に適しています。

2.2.3 マルチエージェントシステム

現実世界のタスクは往々にして複雑すぎて、単一のエージェントでは対応しきれません。複数のエージェントが連携する必要があります。漫画の図が示すように、ある要求から最終的な製品納品に至るまで、まず計画、要件分析、フレームワーク設計、システムソリューション、コーディング実装、機能テスト、そして最後に製品納品があります。このような複雑なシステムには複数の人の協力が必要であり、マルチエージェントシステムは複雑なタスクを処理する上で顕著な利点を持っています。

単一エージェントとマルチエージェントでは、タスクの種類とコア技術の両面で明確な違いがあります。

単一エージェントとマルチエージェントの比較

1. タスク分解能力：分散されたサブタスクの分業と協調を通じて、マルチエージェントシステムはタスクを分解し、タスク処理の効率を向上させることができます。

2. 性能突破の境界：並列アーキテクチャと冗長性を持つフォールトトレラント設計を通じて、マルチエージェントシステムは計算効率とシステムロバスト性を大幅に向上させることができます。

3. 動的環境適応：リアルタイムのインタラクションネットワークを通じて、マルチエージェントシステムは動的環境に迅速に適応し、複雑な変化する環境により良く対応することができます。

2.3 Agentの応用

Agent技術は多くの分野で強力な応用価値を示していますが、いくつかの課題にも直面しています。

2.3.1 応用における課題

図に示すように、技術能力、システム設計、安全性、経済的利益など、さまざまな側面での課題が示されています。

上記の課題に対する対策案：

1. 複雑なタスク計画：階層的な方法で複雑なタスクを段階的に解決します。

2. 動的環境適応：メタ学習（Meta-Learning）＋世界モデルにより、Agentの動的環境における適応能力を向上させることができます。

3. マルチエージェント連携：ゲーム理論と連合学習を通じて、マルチエージェントシステムは効率的な連携を実現します。

4. 説明可能性の向上：因果推論モデル＋決定木蒸留により、Agentの説明可能性を高め、Agentの意思決定プロセスをより透明にします。

5. 価値観の整合：人間からのフィードバックに基づく強化学習（RLHF）により、Agentの価値観の整合問題を解決できます。

2.3.2 産業応用

Agent技術は多くの分野で強力な応用価値を示しています。

Agentの産業応用効果

Agentの実用化は常に現実世界の複雑さという課題に直面しています。工業製品検査における視覚的欠陥検出や、財務報告書におけるグラフ解析といったタスクを処理するためには、単一モーダルの限界を突破する必要があります。これこそが、マルチモーダル大規模モデルの技術的使命です。

03

マルチモーダル技術の応用

マルチモーダル大規模モデルの応用は非常に広範で、多くの業界と領域をカバーしています。本稿では、紫東太初（Zidong Taichu）のマルチモーダル事前学習、360チームのオープンワールド物体検出、テンセントチームのWeChat Channelsマルチモーダル審査の3つのチームの取り組みを紹介します。

3.1 紫東太初--マルチモーダルタスクの統一

物体検出、セグメンテーション、OCRなどの従来のCVタスクを画像とテキストの大規模モデルに統一することは、紫東太初プロジェクトの核心技術の一つです。LLMの自己回帰統一エンコーディング予測を使用することで、統一された表現を実現しつつ、画像とテキストの大規模モデルの局所認識能力を明示的に強化しました。

タスク設計：マルチモーダル大規模モデルの視覚的局所理解能力を強化するため、MLLM回帰タスクにおいて従来のCVタスクを統一し、データセットにはbox、mask、きめ細かな標準の定位データを含む900k件が追加されました。異なるマルチモーダルタスクは、指示追従によって実現されます。例えば、参照検出、参照セグメンテーションなどです。

CVとテキストタスクの統一（注：ML-Summit会議における紫東太初チームの発表より）

訓練戦略：第一段階では画像とテキストのペアデータを使用し、モデルのクロスモーダルアライメントを実現します。第二段階では、マルチモーダル参照タスクと一連のきめ細かなタスクを使用し、モデルのデータ処理能力を強化します。第三段階では、強化学習を適用し、モデルがユーザーの指示に適切に従い、使用意図を理解できるようにします。

異なる段階での訓練戦略（注：ML-Summit会議における紫東太初チームの発表より）

モデル効果：訓練されたマルチモーダル大規模モデルは、優れた汎用能力だけでなく、視覚的定位機能も備えています。視覚的グラウンディングタスクでは、同期の最適な定位最適化モデルであるCogVLM-17Bを上回り、物体検出、オープン物体カウントタスクにおいて、複数の専門的な物体検出、物体カウントモデルの精度を初めて上回りました。

3.2 360研究院--オープンワールド物体検出

360研究院のオープンワールド物体検出技術は、スマートハードウェア、自動運転などの分野で広く応用されています。従来の小規模モデルは汎化能力が不足しているため、オープンな環境での検出要求に対応することが困難であり、このタスクこそがマルチモーダル大規模モデルが汎用的な知覚能力を構築するための鍵となる部分です。なぜ検出能力がマルチモーダル大規模モデルの必須属性となるのでしょうか？その必要性は主に以下の4つの側面で現れます。

物体検出はマルチモーダル大規模モデルの能力向上に役立つものの、実際の応用ではいくつかの課題を解決する必要があります。まず、未知のカテゴリのデータが不足しているというデータ取得とアノテーションのボトルネックがあります。次に、データ分布の複雑性という課題、つまりロングテールカテゴリの識別が困難です。最後に、モデルのカテゴリをまたいだ転送能力が弱く、環境適応性が不足しているという課題です。

3.3 テンセント--WeChat Channelsマルチモーダル審査

WeChat Channelsプラットフォームのコンテンツエコシステムが急速に拡大するにつれて、動画コンテンツとユーザーコメントの数は継続的に高速で増加しています。一方で、手動審査（人審）は、大量の審査タスクに対応する際に、明らかな効率のボトルネックと品質の課題に直面しています。コンテンツ審査の適時性と正確性を効果的に向上させるため、アルゴリズムモデルの最適化、審査メカニズムの革新、標準システムの整備、およびデータ解析可能性の向上を含む包括的なソリューションを早急に構築する必要があります。

モデル層：垂類大規模モデルの導入。

強力な自然言語処理能力により、潜在的な違反情報を正確に識別します。マルチモーダルモデルは様々な種類のデータを処理でき、審査ニーズを網羅的にカバーします。

審査層：チャネル別審査プロセス。

低違反疑い（ホワイトチャネル）：違反の程度が低いと疑われるコンテンツについては、審査プロセスを簡素化し、手動介入を減らすことで、審査効率を大幅に向上させます。

高違反疑い（ブラックチャネル）：違反の程度が高いと疑われるコンテンツについては、違反情報の事前警告を提供し、審査担当者が高違反コンテンツの処理に集中できるように支援します。

WeChat Channels審査システムソリューション

多次元特徴入力：動画画像、テキストコンテンツ（タイトル、画像OCR、ASR、コメント）などの多次元データは、モデルがコンテンツの有害性をより正確に判断するのに役立ちます。

モデル基盤事前学習：モデル支援＋手動アノテーション方式で垂類シナリオ事前学習データセットを構築し、汎用マルチモーダル基盤を選択して垂類データで事前学習を行います。

データ最適化とファインチューニング：手動審査のフィードバックに基づき、多段階の反復最適化訓練を実施し、実際のアプリケーションにおけるより高い精度と堅牢性を確保します。

多次元情報データフロー融合

Tencent Video審査システムは、テキストRAG（ポリシーライブラリ検索）とマルチモーダルコンテンツ理解を統合し、審査エージェントを通じて違反コンテンツの積極的な遮断を実現しています。

04

大規模モデルの将来の発展トレンド

アルゴリズムレベル：モデルはネットワークアーキテクチャ、動的な学習可能性、マルチモーダルアライメントから、統一されたフルモーダル能力（AGI）を示すようになるでしょう。
プロダクトレベル：人間と機械の協調的な相互作用能力を持つ、大規模モデルを基盤とした複雑なシステムがますます増えるでしょう。
ドメインレベル：各専門分野で深く統合され、社会資源の再構築を推進します。能力はソフトウェアからハードウェアへと広がり、AIロボットは現実世界で直接使用されるようになるでしょう。

将来の大規模モデルは、RAGがマルチモーダル知識グラフへと進化し、仮想と現実が融合した認知ネットワークを構築する「三螺旋」の発展を遂げるでしょう。エージェントは具現化された知能へと進化し、環境適応型の意思決定システムを形成します。マルチモーダルはニューロシンボリックシステムへとアップグレードし、説明可能な知覚推論を実現します。これら3つの深い融合は、手術ロボットやスマートグリッドなどのシナリオで、知覚-認知-意思決定-実行の完全な閉ループを実現する次世代の産業インテリジェントエージェントを生み出すでしょう。

備考：記事内の一部の画像はインターネットおよび公開論文からのものです。マルチモーダルタスク統一の章の図は、ML-Summit会議における紫東太初チームの発表からの引用です。

-End-

オリジナル著者｜蒋進

ここまでお読みいただきありがとうございます。よろしければフォローしてくださいね👇

📢📢開発者限定特典をゲットしよう！下の画像をクリックして直行👇

将来の大規模モデルの発展について、他にどのような期待がありますか？コメントでぜひ補足してください。質の高いコメントを1件選出し、Tencent Cloud特製ファイルケースセット（下図参照）を1つプレゼントします。抽選は5月6日正午12時です。

RAG、Agent、マルチモーダルの産業実践と将来のトレンドを徹底解説

01

02

03

04

短いURLをシェア