👉目錄

1 RAG：大模型觸手

2 Agent：大模型集成體

3 多模態技術應用

4 大模型未來發展趨勢

大模型作為產業變革的核心引擎。透過RAG、Agent與多模態技術正在重塑AI與現實的交互邊界。三者協同演進，不僅攻克了資料時效性、專業適配等核心挑戰，更推動行業從效率革新邁向業務重構。本文將解析技術演進脈絡、實戰經驗與未來圖景，為讀者提供前沿趨勢的全局視角與產業升級的實踐指引。

關注騰訊雲開發者，一手技術乾貨提前解鎖👇

大模型技術正加速滲透至產業核心場景，成為驅動數位化轉型的智能引擎。全球機器學習大會（ML-Summit）聚焦大模型技術的創新突破與產業實踐，深入探討其前沿方向與落地路徑。作為AI發展的核心驅動力，檢索增強生成（RAG）透過動態知識融合技術突破大模型的靜態知識邊界；智能體（Agent）藉助自主決策與多任務協同能力重構人機協作範式；多模態大模型則依托跨模態語義理解技術解鎖複雜場景的落地潛力。三者協同演進，不僅攻克了資料時效性、隱私安全與專業適配等關鍵難題，更在醫療診斷、金融風控、智能製造等領域催生從效率革新到業務重構的行業級變革。

ML-Summit會議大模型內容分布

RAG：大模型的動態知識引擎，解決模型靜態知識邊界、時效性與可信度問題。

Agent：大模型的智能執行中樞，賦予模型自主規劃、決策與工具調用能力。

多模態：大模型的感知升級底座，突破單一模態理解限制，實現真實世界全息認知。

知識增強（RAG）→ 行為智能（Agent）→ 感知升級（多模態）→ 完整智能體

01

RAG：大模型觸手

RAG（Retrieval-Augmented Generation，檢索增強生成）是一種結合資訊檢索與生成模型的技術。其核心思想是：在生成答案前，先從外部知識庫（如文件、資料庫、網際網路）中檢索相關證據，再基於檢索結果和使用者輸入生成更準確、可靠的回答。如下圖所示為一個最簡RAG示意圖。

（注：圖源網絡）

從形態上說，LLM充當大腦角色用於生成答案，檢索充當觸手角色用於收集證據。RAG就是一個帶觸手（外掛知識庫）的大模型系統。

1.1為什麼需要RAG

大模型在很多領域表現出色，但依然存在局限性，這些局限性使得RAG成為大模型的重要補充。

模型能力：大模型訓練完成後模型的能力就固定了。比如：我們問ChatGPT東方甄選小作文的事情，ChatGPT表示不知道。原因是：GPT-4訓練資料知識收集截止到2023年10月份。RAG透過外掛即時知識庫，可以有效改善這類問題。

ChatGPT時效性

資料隱私：大模型很難覆蓋隱私資料和私域資料，本地部署RAG系統，也可以改善此類問題。

可解析性：RAG檢索結果提供事實依據，減少猜測性回答。同時生成答案可標註來源文件，增強可信度。

成本優化：長上下文模型，處理全文輸入成本高，RAG檢索關鍵片段壓縮輸入長度，使得RAG在處理長文本時更加有效。

LLM與RAG差異

RAG不僅解決大模型的局限性，也帶來更高的生成品質和成本優化，RAG可以根據不同領域的需求，客製化地提供專業答案。

1.2 RAG存在挑戰

儘管RAG帶來了許多優勢，但在實際應用中面臨一些挑戰，特別是在RAG建構過程中。RAG建構包含4個主要步驟：文件轉為資料、資料分塊、資料向量化、向量儲存。

1.2.1 文本向量化難點

文件以文字為主，也包含圖片、表格、公式等資訊。文件中存在成千上萬的文字資訊，大量資料後如何對資料分塊（涉及權衡文本顆粒度、上下文的完整性）選擇適合的文本顆粒度（資料分塊）能夠平衡檢索的精準和召回。

RAG建構過程中存在的挑戰

1.2.2 多模態文件難點

多模態文件中圖片、圖表等結構化多模態內容處理方式更加複雜。如何將不同模態的資料（文本，圖像、影片）融合在一起，提高理解的準確性是挑戰。

多模態文件結構複雜（注：圖源網絡）

目前針對複雜文件結構處理鏈路包含四個階段：文件解析器（ocr識別及座標、圖片識別及座標、工具解析器等）、文件結構化（為資料建立索引順序）、文件理解（資料整理為可序列化的結構）。整體看文件的解析鏈路長，步驟多，內容不好校核。

複雜文件常規解析鏈路（注：圖源網絡）

1.2.2 可控檢索難點

檢索錯誤是RAG應用中的一個常見問題，比如：噪音資料、資料分塊（上下文錯誤處理）、特性向量化過程（BGE能力不足）等等。召回率與精準率是一個對立矛盾體。因此需要對RAG系統做可控處理。

RAG可控處理一種思路

1. 3 RAG發展

因多模態資料處理與向量化檢索的技術瓶頸，RAG系統的穩定性常受制約，因此推動多模態文件的統一化處理範式與新一代檢索架構，成為突破RAG能力邊界的兩大關鍵路徑。

1.3.1 多模態文件處理

在視覺問答（VAQ）任務中，多模態文件的解析需融合文本與布局理解能力。例如，當解析“兩個品牌在解析度參數上的差異”時，模型不僅需識別圖像中的文字內容，還需解析文本間的排版邏輯與表格結構資訊。若要在回答時提升準確性，需確保模型在處理文本時保留其原始結構特徵。

多模態模型提取文字及視覺問答

多模態處理文件不僅可以將不同模態的資料（文本、圖像、表格）映射到同一個語義空間，進而提高資料的可用性和檢索效率，也有利於模型對於文件的理解。

1.3.2 基於記憶驅動RAG

RAG的另一個發展方向是記憶驅動RAG。與傳統的基於向量的RAG相比，記憶驅動RAG利用LLM的KV緩存作為動態索引，具備更高的靈活性和適應性。如圖所示Standard RAG與Meno RAG在原理及使用方式存在明顯區別。

向量RAG與Meno RAG的差異

使用場景：若需求為靜態知識快速檢索（如客服標準問答），優先選擇向量RAG；BGE（智源通用嵌入模型）、Jina Embeddings（長文本優化）。若需求為動態交互與終身學習（如個性化醫療助手），探索記憶驅動RAG Memo RAG（智源研究院）：KV緩存壓縮 + 動態記憶索引。

02

Agent：大模型集成體

Agent技術是大模型的重要集成體，能夠實現自主執行任務、做出決策和與環境互動。如圖所示，海綿寶寶的形象展示一個大模型如何一步步進化為一個超強的智能體。

（注：圖源網絡）

2.1 Agent概要

AI agent是指使用AI技術設計和程式設計的一種電腦程式，其可以獨立地進行某些任務並對環境做出反應。AI代理可以被視為一個智能體，它能夠感知其環境，自己決策和行動來改變環境。如圖所示是一個最簡Agent系統圖。

Agent系統圖

Agent透過結合LLM、規劃、回饋和工具，形成一個完整的智能系統。Agent包含感知層、決策層、執行層，最終形成具有自主性、反應性、主動性和社會性。

2.2 Agent實踐

已有不少Agent開源項目，透過項目實踐可加深對Agent理解。Agent實踐分為兩種類型：自主智能體和生成智能體。

2.2.1 自主智能與生成智能

自主智能體：自主執行任務、做出決策和與環境互動的智能系統。生成智能體：利用生成模型來創造新的資料或內容的智能系統。如圖所示，Auto-GPT（自主智能）自問自答，斯坦福小鎮虛擬世界（生成智能）。

自主智能體與生成智能體的區別：

單智能體與多智能體對比

2.2.2 Agent核心框架

成熟的Agent框架可降低開發成本，MetaGPT和AutoGen是當前最流行的兩個框架。MetaGPT透過為GPT模型分配不同角色來模擬協作的軟體公司結構，以處理複雜任務；AutoGen作為開源框架，專注於透過多智能體對話和增強的LLM推理開發大型語言模型應用。

MetaGPT與AutoGen對比

MetaGPT和AutoGen各有特點，MetaGPT：軟體公司的“數位CTO”；AutoGen：客製化AI的“樂高工廠。MetaGPT更適合需要全面自動化和協作的軟體開發任務，而AutoGen更適合需要靈活客製化和對話的LLM應用開發。

2.2.3 Multi-Agent系統

現實世界任務往往過於複雜，單Agent難以勝任，需要多個Agent協作。以漫畫圖所示，從一個需求到最終交付的產品。首先：計畫、需求分析、框架設計、系統方案、編碼實現、功能性測試，最後是產品交付。如此複雜的系統需要多人合作，Multi-Agent系統在處理複雜任務方面具有顯著優勢。

單智能體與多智能體，無論在任務類型與核心技術都存在明顯差別。

單智能體與多智能體對比

1. 任務解構能力：透過分布式子任務分工協作，Multi-Agent系統能夠分解任務，提高了任務處理的效率。

2. 效能突破邊界：透過並行架構和冗餘容錯設計，Multi-Agent系統能夠顯著提高計算效率和系統魯棒性。

3. 動態環境適應：透過即時交互網絡，Multi-Agent系統能夠快速適應動態環境，更好地應對複雜變化環境。

2.3 Agent應用

儘管Agent技術在多個領域展示了其強大的應用價值，但我們也面臨一些挑戰。

2.3.1 應用難點

如圖所示顯示各方面的挑戰，如：技術能力、系統設計、安全性及經濟效益。

應對上述問題存在的方案：

1. 複雜任務規劃，透過分層的方式逐步解決複雜任務。

2. 動態環境適應：元學習（Meta-Learning）+ 世界模型可以提高Agent在動態環境中的適應能力。

3. 多智能體協作：透過博弈論和聯邦學習，多智能體系統實現高效的協作。

4. 可解釋性提升：因果推理模型 + 決策樹蒸餾可以提高Agent的可解釋性，Agent的決策過程更加透明。

5. 價值觀對齊：基於人類回饋的強化學習（RLHF）可以解決Agent的價值觀對齊問題。

2.3.2 行業應用

Agent技術在多個領域展示了其強大的應用價值。

Agent行業應用效果

Agent的落地應用始終面臨真實世界的複雜性挑戰。要處理工業質檢中的視覺缺陷檢測、金融報告中的圖表解析等任務，必須突破單模態限制——這正是多模態大模型的技術使命。

03

多模態技術應用

多模態大模型的應用非常廣泛，涵蓋了多個行業和領域。本文分享三個團隊的工作，紫東太初多模態預訓練、360團隊多模態世界目標檢測、騰訊團隊影片號多模態審核。

3.1 紫東太初--多模態任務統一

將目標檢測、分割、OCR等傳統CV任務統一到圖文大模型中是紫東太初項目中的核心技術之一。使用LLM的自回歸統一編碼預測，在統一表達的同時，顯式增強了圖文大模型的局部感知能力。

任務設計：為了加強多模態大模型視覺局部理解能力，在MLLM回歸任務中統一傳統CV任務，資料集新增了900k條包含box，mask，細粒度標準的定位資料。不同的多模態任務透過指令跟隨實現，比如指代檢測、指代分割等。

CV與文本任務統一（注：紫東太初團隊在ML-Summit大會分享）

訓練策略：第一階段使用圖文資料對，實現模型跨模態間對齊；第二階段，使用多模態指代任務以及一系列細粒度任務，增強模型資料能力。第三階段，運用強化學習，讓模型更好跟隨使用者指令，明白使用意圖。

不同階段訓練策略（注：紫東太初團隊在ML-Summit大會分享）

模型效果：訓練多模態大模型不僅有優秀的通用能力，也擁有視覺定位功能。視覺Grounding任務超越同期最優定位優化模型CogVLM-17B首次在目標檢測、開放目標計數任務上精度超越多個目標檢測、目標計數專有模型。

3.2 360研究院--開放世界目標檢測

360研究院的開放世界目標檢測技術，已廣泛應用於智能硬體、自動駕駛等領域。傳統小模型因泛化能力不足難以應對開放場景的檢測需求，而該任務恰恰是多模態大模型建構通用感知能力的關鍵環節。檢測能力為何成為多模態大模型的必備屬性？其必要性主要體現在以下四方面：

儘管目標檢測能夠幫助多模態大模型提升能力，但在實際應用中也需要解決以下幾個挑戰。首先是資料獲取與標註瓶頸，未知類別資料稀缺。其次是資料分佈複雜性挑戰，長尾類別識別困境。最後是模型能力跨類遷移能力弱，環境適應性不足。

3.3 騰訊--多模態影片號審核

隨著影片號平台內容生態的快速擴張，影片內容及使用者評論數量呈現持續高速增長態勢，而人工審核（人審）在應對海量審核任務時正面臨明顯的效率瓶頸與品質挑戰。為有效提升內容審核的時效性與準確性，亟需建構覆蓋演算法模型優化、審核機制創新、標準體系完善及資料可解析性提升等維度的綜合解決方案。

模型層面：引入垂類大模型。

強大的自然語言處理能力，準確識別潛在的違規資訊。多模態模型可以多種類型的資料，全面覆蓋審核需求。

審核層面：分甬道審核流程。

疑似低違規（白甬道）：對於疑似違規程度低的內容，簡化審核流程，減少人工干預，從而大幅提高審核效率。

疑似高違規（黑甬道）：對於疑似違規程度高的內容，並提供違規資訊的預警，幫助審核員集中精力處理高違規內容。

影片號審核系統解決方案

多維度特徵輸入：影片圖片，文本內容（標題、圖片OCR、ASR、評論）等多維度資料，幫助模型更準確地判斷是否有害。

模型基座預訓練：模型輔助+人工標註的方式建構垂類場景預訓練資料集，選擇通用多模態基座在垂類資料上預訓練。

資料優化與微調：基於人工審核回饋，進行了多輪迭代優化訓練，確保其在實際應用中具備更高的準確性和魯棒性。

多元資訊資料流融合

騰訊影片審核系統融合文本RAG（政策庫檢索）與多模態內容理解，透過審核Agent實現違規內容主動攔截。

04

大模型未來發展趨勢

演算法層面：模型將從網絡架構、動態可學習、多模態對齊統一展現出全模態能力（AGI）
產品層面：將會看到越來越多以大模型為基礎複雜系統，具有人機協同交互能力。
領域層面：在各垂類領域深度結合，推動社會資源的重構。能力由軟到硬，AI機器人將直接用於真實世界。

未來大模型將呈現三螺旋發展：RAG向多模態知識圖譜演進，建構虛實融合的認知網絡；Agent向具身智能進化，形成環境自適應決策系統；多模態向神經符號系統升級，實現可解釋的感知推理。三者深度融合將催生新一代產業智能體，在手術機器人、智能電網等場景實現感知-認知-決策-執行的完整閉環。

備註：文章部分圖片源於網際網路及公開論文，多模態任務統一章節圖示來源於紫東太初團隊在ML-Summit大會分享。

-End-

原創作者｜蔣進

感謝你讀到這裡，不如關注一下？👇

📢📢來領開發者專屬福利！點擊下方圖片直達👇

你對未來大模型的發展還有什麼樣的期待？歡迎評論留言補充。我們將選取1則優質的評論，送出騰訊雲定制文件袋套裝1個（見下圖）。5月6日中午12點開獎。

一文搞懂：RAG、Agent與多模態的產業實踐與未來趨勢

01

02

03

04

分享短網址