PPTAgent:會自己寫 PPT 的 AI 工具

估計不少小夥伴一提到寫PPT就頭疼吧!寫文案的時候,絞盡腦汁也想不出吸引人的內容,好不容易憋出幾段話,總覺得乾巴巴的毫無亮點。排版再好,過了一夜怎麼看怎麼彆扭。

所以,中國科學院軟體研究所、中國科學院大學和上海捷心科技的研究人員聯合開源了PPT Agent。

PPT Agent可以像人類那樣通過分析精美參考幻燈片,提取內容模式和佈局結構,然後根據輸入檔案的內容,逐步編輯和最佳化幻燈片。同時還具備自我修正功能,確保生成的PPT在內容、設計和連貫性上都達到使用者要求,極大節省時間和精力。

開源地址:https://github.com/icip-cas/PPTAgent

PPTAgent的核心技術與創新點在於其獨特的兩階段演示文稿生成方法,這種設計靈感來源於人類製作PPT的自然流程。

傳統的PPT生成方法往往直接從文本內容到幻燈片的轉換,容易導致生成的演示文稿缺乏視覺吸引力和結構連貫性。而PPTAgent通過模仿人類“選擇參考幻燈片並逐步編輯”的工作方式,巧妙地解決了這一問題。

在第一階段,PPTAgent對參考演示文稿進行深入分析。它首先對幻燈片進行聚類,將它們分為結構幻燈片和內容幻燈片。結構幻燈片用於支撐演示文稿的整體組織,例如標題頁和目錄頁;

內容幻燈片則用於傳達具體資訊,如專案符號列表或圖表。通過利用大模型的強大能力,PPTAgent能夠識別幻燈片的結構角色,並根據其文本特徵進行分組。

對於內容幻燈片,會將其轉換為圖像,並應用層次聚類方法將相似的幻燈片圖像分組。隨後,PPTAgent利用多模態大模型分析這些圖像,識別出每個聚類中的佈局模式。這一過程不僅為後續的幻燈片生成提供了清晰的參考,還確保了生成的演示文稿在結構上的一致性和邏輯性。

在內容模式提取方面,PPTAgent進一步定義了一個詳細的提取框架。每個幻燈片元素都被賦予了類別、描述和內容,這種結構化的表示方式使得幻燈片的內容組織更加清晰明了。

例如,一個幻燈片可能包含標題、正文、圖像等元素,每個元素都有明確的描述和資料內容。這種細緻的內容模式提取為後續的幻燈片生成提供了堅實的基礎,使得PPTAgent能夠更好地理解幻燈片的佈局和內容組織。

進入第二階段,PPTAgent的創新之處在於其基於編輯的生成方法。與傳統的從零開始生成幻燈片的方法不同,PPTAgent通過選擇合適的參考幻燈片,並對其進行逐步編輯,從而建立新的幻燈片。這種方法不僅保留了參考幻燈片的精心設計的佈局和樣式,還通過編輯操作實現了內容的更新和最佳化。PPTAgent設計了一系列編輯API,支援對幻燈片元素的編輯、刪除和複製操作。

這些API結合HTML渲染技術,使得大模型能夠以更直觀的方式理解和修改幻燈片內容。與傳統的XML格式相比,HTML格式更加簡潔明瞭,易於操作,從而提高了生成過程的效率和準確性。

此外,PPTAgent還引入了一種自我修正機制,以增強生成過程的魯棒性。在幻燈片生成過程中,生成的編輯操作將在REPL環境中執行,當操作無法應用於參考幻燈片時,REPL會提供執行回饋,幫助大模型調整其編輯操作。

通過這種迭代修正的方式,PPTAgent能夠有效避免生成錯誤或不一致的幻燈片,確保最終生成的演示文稿在內容和結構上的高品質。

為了測試PPTAgent的性能,研究人員從Zenodo10K數據集中選取了50個作為參考演示文稿,並從相同領域收集了50篇文檔作為輸入,生成了500個演示文稿任務,覆蓋5個領域、10種輸入文檔和10種參考演示文稿的組合。

結果顯示,PPTAgent在內容、設計和連貫性三個維度上均顯著優於現有的演示文稿生成方法。例如,與基於規則的DocPres和基於模板的KCTV相比,PPTAgent在內容品質上提升了12.1%至28.6%,在設計上提升了13.2%至40.9%,在連貫性上更是實現了25.5%至36.6%的大幅提高。這些結果表明PPTAgent能夠生成高品質、視覺吸引力強且結構連貫的演示文稿。

主標籤:AI工具

次標籤:簡報生成開源自動化大型語言模型


上一篇:傳聞 OpenAI 願斥 300 億美元收購?拆解 Windsurf:Codeium 如何轉型 AI IDE,憑“氛圍程式設計”殺出重圍

下一篇:Augment Code 漲價傳聞與替代方案

分享短網址