一、前言

AI Agent（人工智能代理）是上半年一個火熱的話題。筆者最近對相關概念進行了學習與研究，期間也通過智能體開發平台成功搭建了一些有趣的Agent。是以計劃通過本篇文章，跟大家分享筆者對于AI Agent的些許了解。

二、AI Agent是什麼

AI Agent，即人工智能體，是一種能夠感覺環境、進行自主了解、決策和執行動作的智能實體。簡單了解，是一種基于大語言模型，能夠通過獨立思考、調用工具來逐漸完成給定目标的計算機程式。

可能大家會疑問，AI Agent又和LLM、RAG有什麼差別？他們之間的關系又是怎樣的？

我們不妨，先通過對比 LLM、RAG 的用途，來更好地了解 AI Agent。

1、LLM

LLM（大語言模型）是基于海量文本資料訓練的深度學習模型，能夠生成自然語言文本、深入了解文本含義，并處理各種自然語言任務，如文本摘要、問答、翻譯等。簡單了解是語言的邏輯推理，如我們常見的Chat GPT、文心一言、通義千問等

但由于LLM的知識是提早訓練好的内容，時效性不強；加上用于訓練的知識一般來源于公域的标準化知識，存在局限性。

為了解決LLM知識有限的問題，需要把外部的知識提供給LLM進行學習，讓它了解之後表達出來，這時候就需要用到RAG技術。

2、RAG

RAG（檢索增強生成）是一種結合了外部資訊檢索與大型語言模型生成能力的技術，用于處理複雜的資訊查詢和生成任務。在大模型時代，RAG 通過加入外部資料（如本地知識庫、實時資料等）來增強 AI 模型的檢索和生成能力，提高資訊查詢和生成品質。比如：文心一言的插件服務，支援把實時又或者私有化知識提供給LLM。

總結而言，RAG是一種技術，作用于LLM，目的是增加輸出結果的準确性。

3、AI Agent與LLM、RAG的關系

如果把AI Agent了解為一個智能實體的話，LLM充當着智能體的“大腦”角色。

AI Agent 會利用 LLM 的推理能力，把問題進行拆解，形成一個一個的小問題，并定義好這些小問題之間的前後關系，先處理哪個，再處理哪個。然後按照順序，調用 LLM 、 RAG 或者外部工具，來解決每一個小問題，直至解決最初的問題。

三、AI Agent的基礎架構

上文提及到，LLM充當着智能體的大腦，但僅僅有“大腦”并不能完成複雜任務的執行。作為智能體，還需要如“神經感官系統”以及“肢體”的參與，這時候引入AI Agent的基礎架構。

如上圖所示，Agent由4個關鍵部分組成，分别是：規劃（Planning）、記憶（Memory）、工具（Tools）、行動（Action）

1、規劃（Planning）

“規劃”充當着智能體的“思維模式”。如果用人類來類比，當接到一個任務時，我們的思維模式可能會像下面這樣：

首先會思考怎樣完成這個任務。
然後會把任務拆解成多個子任務分步進行。
接着評估現有工具能夠幫助我們高效達成目的。
在執行任務的時候，我們會對執行過程進行反思和完善，以持續調整政策。
執行過程中思考任務何時可以終止。

是以，我們可以通過 LLM 提示工程（Prompt），為智能體賦予這樣的思維模式。比如：在編寫Prompt的時候運用ReAct、CoT等推理模式，引導LLM對複雜的任務進行拆解，拆分為多個步驟，一步步思考和解決，進而使輸出的結果更加準确。

2、記憶（Memory）

記憶是什麼？當我們在思考這個問題，其實人類的大腦已經在使用記憶。記憶是大腦存儲、保留和回憶資訊的能力。

仿照人類的記憶機制，智能體分為了兩種記憶機制

短期記憶，如：單次會話的上下文記憶會被短暫的儲存，以用于多輪會話，在任務完結後被清空。
長期記憶，長時間被保留的資訊，如：使用者的特征資訊、業務資訊，通常用向量資料庫來存儲和快速檢索。

3、工具（Tools）

智能體具備感覺環境與決策執行的能力，這離不開“神經感官系統”的幫助，“工具”便充當着這個角色。智能體通過工具從周邊環境擷取到資訊（感覺），經過LLM處理後再使用工具完成任務（執行）。

是以我們需要為智能體配備各種工具以及賦予它使用工具的能力。比如：

通過調用軟體系統不同應用子產品的API，擷取到指定的業務資訊，以及執行業務的操作權限。
通過調用外部的插件工具，來擷取原本LLM并不具備的能力，如：文心的Chat files插件擷取文檔解析能力；扣子的ByteArtist插件擷取文生圖能力等。

這裡便運用到了上文提及的RAG相關技術

4、行動（Action）

智能體基于規劃和記憶來執行具體的行動，這可能包括與外部世界互動，或者通過工具的調用來完成一個動作，具體來說就是一個輸入（Input）任務的最終輸出（Output）。

如：實體AI機器人完成一個“鼓掌”動作的任務；又或者軟體系統中，由AI助手建立一個待辦任務。

四、AI Agent示例

為了更好地了解AI Agent，筆者這裡舉個生活中簡單的例子：假設您需要與朋友在附近吃飯，需要AI Agent幫你預訂餐廳。

Agent會先對您提出的任務進行拆解，如：

第1步（擷取目前所在方位）

推理1：目前知識不足以回答這個問題，需要知道目前所在方位以及附近的餐廳
行動1：使用地圖工具（Tools）擷取目前所在方位
結果1：得出附近餐廳清單

第2步（确定比對餐廳）

推理2：确定預訂的餐廳，需要知道您的飲食偏好以及其餘細節（如：吃飯時間、人數）
行動2：從記憶（Memory）中擷取您的飲食偏好、人數、時間等資訊
結果2：确定最比對的餐廳

第3步（預訂餐廳）

推理3：基于結果2，評估目前所擁有的工具能否完成餐廳預訂
行動3：使用相關插件工具，進行餐廳預訂（Aciton）
結果3：任務完成

五、Agent與To B産品應用場景

對AI Agent有了初步的了解後，我們可以把這套架構思想代入到To B産品的功能AI化設計中。比如：通過AI Agent完成搭建報表、建立任務、生成工作報告等工作。這裡拿【生成工作報告】為例子，分享一下筆者的思路：

在CRM系統中，寫工作報告（周報、月報）是一個周期性的高頻工作。這個工作可分為幾個階段：

1、手動階段

剛開始，員工填寫工作報告需要以下好幾步：

第一步：通過各種方式整理彙報周期内，聯系了哪些客戶；商機都推進到什麼階段；哪些客戶完成轉化成交，成交業績多少等行為資訊
第二步：把零散的行為資訊，重新梳理，轉化為彙報格式（如：内容+目前進度+預期等格式）
第三步：選擇彙報人，送出報告

這個過程中，員工把大部分的時間都耗在了收集與整理行為資訊的工作上。

2、Copilot階段

由于引入了LLM，員工在寫工作報告的時候，可以省去了整理零散資訊，撰寫報告的一步。

此時隻需要把報告要求發給LLM，讓LLM基于零散的資料資訊進行加工整理，最後自動撰寫工作報告。當提問中不含有彙報人等資訊，LLM将通過多輪會話的方式進行擷取。

3、Agent階段

到了Agent的階段，我們不妨以智能體的基礎架構出發，建構【工作報告智能體】的架構。

規劃（Planning），編寫Prompt的時候，讓LLM對“生成工作報告”任務進行拆解，分為了擷取基礎資料—整理輸出報告—選擇彙報人—執行送出四步。
工具（Tools），受限于LLM無法擷取私有化知識的問題，通過RAG技術，接入資料中心API來擷取客戶聯系、流轉、成交等明細資料；以及接入工作報告應用API來擷取“填寫”與“送出”的業務執行權限。
記憶（Memory），把員工以往的彙報内容進行分析，提煉出彙封包案風格、内容格式、彙報周期、彙報人等特征資訊，作為長記憶進行存儲，供撰寫報告時使用。
行動（Action），基于工作報告應用開放的執行權限，待LLM成功生成工作報告後，自動執行送出操作，完成任務。

通過這個方式，員工隻需要給Agent下達寫工作報告的任務（設定定時任務或手動觸發），Agent将會自動完成資料采集、報告撰寫、選擇彙報人、報告送出操作。

六、總結

如果把“To B軟體的AI化”類比于汽車自動駕駛技術的發展。23年LLM的推出，相當于To B軟體應用的自動化程度由L1階段更新到L2階段；AI Agent的到來，讓自動化程度得到了進一步的提升，由L2階段更新到L4階段。

随着AI Agent自主性的進一步加強，将會逐漸替代越來越多的重複性工作。但從To B軟體的角度來看，AI最終解決的核心問題仍然不變—「降本增效」。

是以，作為産品經理，在提升自己AI能力的同時，還要持續提高自己對于産品所在行業的業務了解能力。畢竟在沒有找到核心場景前，就算配套再先進的工具也帶來不了任何價值。

本文作者: 來源:産品曼巴

CIO之家 www.ciozj.com 微信公衆号:imciow

一文了解AIAgent