天天看點

一文了解AIAgent

作者:CIO之家

一、前言

AI Agent(人工智能代理)是上半年一個火熱的話題。筆者最近對相關概念進行了學習與研究,期間也通過智能體開發平台成功搭建了一些有趣的Agent。是以計劃通過本篇文章,跟大家分享筆者對于AI Agent的些許了解。

二、AI Agent是什麼

AI Agent,即人工智能體,是一種能夠感覺環境、進行自主了解、決策和執行動作的智能實體。簡單了解,是一種基于大語言模型,能夠通過獨立思考、調用工具來逐漸完成給定目标的計算機程式。

可能大家會疑問,AI Agent又和LLM、RAG有什麼差別?他們之間的關系又是怎樣的?

我們不妨,先通過對比 LLM、RAG 的用途,來更好地了解 AI Agent。

1、LLM

LLM(大語言模型)是基于海量文本資料訓練的深度學習模型,能夠生成自然語言文本、深入了解文本含義,并處理各種自然語言任務,如文本摘要、問答、翻譯等。簡單了解是語言的邏輯推理,如我們常見的Chat GPT、文心一言、通義千問等

一文了解AIAgent

但由于LLM的知識是提早訓練好的内容,時效性不強;加上用于訓練的知識一般來源于公域的标準化知識,存在局限性。

為了解決LLM知識有限的問題,需要把外部的知識提供給LLM進行學習,讓它了解之後表達出來,這時候就需要用到RAG技術。

2、RAG

RAG(檢索增強生成)是一種結合了外部資訊檢索與大型語言模型生成能力的技術,用于處理複雜的資訊查詢和生成任務。在大模型時代,RAG 通過加入外部資料(如本地知識庫、實時資料等)來增強 AI 模型的檢索和生成能力,提高資訊查詢和生成品質。比如:文心一言的插件服務,支援把實時又或者私有化知識提供給LLM。

一文了解AIAgent

總結而言,RAG是一種技術,作用于LLM,目的是增加輸出結果的準确性。

3、AI Agent與LLM、RAG的關系

如果把AI Agent了解為一個智能實體的話,LLM充當着智能體的“大腦”角色。

AI Agent 會利用 LLM 的推理能力,把問題進行拆解,形成一個一個的小問題,并定義好這些小問題之間的前後關系,先處理哪個,再處理哪個。然後按照順序,調用 LLM 、 RAG 或者外部工具,來解決每一個小問題,直至解決最初的問題。

一文了解AIAgent

三、AI Agent的基礎架構

上文提及到,LLM充當着智能體的大腦,但僅僅有“大腦”并不能完成複雜任務的執行。作為智能體,還需要如“神經感官系統”以及“肢體”的參與,這時候引入AI Agent的基礎架構。

一文了解AIAgent

如上圖所示,Agent由4個關鍵部分組成,分别是:規劃(Planning)、記憶(Memory)、工具(Tools)、行動(Action)

1、規劃(Planning)

“規劃”充當着智能體的“思維模式”。如果用人類來類比,當接到一個任務時,我們的思維模式可能會像下面這樣:

  • 首先會思考怎樣完成這個任務。
  • 然後會把任務拆解成多個子任務分步進行。
  • 接着評估現有工具能夠幫助我們高效達成目的。
  • 在執行任務的時候,我們會對執行過程進行反思和完善,以持續調整政策。
  • 執行過程中思考任務何時可以終止。

是以,我們可以通過 LLM 提示工程(Prompt),為智能體賦予這樣的思維模式。比如:在編寫Prompt的時候運用ReAct、CoT等推理模式,引導LLM對複雜的任務進行拆解,拆分為多個步驟,一步步思考和解決,進而使輸出的結果更加準确。

2、記憶(Memory)

記憶是什麼?當我們在思考這個問題,其實人類的大腦已經在使用記憶。記憶是大腦存儲、保留和回憶資訊的能力。

仿照人類的記憶機制,智能體分為了兩種記憶機制

  • 短期記憶,如:單次會話的上下文記憶會被短暫的儲存,以用于多輪會話,在任務完結後被清空。
  • 長期記憶,長時間被保留的資訊,如:使用者的特征資訊、業務資訊,通常用向量資料庫來存儲和快速檢索。

3、工具(Tools)

智能體具備感覺環境與決策執行的能力,這離不開“神經感官系統”的幫助,“工具”便充當着這個角色。智能體通過工具從周邊環境擷取到資訊(感覺),經過LLM處理後再使用工具完成任務(執行)。

是以我們需要為智能體配備各種工具以及賦予它使用工具的能力。比如:

  • 通過調用軟體系統不同應用子產品的API,擷取到指定的業務資訊,以及執行業務的操作權限。
  • 通過調用外部的插件工具,來擷取原本LLM并不具備的能力,如:文心的Chat files插件擷取文檔解析能力;扣子的ByteArtist插件擷取文生圖能力等。

這裡便運用到了上文提及的RAG相關技術

一文了解AIAgent

4、行動(Action)

智能體基于規劃和記憶來執行具體的行動,這可能包括與外部世界互動,或者通過工具的調用來完成一個動作,具體來說就是一個輸入(Input)任務的最終輸出(Output)。

如:實體AI機器人完成一個“鼓掌”動作的任務;又或者軟體系統中,由AI助手建立一個待辦任務。

四、AI Agent示例

為了更好地了解AI Agent,筆者這裡舉個生活中簡單的例子:假設您需要與朋友在附近吃飯,需要AI Agent幫你預訂餐廳。

Agent會先對您提出的任務進行拆解,如:

第1步(擷取目前所在方位)

  • 推理1:目前知識不足以回答這個問題,需要知道目前所在方位以及附近的餐廳
  • 行動1:使用地圖工具(Tools)擷取目前所在方位
  • 結果1:得出附近餐廳清單

第2步(确定比對餐廳)

  • 推理2:确定預訂的餐廳,需要知道您的飲食偏好以及其餘細節(如:吃飯時間、人數)
  • 行動2:從記憶(Memory)中擷取您的飲食偏好、人數、時間等資訊
  • 結果2:确定最比對的餐廳

第3步(預訂餐廳)

  • 推理3:基于結果2,評估目前所擁有的工具能否完成餐廳預訂
  • 行動3:使用相關插件工具,進行餐廳預訂(Aciton)
  • 結果3:任務完成

五、Agent與To B産品應用場景

對AI Agent有了初步的了解後,我們可以把這套架構思想代入到To B産品的功能AI化設計中。比如:通過AI Agent完成搭建報表、建立任務、生成工作報告等工作。這裡拿【生成工作報告】為例子,分享一下筆者的思路:

在CRM系統中,寫工作報告(周報、月報)是一個周期性的高頻工作。這個工作可分為幾個階段:

1、手動階段

剛開始,員工填寫工作報告需要以下好幾步:

  • 第一步:通過各種方式整理彙報周期内,聯系了哪些客戶;商機都推進到什麼階段;哪些客戶完成轉化成交,成交業績多少等行為資訊
  • 第二步:把零散的行為資訊,重新梳理,轉化為彙報格式(如:内容+目前進度+預期等格式)
  • 第三步:選擇彙報人,送出報告

這個過程中,員工把大部分的時間都耗在了收集與整理行為資訊的工作上。

一文了解AIAgent

2、Copilot階段

由于引入了LLM,員工在寫工作報告的時候,可以省去了整理零散資訊,撰寫報告的一步。

此時隻需要把報告要求發給LLM,讓LLM基于零散的資料資訊進行加工整理,最後自動撰寫工作報告。當提問中不含有彙報人等資訊,LLM将通過多輪會話的方式進行擷取。

3、Agent階段

到了Agent的階段,我們不妨以智能體的基礎架構出發,建構【工作報告智能體】的架構。

  • 規劃(Planning),編寫Prompt的時候,讓LLM對“生成工作報告”任務進行拆解,分為了擷取基礎資料—整理輸出報告—選擇彙報人—執行送出四步。
  • 工具(Tools),受限于LLM無法擷取私有化知識的問題,通過RAG技術,接入資料中心API來擷取客戶聯系、流轉、成交等明細資料;以及接入工作報告應用API來擷取“填寫”與“送出”的業務執行權限。
  • 記憶(Memory),把員工以往的彙報内容進行分析,提煉出彙封包案風格、内容格式、彙報周期、彙報人等特征資訊,作為長記憶進行存儲,供撰寫報告時使用。
  • 行動(Action),基于工作報告應用開放的執行權限,待LLM成功生成工作報告後,自動執行送出操作,完成任務。
一文了解AIAgent

通過這個方式,員工隻需要給Agent下達寫工作報告的任務(設定定時任務或手動觸發),Agent将會自動完成資料采集、報告撰寫、選擇彙報人、報告送出操作。

一文了解AIAgent

六、總結

如果把“To B軟體的AI化”類比于汽車自動駕駛技術的發展。23年LLM的推出,相當于To B軟體應用的自動化程度由L1階段更新到L2階段;AI Agent的到來,讓自動化程度得到了進一步的提升,由L2階段更新到L4階段。

一文了解AIAgent

随着AI Agent自主性的進一步加強,将會逐漸替代越來越多的重複性工作。但從To B軟體的角度來看,AI最終解決的核心問題仍然不變—「降本增效」。

是以,作為産品經理,在提升自己AI能力的同時,還要持續提高自己對于産品所在行業的業務了解能力。畢竟在沒有找到核心場景前,就算配套再先進的工具也帶來不了任何價值。

本文作者: 來源:産品曼巴

CIO之家 www.ciozj.com 微信公衆号:imciow