大語言模型，如何賦能測試？| TF136回顧

2024年6月27日，CCF TF迎來了第136期活動，主題為“大語言模型，如何賦能測試？”。本次活動由CCF TF品質工程SIG策劃呈現，邀請到了來自華為、百度、位元組等業界領軍企業的資深技術專家，帶來關于大語言模型在測試領域應用的深度見解和最新實踐。分享的内容精彩紛呈、讨論熱烈、聽衆回報積極。活動以線上直播的形式進行，通過騰訊會議平台和CCF視訊号“中國計算機學會”同步直播，吸引了衆多專業人士的參與。本文将回顧本次活動的精彩内容和深刻見解。

CCF TF

CCF TF活動相關專家報告均收錄在CCF數字圖書館【TF專輯】，歡迎長按識别，回看精彩分享。本期活動報告也将于近日收錄，歡迎回顧！

在大語言模型時代，測試領域相較于軟體行業其他領域展現出了更多的先天優勢。測試行業擁有豐富的數字化資産，包括測試政策、測試方案、測試用例、自動化腳本、海量的問題單以及執行記錄等。這些資産之間存在天然的對應關系，例如測試自動化腳本中，很容易擷取到測試步驟（文本描述）與測試代碼的關聯關系。所有這些，為LLM對測試的賦能提供了豐富的原始語料。

此外，LLM的出現顯著降低了AI在測試領域的應用門檻，為技術更新帶來了寶貴的機遇。盡管AI賦能測試已發展多年，但AI專家與業務專家之間的知識壁壘一直是一大挑戰。LLM的引入簡化了這一過程，在許多場景下，無需複雜的訓練，通過簡單的提示（prompt）即可實作初步的領域應用，例如智能生成測試資料，對測試點的提示與補充等。

實踐中我們也發現，雖然有衆多有利條件，但LLM在測試業務領域要想産生系統性的業務價值，也并非易事。一旦深入到特定業務領域，就會遇到：SFT的高成本與幻覺、RAG過程中面向真實意圖的高品質檢索、資料語料的品質，以及管理者和使用者的期望和LLM能力之間的沖突等諸多挑戰。

《大模型輔助測試自動化代碼生成實踐經驗與教訓》

來自華為資料存儲首席測試專家高廣達分享的主題是《大模型輔助測試自動化代碼生成實踐經驗與教訓》，首先介紹了LLM輔助測試自動化代碼生成作為LLM落地首選突破點的考慮初衷和業務價值。接着介紹了整個項目的探索過程。第一階段-老特性自動化防護網補齊。通過對已有測試自動化腳本的清洗，獲得測試步驟-測試代碼pair對，以此為語料，通過SFT實作基于内部代碼大模型的調優。在這個過程中，遇到了語料品質标準和檢查，對業務上下文的區分等衆多問題。通過得到的測試代碼大模型，對于同類特性的測試自動化代碼生成，可以達到較好的效果。但使用SFT的問題，是成本高，訓練周期長，一個新項目從語料送出模型團隊訓練，到能用來生成新項目的自動化腳本，需要較長的時間，無法滿足新特性自動化快速編寫的需求。項目團隊通過分析，在業務實際中找到了老特性自動化防護網補齊場景，為這個階段的技術找到合适的業務應用價值。為了解決新特性的自動化訴求，通過RAG，實作新特性語料分鐘級入知識庫，通過檢索增強生成，可以支撐業務新特性的自動化快速編寫。這個過程中，解決了一系列模型RAG指令不遵從、檢索準确度不滿足業務要求等問題。

目前，華為的LLM輔助測試自動化代碼生成項目已經進入實用階段，覆寫了60+産品，使用者量達到2700多人。分享最後他介紹了這個過程中的一些經驗教訓：LLM輔助測試項目需要AI專家、業務專家、工具團隊多角色配合，缺一不可；技術不會一下子完美，一定要根據技術現狀，及時找到業務的獲益價值點；LLM項目與以往的确定性項目不同，需要管理好業務測試人員和主管的預期。

《大模型測試之技術探索與範式》

位元組跳動工程效能開發專家陳柳杉以《大模型測試之技術探索與範式》為題，介紹了對于AI輔助測試的整體規劃思路：建構一個覆寫研發端到端的全鍊路智能化品質保障體系。針對研發從需求到開發、測試、部署、運維的各個階段，規劃開發相應的LLM輔助應用價值場景。針對這些場景需要的公共能力，如需求了解、代碼了解等，構築統一的原子服務層；為構築這些原子能力，需要構築模型層承擔不同模型的接入，基于這些模型優化和評估的公共能力，如調優、RAG、Prompt、自動化評估等；同時構築統一的資料層，以研發數字化為基礎，構築模型應用所需的統一資料湖。在這個統一架構的支撐下，進一步描述通過實踐總結的LLM應用統一範式，包括模型能力優化、模型能力評估、模型上線評估等。并對于如何針對不同類型的知識進行模型能力優化進行了詳細闡述。接下來，以大模型輔助單元測試生成應用為執行個體，詳細闡述了上述範式的具體應用。包括調優、RAG、Prompt工程、Agent的建構思路、評估中名額設定遇到的問題等，并具體描述了該應用的目前部署方式，以及在業務上産生的效果。這個分享有案例，有總結，對于目前的LLM賦能測試應用的開發，有很好的借鑒價值。

《大模型驅動的手工測試用例生成的探索與實踐》

百度資深工程師張克鵬分享了《大模型驅動的手工測試用例生成的探索與實踐》，闡述了百度AI賦能測試項目的整體驅動、目标和思路。接着詳細分析了LLM輔助測試用例生成場景的開展過程。首先針對根據需求輸入的情況，分為短需求和長需求。針對明确、相對簡單的需求，通過大模型的一次泛化，直接生成測試用例；對于相對複雜的需求，首先提取測試點，人工确認後，進一步通過測試點生成測試用例；對于篇幅大的長需求，通過大模型進行需求拆解，進一步按照前面短需求的處理方式，直接輸出用例，或者通過生成測試點生成用例。對于網際網路經常存在的不完善需求，在大模型輔助下，智能識别需要補充的需求點，進行需求完善後，進一步自動生成測試用例；通過兩個不同類型的典型項目的實際案例分析，分享了大模型輔助測試代碼生成中，如何結合不同業務的具體特點，進行價值點識别和大模型應用場景落地。并分析了大模型落地前後，從QA視角感覺到的業務變化和效率提升。最後，分享了針對大模型輔助測試用例生成确定的觀測名額體系，以及相應名額目前的業務效果：已在200+産品落地，整體采納率40%，部分使用私域知識的團隊可以達到60%；生成用例占比可以達到50%。最後分享了目前仍存在的一些技術難題，以及後續的改進方向，包括富文本、表格等多模态資訊的識别等。

互動環節，各位參會者對分享的相關内容進行了踴躍提問，如“單元測試生成中，模型如何判斷函數輸出的值是否正确？給出正确的斷言”、“如果函數的執行結果和界面相關，如何判斷界面變化的正确性”、“大模型賦能測試落地中，對測試人員需要的能力提升”等問題。各位嘉賓根據分享的主題内容進行了詳細的答疑解惑。

活動預告

期數	日期	所屬SIG	主題	形式
TF137	7月6日	工程師文化	AI時代的工程師	線下（北京）
TF140	7月18日	算法與AI SIG	AI for Science	線上

關于CCF TF

CCF TF技術前線（Tech Frontier）創立于2017年6月，旨在為工程師提供頂級交流平台，更好地服務企業界計算機專業人士，幫助企業界專業技術人士職業發展，通過搭建平台實作常态化合作和發展，促進企業間、學術界與企業間技術交流。目前已組建知識圖譜、資料科學、智能制造、架構、安全、智能裝置與互動、數字化轉型與企業架構、算法與AI、智能前端、工程師文化、研發效能、品質工程等十二個SIG（Special Interest Group），提供豐富的技術前線内容分享。

加入CCF

加入CCF會員享受更多超值活動，為自己的技術成長做一次好投資。

點選連結了解更多會員權益：

CCF個人會員權益 CCF公司會員權益

識别或掃碼入會

歡迎關注CCFTF及CCF業務總部公衆号，精彩陸續開啟！

關注CCFTF擷取TF活動資訊

關注CCF業務總部優惠預定會議場地

CCF推薦

【精品文章】

2024年TF活動正式啟動！一鍵解鎖全年計劃

大語言模型，如何賦能測試？| TF136回顧

繼續閱讀

三角洲行動pc端測試資格擷取手把手教你擷取三角洲行動測試資格

實測國産大模型訊飛星火V4.0: 基座能力“打底”, 個人空間“探高”

訊飛星火大模型企業智能體平台釋出，打造每個崗位專屬助手

三句話，我讓NAS幫我寫好了前端代碼！大模型的多樣用法

DI-engine強化學習入門（十）如何使用RNN——模型建構和包裝

軟體測試學習筆記丨JUnit5動态測試規則

BIM三維模型！名企項目鋼結構金獎彙報資料，新工藝，新亮點！

心理測試:你喜歡哪棵文竹盆栽，測測你的智慧之光有多高

心理測試:選擇一杯酒，測測你潛意識裡好惹嗎

人工智能大語言模型技術發展研究報告（2024年）

心理測試:準哭！你最想喝哪杯咖啡？測出有幾個人偷偷愛着你

新京報釋出中國AI大模型測評報告，9款大模型長文本能力待提升

紅魔9S Pro：遊戲AI大模型引領電競新紀元！

愛動超越耀眼登場| 成功入選2024人工智能大模型場景應用典型案例

Meta 推出文生 3D 模型「重磅炸彈」，一秒生成 3D 素材

紮克伯格：标榜最大、最快的大模型沒意義，Llama4将提升推理能力