天天看點

大語言模型,如何賦能測試?| TF136回顧

作者:CCFvoice

2024年6月27日,CCF TF迎來了第136期活動,主題為“大語言模型,如何賦能測試?”。本次活動由CCF TF品質工程SIG策劃呈現,邀請到了來自華為、百度、位元組等業界領軍企業的資深技術專家,帶來關于大語言模型在測試領域應用的深度見解和最新實踐。分享的内容精彩紛呈、讨論熱烈、聽衆回報積極。活動以線上直播的形式進行,通過騰訊會議平台和CCF視訊号“中國計算機學會”同步直播,吸引了衆多專業人士的參與。本文将回顧本次活動的精彩内容和深刻見解。

CCF TF

CCF TF活動相關專家報告均收錄在CCF數字圖書館【TF專輯】,歡迎長按識别,回看精彩分享。本期活動報告也将于近日收錄,歡迎回顧!

在大語言模型時代,測試領域相較于軟體行業其他領域展現出了更多的先天優勢。測試行業擁有豐富的數字化資産,包括測試政策、測試方案、測試用例、自動化腳本、海量的問題單以及執行記錄等。這些資産之間存在天然的對應關系,例如測試自動化腳本中,很容易擷取到測試步驟(文本描述)與測試代碼的關聯關系。所有這些,為LLM對測試的賦能提供了豐富的原始語料。

此外,LLM的出現顯著降低了AI在測試領域的應用門檻,為技術更新帶來了寶貴的機遇。盡管AI賦能測試已發展多年,但AI專家與業務專家之間的知識壁壘一直是一大挑戰。LLM的引入簡化了這一過程,在許多場景下,無需複雜的訓練,通過簡單的提示(prompt)即可實作初步的領域應用,例如智能生成測試資料,對測試點的提示與補充等。

實踐中我們也發現,雖然有衆多有利條件,但LLM在測試業務領域要想産生系統性的業務價值,也并非易事。一旦深入到特定業務領域,就會遇到:SFT的高成本與幻覺、RAG過程中面向真實意圖的高品質檢索、資料語料的品質,以及管理者和使用者的期望和LLM能力之間的沖突等諸多挑戰。

《大模型輔助測試自動化代碼生成實踐經驗與教訓》

來自華為資料存儲首席測試專家高廣達分享的主題是《大模型輔助測試自動化代碼生成實踐經驗與教訓》,首先介紹了LLM輔助測試自動化代碼生成作為LLM落地首選突破點的考慮初衷和業務價值。接着介紹了整個項目的探索過程。第一階段-老特性自動化防護網補齊。通過對已有測試自動化腳本的清洗,獲得測試步驟-測試代碼pair對,以此為語料,通過SFT實作基于内部代碼大模型的調優。在這個過程中,遇到了語料品質标準和檢查,對業務上下文的區分等衆多問題。通過得到的測試代碼大模型,對于同類特性的測試自動化代碼生成,可以達到較好的效果。但使用SFT的問題,是成本高,訓練周期長,一個新項目從語料送出模型團隊訓練,到能用來生成新項目的自動化腳本,需要較長的時間,無法滿足新特性自動化快速編寫的需求。項目團隊通過分析,在業務實際中找到了老特性自動化防護網補齊場景,為這個階段的技術找到合适的業務應用價值。為了解決新特性的自動化訴求,通過RAG,實作新特性語料分鐘級入知識庫,通過檢索增強生成,可以支撐業務新特性的自動化快速編寫。這個過程中,解決了一系列模型RAG指令不遵從、檢索準确度不滿足業務要求等問題。

目前,華為的LLM輔助測試自動化代碼生成項目已經進入實用階段,覆寫了60+産品,使用者量達到2700多人。分享最後他介紹了這個過程中的一些經驗教訓:LLM輔助測試項目需要AI專家、業務專家、工具團隊多角色配合,缺一不可;技術不會一下子完美,一定要根據技術現狀,及時找到業務的獲益價值點;LLM項目與以往的确定性項目不同,需要管理好業務測試人員和主管的預期。

大語言模型,如何賦能測試?| TF136回顧

《大模型測試之技術探索與範式》

位元組跳動工程效能開發專家陳柳杉以《大模型測試之技術探索與範式》為題,介紹了對于AI輔助測試的整體規劃思路:建構一個覆寫研發端到端的全鍊路智能化品質保障體系。針對研發從需求到開發、測試、部署、運維的各個階段,規劃開發相應的LLM輔助應用價值場景。針對這些場景需要的公共能力,如需求了解、代碼了解等,構築統一的原子服務層;為構築這些原子能力,需要構築模型層承擔不同模型的接入,基于這些模型優化和評估的公共能力,如調優、RAG、Prompt、自動化評估等;同時構築統一的資料層,以研發數字化為基礎,構築模型應用所需的統一資料湖。在這個統一架構的支撐下,進一步描述通過實踐總結的LLM應用統一範式,包括模型能力優化、模型能力評估、模型上線評估等。并對于如何針對不同類型的知識進行模型能力優化進行了詳細闡述。接下來,以大模型輔助單元測試生成應用為執行個體,詳細闡述了上述範式的具體應用。包括調優、RAG、Prompt工程、Agent的建構思路、評估中名額設定遇到的問題等,并具體描述了該應用的目前部署方式,以及在業務上産生的效果。這個分享有案例,有總結,對于目前的LLM賦能測試應用的開發,有很好的借鑒價值。

大語言模型,如何賦能測試?| TF136回顧

《大模型驅動的手工測試用例生成的探索與實踐》

百度資深工程師張克鵬分享了《大模型驅動的手工測試用例生成的探索與實踐》,闡述了百度AI賦能測試項目的整體驅動、目标和思路。接着詳細分析了LLM輔助測試用例生成場景的開展過程。首先針對根據需求輸入的情況,分為短需求和長需求。針對明确、相對簡單的需求,通過大模型的一次泛化,直接生成測試用例;對于相對複雜的需求,首先提取測試點,人工确認後,進一步通過測試點生成測試用例;對于篇幅大的長需求,通過大模型進行需求拆解,進一步按照前面短需求的處理方式,直接輸出用例,或者通過生成測試點生成用例。對于網際網路經常存在的不完善需求,在大模型輔助下,智能識别需要補充的需求點,進行需求完善後,進一步自動生成測試用例;通過兩個不同類型的典型項目的實際案例分析,分享了大模型輔助測試代碼生成中,如何結合不同業務的具體特點,進行價值點識别和大模型應用場景落地。并分析了大模型落地前後,從QA視角感覺到的業務變化和效率提升。最後,分享了針對大模型輔助測試用例生成确定的觀測名額體系,以及相應名額目前的業務效果:已在200+産品落地,整體采納率40%,部分使用私域知識的團隊可以達到60%;生成用例占比可以達到50%。最後分享了目前仍存在的一些技術難題,以及後續的改進方向,包括富文本、表格等多模态資訊的識别等。

大語言模型,如何賦能測試?| TF136回顧

互動環節,各位參會者對分享的相關内容進行了踴躍提問,如“單元測試生成中,模型如何判斷函數輸出的值是否正确?給出正确的斷言”、“如果函數的執行結果和界面相關,如何判斷界面變化的正确性”、“大模型賦能測試落地中,對測試人員需要的能力提升”等問題。各位嘉賓根據分享的主題内容進行了詳細的答疑解惑。

活動預告

期數 日期 所屬SIG 主題 形式
TF137 7月6日 工程師文化 AI時代的工程師 線下(北京)
TF140 7月18日 算法與AI SIG AI for Science 線上

關于CCF TF

CCF TF技術前線(Tech Frontier)創立于2017年6月,旨在為工程師提供頂級交流平台,更好地服務企業界計算機專業人士,幫助企業界專業技術人士職業發展,通過搭建平台實作常态化合作和發展,促進企業間、學術界與企業間技術交流。目前已組建知識圖譜、資料科學、智能制造、架構、安全、智能裝置與互動、數字化轉型與企業架構、算法與AI、智能前端、工程師文化、研發效能、品質工程等十二個SIG(Special Interest Group),提供豐富的技術前線内容分享。

加入CCF

加入CCF會員享受更多超值活動,為自己的技術成長做一次好投資。

點選連結了解更多會員權益:

CCF個人會員權益 CCF公司會員權益

識别或掃碼入會

歡迎關注CCFTF及CCF業務總部公衆号,精彩陸續開啟!

關注CCFTF擷取TF活動資訊

關注CCF業務總部優惠預定會議場地

CCF推薦

【精品文章】

  • 2024年TF活動正式啟動!一鍵解鎖全年計劃

繼續閱讀