大语言模型，如何赋能测试？| TF136回顾

2024年6月27日，CCF TF迎来了第136期活动，主题为“大语言模型，如何赋能测试？”。本次活动由CCF TF质量工程SIG策划呈现，邀请到了来自华为、百度、字节等业界领军企业的资深技术专家，带来关于大语言模型在测试领域应用的深度见解和最新实践。分享的内容精彩纷呈、讨论热烈、听众反馈积极。活动以线上直播的形式进行，通过腾讯会议平台和CCF视频号“中国计算机学会”同步直播，吸引了众多专业人士的参与。本文将回顾本次活动的精彩内容和深刻见解。

CCF TF

CCF TF活动相关专家报告均收录在CCF数字图书馆【TF专辑】，欢迎长按识别，回看精彩分享。本期活动报告也将于近日收录，欢迎回顾！

在大语言模型时代，测试领域相较于软件行业其他领域展现出了更多的先天优势。测试行业拥有丰富的数字化资产，包括测试策略、测试方案、测试用例、自动化脚本、海量的问题单以及执行记录等。这些资产之间存在天然的对应关系，例如测试自动化脚本中，很容易获取到测试步骤（文本描述）与测试代码的关联关系。所有这些，为LLM对测试的赋能提供了丰富的原始语料。

此外，LLM的出现显著降低了AI在测试领域的应用门槛，为技术升级带来了宝贵的机遇。尽管AI赋能测试已发展多年，但AI专家与业务专家之间的知识壁垒一直是一大挑战。LLM的引入简化了这一过程，在许多场景下，无需复杂的训练，通过简单的提示（prompt）即可实现初步的领域应用，例如智能生成测试数据，对测试点的提示与补充等。

实践中我们也发现，虽然有众多有利条件，但LLM在测试业务领域要想产生系统性的业务价值，也并非易事。一旦深入到特定业务领域，就会遇到：SFT的高成本与幻觉、RAG过程中面向真实意图的高质量检索、数据语料的质量，以及管理者和用户的期望和LLM能力之间的矛盾等诸多挑战。

《大模型辅助测试自动化代码生成实践经验与教训》

来自华为数据存储首席测试专家高广达分享的主题是《大模型辅助测试自动化代码生成实践经验与教训》，首先介绍了LLM辅助测试自动化代码生成作为LLM落地首选突破点的考虑初衷和业务价值。接着介绍了整个项目的探索过程。第一阶段-老特性自动化防护网补齐。通过对已有测试自动化脚本的清洗，获得测试步骤-测试代码pair对，以此为语料，通过SFT实现基于内部代码大模型的调优。在这个过程中，遇到了语料质量标准和检查，对业务上下文的区分等众多问题。通过得到的测试代码大模型，对于同类特性的测试自动化代码生成，可以达到较好的效果。但使用SFT的问题，是成本高，训练周期长，一个新项目从语料提交模型团队训练，到能用来生成新项目的自动化脚本，需要较长的时间，无法满足新特性自动化快速编写的需求。项目团队通过分析，在业务实际中找到了老特性自动化防护网补齐场景，为这个阶段的技术找到合适的业务应用价值。为了解决新特性的自动化诉求，通过RAG，实现新特性语料分钟级入知识库，通过检索增强生成，可以支撑业务新特性的自动化快速编写。这个过程中，解决了一系列模型RAG指令不遵从、检索准确度不满足业务要求等问题。

目前，华为的LLM辅助测试自动化代码生成项目已经进入实用阶段，覆盖了60+产品，用户量达到2700多人。分享最后他介绍了这个过程中的一些经验教训：LLM辅助测试项目需要AI专家、业务专家、工具团队多角色配合，缺一不可；技术不会一下子完美，一定要根据技术现状，及时找到业务的获益价值点；LLM项目与以往的确定性项目不同，需要管理好业务测试人员和主管的预期。

《大模型测试之技术探索与范式》

字节跳动工程效能开发专家陈柳杉以《大模型测试之技术探索与范式》为题，介绍了对于AI辅助测试的整体规划思路：构建一个覆盖研发端到端的全链路智能化质量保障体系。针对研发从需求到开发、测试、部署、运维的各个阶段，规划开发相应的LLM辅助应用价值场景。针对这些场景需要的公共能力，如需求理解、代码理解等，构筑统一的原子服务层；为构筑这些原子能力，需要构筑模型层承担不同模型的接入，基于这些模型优化和评估的公共能力，如调优、RAG、Prompt、自动化评估等；同时构筑统一的数据层，以研发数字化为基础，构筑模型应用所需的统一数据湖。在这个统一框架的支撑下，进一步描述通过实践总结的LLM应用统一范式，包括模型能力优化、模型能力评估、模型上线评估等。并对于如何针对不同类型的知识进行模型能力优化进行了详细阐述。接下来，以大模型辅助单元测试生成应用为实例，详细阐述了上述范式的具体应用。包括调优、RAG、Prompt工程、Agent的构建思路、评估中指标设置遇到的问题等，并具体描述了该应用的当前部署方式，以及在业务上产生的效果。这个分享有案例，有总结，对于当前的LLM赋能测试应用的开发，有很好的借鉴价值。

《大模型驱动的手工测试用例生成的探索与实践》

百度资深工程师张克鹏分享了《大模型驱动的手工测试用例生成的探索与实践》，阐述了百度AI赋能测试项目的整体驱动、目标和思路。接着详细分析了LLM辅助测试用例生成场景的开展过程。首先针对根据需求输入的情况，分为短需求和长需求。针对明确、相对简单的需求，通过大模型的一次泛化，直接生成测试用例；对于相对复杂的需求，首先提取测试点，人工确认后，进一步通过测试点生成测试用例；对于篇幅大的长需求，通过大模型进行需求拆解，进一步按照前面短需求的处理方式，直接输出用例，或者通过生成测试点生成用例。对于互联网经常存在的不完善需求，在大模型辅助下，智能识别需要补充的需求点，进行需求完善后，进一步自动生成测试用例；通过两个不同类型的典型项目的实际案例分析，分享了大模型辅助测试代码生成中，如何结合不同业务的具体特点，进行价值点识别和大模型应用场景落地。并分析了大模型落地前后，从QA视角感觉到的业务变化和效率提升。最后，分享了针对大模型辅助测试用例生成确定的观测指标体系，以及相应指标目前的业务效果：已在200+产品落地，整体采纳率40%，部分使用私域知识的团队可以达到60%；生成用例占比可以达到50%。最后分享了当前仍存在的一些技术难题，以及后续的改进方向，包括富文本、表格等多模态信息的识别等。

互动环节，各位参会者对分享的相关内容进行了踊跃提问，如“单元测试生成中，模型如何判断函数输出的值是否正确？给出正确的断言”、“如果函数的执行结果和界面相关，如何判断界面变化的正确性”、“大模型赋能测试落地中，对测试人员需要的能力提升”等问题。各位嘉宾根据分享的主题内容进行了详细的答疑解惑。

活动预告

期数	日期	所属SIG	主题	形式
TF137	7月6日	工程师文化	AI时代的工程师	线下（北京）
TF140	7月18日	算法与AI SIG	AI for Science	线上

关于CCF TF

CCF TF技术前线（Tech Frontier）创立于2017年6月，旨在为工程师提供顶级交流平台，更好地服务企业界计算机专业人士，帮助企业界专业技术人士职业发展，通过搭建平台实现常态化合作和发展，促进企业间、学术界与企业间技术交流。目前已组建知识图谱、数据科学、智能制造、架构、安全、智能设备与交互、数字化转型与企业架构、算法与AI、智能前端、工程师文化、研发效能、质量工程等十二个SIG（Special Interest Group），提供丰富的技术前线内容分享。

加入CCF

加入CCF会员享受更多超值活动，为自己的技术成长做一次好投资。

点击链接了解更多会员权益：

CCF个人会员权益 CCF公司会员权益

识别或扫码入会

欢迎关注CCFTF及CCF业务总部公众号，精彩陆续开启！

关注CCFTF获取TF活动资讯

关注CCF业务总部优惠预定会议场地

CCF推荐

【精品文章】

2024年TF活动正式启动！一键解锁全年计划

大语言模型，如何赋能测试？| TF136回顾

继续阅读

三角洲行动pc端测试资格获取手把手教你获取三角洲行动测试资格

实测国产大模型讯飞星火V4.0: 基座能力“打底”, 个人空间“探高”

讯飞星火大模型企业智能体平台发布，打造每个岗位专属助手

三句话，我让NAS帮我写好了前端代码！大模型的多样用法

DI-engine强化学习入门（十）如何使用RNN——模型构建和包装

软件测试学习笔记丨JUnit5动态测试规则

BIM三维模型！名企项目钢结构金奖汇报资料，新工艺，新亮点！

心理测试:你喜欢哪棵文竹盆栽，测测你的智慧之光有多高

心理测试:选择一杯酒，测测你潜意识里好惹吗

人工智能大语言模型技术发展研究报告（2024年）

心理测试:准哭！你最想喝哪杯咖啡？测出有几个人偷偷爱着你

新京报发布中国AI大模型测评报告，9款大模型长文本能力待提升

红魔9S Pro：游戏AI大模型引领电竞新纪元！

爱动超越耀眼登场| 成功入选2024人工智能大模型场景应用典型案例

Meta 推出文生 3D 模型「重磅炸弹」，一秒生成 3D 素材

扎克伯格：标榜最大、最快的大模型没意义，Llama4将提升推理能力