天天看点

大语言模型,如何赋能测试?| TF136回顾

作者:CCFvoice

2024年6月27日,CCF TF迎来了第136期活动,主题为“大语言模型,如何赋能测试?”。本次活动由CCF TF质量工程SIG策划呈现,邀请到了来自华为、百度、字节等业界领军企业的资深技术专家,带来关于大语言模型在测试领域应用的深度见解和最新实践。分享的内容精彩纷呈、讨论热烈、听众反馈积极。活动以线上直播的形式进行,通过腾讯会议平台和CCF视频号“中国计算机学会”同步直播,吸引了众多专业人士的参与。本文将回顾本次活动的精彩内容和深刻见解。

CCF TF

CCF TF活动相关专家报告均收录在CCF数字图书馆【TF专辑】,欢迎长按识别,回看精彩分享。本期活动报告也将于近日收录,欢迎回顾!

在大语言模型时代,测试领域相较于软件行业其他领域展现出了更多的先天优势。测试行业拥有丰富的数字化资产,包括测试策略、测试方案、测试用例、自动化脚本、海量的问题单以及执行记录等。这些资产之间存在天然的对应关系,例如测试自动化脚本中,很容易获取到测试步骤(文本描述)与测试代码的关联关系。所有这些,为LLM对测试的赋能提供了丰富的原始语料。

此外,LLM的出现显著降低了AI在测试领域的应用门槛,为技术升级带来了宝贵的机遇。尽管AI赋能测试已发展多年,但AI专家与业务专家之间的知识壁垒一直是一大挑战。LLM的引入简化了这一过程,在许多场景下,无需复杂的训练,通过简单的提示(prompt)即可实现初步的领域应用,例如智能生成测试数据,对测试点的提示与补充等。

实践中我们也发现,虽然有众多有利条件,但LLM在测试业务领域要想产生系统性的业务价值,也并非易事。一旦深入到特定业务领域,就会遇到:SFT的高成本与幻觉、RAG过程中面向真实意图的高质量检索、数据语料的质量,以及管理者和用户的期望和LLM能力之间的矛盾等诸多挑战。

《大模型辅助测试自动化代码生成实践经验与教训》

来自华为数据存储首席测试专家高广达分享的主题是《大模型辅助测试自动化代码生成实践经验与教训》,首先介绍了LLM辅助测试自动化代码生成作为LLM落地首选突破点的考虑初衷和业务价值。接着介绍了整个项目的探索过程。第一阶段-老特性自动化防护网补齐。通过对已有测试自动化脚本的清洗,获得测试步骤-测试代码pair对,以此为语料,通过SFT实现基于内部代码大模型的调优。在这个过程中,遇到了语料质量标准和检查,对业务上下文的区分等众多问题。通过得到的测试代码大模型,对于同类特性的测试自动化代码生成,可以达到较好的效果。但使用SFT的问题,是成本高,训练周期长,一个新项目从语料提交模型团队训练,到能用来生成新项目的自动化脚本,需要较长的时间,无法满足新特性自动化快速编写的需求。项目团队通过分析,在业务实际中找到了老特性自动化防护网补齐场景,为这个阶段的技术找到合适的业务应用价值。为了解决新特性的自动化诉求,通过RAG,实现新特性语料分钟级入知识库,通过检索增强生成,可以支撑业务新特性的自动化快速编写。这个过程中,解决了一系列模型RAG指令不遵从、检索准确度不满足业务要求等问题。

目前,华为的LLM辅助测试自动化代码生成项目已经进入实用阶段,覆盖了60+产品,用户量达到2700多人。分享最后他介绍了这个过程中的一些经验教训:LLM辅助测试项目需要AI专家、业务专家、工具团队多角色配合,缺一不可;技术不会一下子完美,一定要根据技术现状,及时找到业务的获益价值点;LLM项目与以往的确定性项目不同,需要管理好业务测试人员和主管的预期。

大语言模型,如何赋能测试?| TF136回顾

《大模型测试之技术探索与范式》

字节跳动工程效能开发专家陈柳杉以《大模型测试之技术探索与范式》为题,介绍了对于AI辅助测试的整体规划思路:构建一个覆盖研发端到端的全链路智能化质量保障体系。针对研发从需求到开发、测试、部署、运维的各个阶段,规划开发相应的LLM辅助应用价值场景。针对这些场景需要的公共能力,如需求理解、代码理解等,构筑统一的原子服务层;为构筑这些原子能力,需要构筑模型层承担不同模型的接入,基于这些模型优化和评估的公共能力,如调优、RAG、Prompt、自动化评估等;同时构筑统一的数据层,以研发数字化为基础,构筑模型应用所需的统一数据湖。在这个统一框架的支撑下,进一步描述通过实践总结的LLM应用统一范式,包括模型能力优化、模型能力评估、模型上线评估等。并对于如何针对不同类型的知识进行模型能力优化进行了详细阐述。接下来,以大模型辅助单元测试生成应用为实例,详细阐述了上述范式的具体应用。包括调优、RAG、Prompt工程、Agent的构建思路、评估中指标设置遇到的问题等,并具体描述了该应用的当前部署方式,以及在业务上产生的效果。这个分享有案例,有总结,对于当前的LLM赋能测试应用的开发,有很好的借鉴价值。

大语言模型,如何赋能测试?| TF136回顾

《大模型驱动的手工测试用例生成的探索与实践》

百度资深工程师张克鹏分享了《大模型驱动的手工测试用例生成的探索与实践》,阐述了百度AI赋能测试项目的整体驱动、目标和思路。接着详细分析了LLM辅助测试用例生成场景的开展过程。首先针对根据需求输入的情况,分为短需求和长需求。针对明确、相对简单的需求,通过大模型的一次泛化,直接生成测试用例;对于相对复杂的需求,首先提取测试点,人工确认后,进一步通过测试点生成测试用例;对于篇幅大的长需求,通过大模型进行需求拆解,进一步按照前面短需求的处理方式,直接输出用例,或者通过生成测试点生成用例。对于互联网经常存在的不完善需求,在大模型辅助下,智能识别需要补充的需求点,进行需求完善后,进一步自动生成测试用例;通过两个不同类型的典型项目的实际案例分析,分享了大模型辅助测试代码生成中,如何结合不同业务的具体特点,进行价值点识别和大模型应用场景落地。并分析了大模型落地前后,从QA视角感觉到的业务变化和效率提升。最后,分享了针对大模型辅助测试用例生成确定的观测指标体系,以及相应指标目前的业务效果:已在200+产品落地,整体采纳率40%,部分使用私域知识的团队可以达到60%;生成用例占比可以达到50%。最后分享了当前仍存在的一些技术难题,以及后续的改进方向,包括富文本、表格等多模态信息的识别等。

大语言模型,如何赋能测试?| TF136回顾

互动环节,各位参会者对分享的相关内容进行了踊跃提问,如“单元测试生成中,模型如何判断函数输出的值是否正确?给出正确的断言”、“如果函数的执行结果和界面相关,如何判断界面变化的正确性”、“大模型赋能测试落地中,对测试人员需要的能力提升”等问题。各位嘉宾根据分享的主题内容进行了详细的答疑解惑。

活动预告

期数 日期 所属SIG 主题 形式
TF137 7月6日 工程师文化 AI时代的工程师 线下(北京)
TF140 7月18日 算法与AI SIG AI for Science 线上

关于CCF TF

CCF TF技术前线(Tech Frontier)创立于2017年6月,旨在为工程师提供顶级交流平台,更好地服务企业界计算机专业人士,帮助企业界专业技术人士职业发展,通过搭建平台实现常态化合作和发展,促进企业间、学术界与企业间技术交流。目前已组建知识图谱、数据科学、智能制造、架构、安全、智能设备与交互、数字化转型与企业架构、算法与AI、智能前端、工程师文化、研发效能、质量工程等十二个SIG(Special Interest Group),提供丰富的技术前线内容分享。

加入CCF

加入CCF会员享受更多超值活动,为自己的技术成长做一次好投资。

点击链接了解更多会员权益:

CCF个人会员权益 CCF公司会员权益

识别或扫码入会

欢迎关注CCFTF及CCF业务总部公众号,精彩陆续开启!

关注CCFTF获取TF活动资讯

关注CCF业务总部优惠预定会议场地

CCF推荐

【精品文章】

  • 2024年TF活动正式启动!一键解锁全年计划

继续阅读