GPT是“Generative Pre-trained Transformer”生成型预训练变换模型的缩写,目的是为了使用深度学习生成人类可以理解的自然语言。目前讨论的GPT一般指的是GPT-3, GPT-3由人工智能公司OpenAI训练与开发,该模型设计基于谷歌开发的变换语言模型。ChatGPT可以理解为是一个通用聊天机器人。根据 OpenAI 的说法,GPT-3.5通过吸收大量来自网络的内容,包括成千上万的维基百科条目、社交媒体帖子和新闻文章,来学习句子、单词和部分单词之间的关系,除了能写代码、剧本并进行词曲创作,还可与人类对答如流,推出后被誉为人工智能的旷世巨作。ChatGPT是史上用户增长速度最快的消费级应用程序。推出仅两个月后,ChatGPT在2023年1月末的月活用户已突破1亿。
产业链上游方面算力、数据标注、自然语言处理、人工智能生成内容需求等有望被带。根据相关机构,由于ChatGPT主要基于自然语言处理,因此在自然语言处理领域沉淀较多的企业,有望率先实现功能的部分复,对于大陆人工智能技术和产业发展做出了示范,代表着目前国际前沿人工智能技术的快速发展,并且人工智能的商业化图景也越来越清晰。ChatGPT主要基于自然语言处理,因此在自然语言处理领域沉淀较多的企业,有望率先实现功能的部分复现。随着人工智能技术的快速发展,人工智能技术提供商,特别是自然语言处理头部厂商将率先受益。作为人工智能领域中的重要一环,自然语言处理技术的进步推动着人工智能向认知智能演进。
据估计2022中国NLP市场保持30%以上的增速,市场规模达174.5亿元。在新业态不断涌现,虚拟人市场、人机交互需求日益扩大的背景下,预计自2026年起,NLP市场将保持35%以上的增速,到2028年,中国NLP市场规模将超过千亿元,到2030年,市场规模将超过2千亿元,2022-2030年均复合增长率达到36.5%。
大陆数据标注行业处于高速发展阶段
数据标注就是对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作,为待标注数据增加标签,生成满足机器学习训练要求的机器可读数据编码。数据标注是人工智能技术的底层支撑,是大部分人工智能算法得以有效运行的关键环节。在ChatGPT训练的三个阶段中,只有第三阶段不需要使用人工标注数据,第一、第二阶段都需要大量的人工标注,数据标注以人工标注为主,属于劳动密集型产业,随着机器学习不断完善,自动标注成为大趋势。下游应用场景的拓展与大模型的快速发展也将有力地推动行业上游发展数据标注的需求都将大幅增加。
ChatGPT 在参数规模上已经达到了千亿级别,对于AI 大模型而言,不论是训练还是推理,对于数据标注有着极大的需求。2019年,数据标注行业市场规模为30.9亿元,到2020年行业市场规模突破36亿元,预计2025年市场规模将突破100亿元,说明大陆数据标注行业处于高速发展阶段。目前的人工智能(有监督机器学习)由标注数据驱动,可以说标注数据是人工智能的血液。随着人工智能成为国家发展战略,其势头锐不可挡。
人工智能行业的蓬勃发展,对数据的需求呈井喷式增长,数据标注行业是伴随着人工智能的兴起而产生的一个新兴行业。目前,大陆国内市场越来越多的互联网巨头公司开始组建自己的数据标注平台,京东(京东众智)、百度(百度众测)都已经拥有自己的标注平台和工具。头部公司之外,国内近年兴起众多数据标注公司,如龙猫数据、Testin云测、倍赛BasicFinder、数据堂等,这些公司仅次于第一梯队,都具有相当的规模。