一、 人工智能数据治理概念界定
(一) 数据治理的发展
数据治理的概念起源于企业管理领域,关于数据治理的定义研究众多,但由于业界权威研究机构、研究学者以及国内外标准组织研究视角不同,尚未形成较为统一的认知。
国际数据治理研究所(DGI)提出数据治理的定义为“一个根据既定模型针对信息相关过程的决策权和职责分配体系”。
梅宏院士在《数据治理之论》一书中提出数据治理的核心内容包括以释放数据价值为目标、以数据资产地位确立为基础、以数据管理体制为核心、以数据共享开放利用为重点、以数据安全与隐私保护为底线。
国际数据管理协会(DAMA)提出的数据治理概念为“在管理数据资产过程中行使权力和管控活动,包括计划、监控和实施。
结合通用场景下数据治理定义的特征来看,数据治理的核心治理内容主要围绕数据质量、数据安全、数据合规等内容展开,强调要围绕治理内容进行统筹协调、权责分配、资源调度等。
2. 数据治理的三个阶段
第一阶段,20 世纪 80 年代,随着数据库技术的发展,企业开始意识到数据的重要性。但当时数据管理主要依靠数据库管理系统(DBMS),直到 1988 年由麻省理工学院的两位教授启动了全面数据质量管理计划(TDQM),可以认为是数据治理最初的雏形。
第二阶段,伴随着数据仓库的建设,主数据管理与商务智能平台的实施,国内也逐步开始接受并利用数据治理的概念进行推广实践。
第三阶段,21 世纪 20 年代,以大模型为代表的生成式模型成为推动人工智能发展的重要驱动力。大模型的兴起对数据治理提出了新的挑战和需求。
3. 大模型时代数据治理的难题
1) 数据“高量低质”
数据是人工智能技术的基石,是大模型训练和推断的原材料已成为共识。然而,数据的数量和质量并不总是成正比。
2) 安全与隐私泄露频发
随着大模型对数据的依赖性日益增强,数据安全和隐私保护已成为核心问题。
3) 偏见与歧视随处可见
在科技飞速发展的背景下,人工智能伦理和道德的关注程度及应对措施尚未完全跟上技术的步伐。自然语言处理技术的滥用案例日益增多。其中包括压制不同意见、侵犯隐私与匿名性等。
(二) 面向人工智能的数据治理的定义
面向人工智能的数据治理(DG4AI,DataGovernance for Artificial Intelligence)是指在人工智能应用中管理和控制数据的过程与实践,用以确保数据的质量、可靠性、安全性与合规性,数据能够被准确地用于训练和部署 AI 模型,同时保护数据的隐私和安全。
(三) 面向人工智能开展数据治理的主要阶段与对象
1. 顶层设计阶段:治理目标:确立数据治理的总体框架和战略目标,确保数据治理与组织的整体战略相匹配。工作重点:根据组织的业务现状、信息化现状、数据现状和 AI 现状,设定组织中各机构和部门的职责、权力的利益,定义符合组织战略目标的整体数据治理目标和可行的行动路径。
2. 数据治理组织保障体系搭建阶段: 治理目标:确保面向 AI 的数据治理得到必要的支持和资源,包括人力、算力、算法、数据、技术和管理等支持。工作重点:分析领导层、管理层、执行层等利益相关方的需求,建立健全面向 AI 数据治理的相关管理制度和标准,并基于数据治理所需的专项能力和业务价值目标构建支持面向 AI 的数据治理体系。
3. 数据治理工程建设阶段:治理目标:基于数据战略目标,结合 AI 数据治理的特点,制定并执行数据治理实施计划,确保数据治理能够按照既定目标和流程进行。工作重点:包括数据收集、数据预处理/清洗、特征工程、数据标注、数据划分、数据增强、模型训练、模型验证与测试、模型推理等实施步骤
4. 数据治理运营优化与 AI 应用融合阶段:治理目标:提升 AI 应用的规模化落地效果,实现数据治理与 AI 应用的良性互动。进一步,形成数据治理与 AI 应用相互促进的闭环,实现数据价值的最大化。工作重点:通过数据治理提升 AI 模型的拟合效果,同时利用 AI 技术优化数据治理流程,形成良性闭环系统。
对于人工智能训练和推理的阶段与数据治理对应关系如下:
1) 数据收集阶段:此阶段治理对象包括:结构化数据、非结构化数据、半结构化数据、空间地理数据、时间序列数据等多种模态数据集。数据来源的选择和收集策略直接影响后续的数据质量。数据的有效性和代表性在此阶段就已开始形成。此阶段我们需要保障相关来源的数据量和多样性。
2) 数据预处理/清洗阶段:此阶段数据治理对象是数据收集阶段所采集的多模态数据。此阶段对收集到的数据进行初步处理,去除无关信息,修正错误数据,处理缺失值、异常值、重复值等问题,确保数据质量。数据必须具备高度的质量和准确性,保证训练模型时使用的样本数据能够反映真实世界的情况。
3) 特征工程阶段:此阶段治理对象包括:原始数据集,中间数据和特征变量、标签数据集等。此阶段将原始数据转化为适合机器学习算法使用的特征表示,包括特征提取、特征选择、特征构造等。对于非结构化数据,可能需要进行特征提取,如文本分词、图像特征提取等。特征的选择、构造与转换过程决定了模型能否有效捕捉到数据中的有用信息,特征的质量直接影响模型的表现力和泛化能力。
4) 数据标注阶段:此阶段治理对象主要是标注数据集。对于监督学习任务,需要人工或半自动方式对数据进行标注。高质量的标注数据对于模型的学习至关重要。准确、一致且全面的标注能显著提升模型训练效果。
5) 数据划分阶段:此阶段治理对象主要是训练集、验证集和测试集三类。本阶段将数据集划分为训练集、验证集和测试集,训练集用于训练模型。数据划分阶段的质量治理重点在于保障数据分布和数据平衡,合理地将数据划分为训练集、验证集和测试集,确保每个集合都能代表总体数据分布,有助于避免过拟合或欠拟合。
6) 数据增强阶段:此阶段治理对象主要是合成数据。为了提高模型的泛化能力和应对不平衡数据问题,合成数据是通过模拟或生成技术生成的人工数据,用于模型训练、隐私保护等目的。虽然对合成数据的质量治理不是直接改善原始数据质量,但能间接提高模型对各种情况的适应性和泛化能力。合成数据质量治理包括对合成数据的生成过程、使用限制等方面进行规范和管理
7) 模型训练阶段:此阶段治理对象主要是训练数据。使用高质量的数据训练模型,会得到更准确、稳定的结果。训练过程中,如果数据质量不佳,模型容易学得有偏差或者过拟合。训练数据的数据质量治理重点保障数据的完整性、准确性、一致性、多样性和代表性。
8) 模型验证与测试阶段:此阶段治理对象主要是验证数据和测试数据,包括对抗性样本、稀有事件或者小样本数据等。模型的性能验证和测试依赖于独立的高质量测试集,只有当测试数据具有良好的代表性时,才能准确评估模型在新样本上的真实性能。在模型验证与测试阶段,对数据的要求和活动更加聚焦于检验模型在未知数据上的表现和鲁棒性,确保模型不仅在训练集上表现出色,而且在新的、未见过的数据上也能维持良好的性能。
9) 模型推理阶段:此阶段治理对象主要是推理数据集。在模型推理阶段,除了确保模型自身的性能以外,还要关注用于推理的实时数据的质量,通过一系列的数据处理活动来保证模型在实际应用中的效果和稳定性。推理数据集质量治理的关注点主要包括推理数据集的数据格式兼容性、数据质量监控、数据有效性验证、实时数据更新与维护、在线特征提取与转。
(四) 面向人工智能的数据治理价值
通过在面向人工智能场景下对数据集与数据工程流程进行系统化、标准化的治理,一是能够提高人工智能模型的准确性和可靠性。二是能够缩短人工智能模型的开发周期,降低开发与维护成本。三是能够提升整个 AI 系统的安全水平。此外,这项工作还能够完善对未来全域数据治理理论版图的构建。
(五) 面向人工智能的数据治理原则
标准化原则:人工智能数据治理应具有灵活性、可操作性和实用性,能够被实际应用到数据治理中,通过制定和使用统一的标准、规范和流程并不断迭代完善。这有助于降低数据管理成本,提高数据质量和效率。
透明性原则:人工智能数据治理应该是透明的,运作方式和数据处理过程应该是可解释和可理解的,有助于建立信任和可靠性,并确保合规性。
合规性原则:人工智能数据治理应该符合相关法律法规和行业标准的要求,如隐私法、知识产权法等。
安全性原则:人工智能数据治理应注重数据的安全性,采取适当的安全措施,如加密、访问控制等,以保护敏感数据的机密性和完整性。
负责任原则:人工智能数据治理应该遵循道德和伦理标准,保证对数据和个人隐私的尊重,避免歧视和不公平的结果。
公正性原则:人工智能数据治理应该确保公正和平等的对待所有用户和利益相关方,不偏袒特定群体或个人。
可审计原则:人工智能数据治理应建立审计机制,对数据的收集、存储、处理和使用等过程进行监控和记录,以便及时发现和解决潜在问题。
二、 面向人工智能数据治理的重点工作
数据治理理论已有多年的发展,相关治理逐步趋于完善和成熟。然而,针对人工智能领域的数据治理,由于治理对象与评价方式的特殊性,各方实践仍处于初步探索阶段。本章节我们将从数据质量治理、数据安全与隐私治理、数据伦理治理三方面展开探讨,为人工智能场景下的数据治理工作提供指导。这三大重点工作与传统的数据治理理论过程类似(如 PDCA 循环、安全分级分类等),但鉴于人工智能应用场景的特殊性,其在技术和实施细节上有所差异。
(一) 数据质量治理
推进面向人工智能的数据质量治理是保障人工智能应用高质量、准确、持续可用的重要基础,这要求企业找准人工智能应用建设过程中的数据质量治理需求,把握人工智能数据质量治理与传统数据质量治理的差异,精准识别人工智能数据质量治理的范围和对象,从而帮助企业科学设计人工智能数据质量治理的机制、方法和步骤,建设面向人工智能的全面的数据质量治理技术能力,以良好的数据质量治理实践预防和杜绝数据质量问题,提高人工智能应用的性能和效果。
1. 治理方法
面向人工智能的数据质量治理是确保数据质量对人工智能模型效果的重要保障。数据质量管理贯穿于人工智能研发、管理和应用的整个生命周期,需要建立一套完善的数据质量管理体系,制定相应的数据质量管理制度和流程,并明确各环节的责任和要求。同时,还需要建立有效的数据质量评估和监控机制,以确保数据质量符合要求,为人工智能模型的训练、调优提供高质量、高可信度的数据资源,从而提升模型表现效果。
1) 需求分析与质量目标设定
在面向人工智能的数据治理过程中,数据质量治理始于需求分析与质量目标设定阶段。明确人工智能应用对于数据质量和数量的具体需求,设立针对性的数据质量基准和目标。通过这一系列的数据需求分析与质量目标设定工作,可以为后续的数据清洗、预处理、特征工程、标注和增强等数据质量管理活动提供清晰的方向和依据,确保整个数据治理体系围绕既定目标有序展开,最终提升人工智能模型的性能和稳定性。
2) 制定数据质量管理体系
在面向人工智能的数据治理过程中,制定数据质量标准和规范是极为关键的一环,其主要任务是建立一个全面、严谨的数据质量评价指标体系。通过这样的数据质量标准和规范体系,能够对数据治理过程中的数据进行全方位、多层次的质量评估,指导数据清洗、预处理、标注等活动的开展,进而保障人工智能应用所用数据的质量,推动模型训练和应用效果的提升。
3) 数据源评估及采集
从数据的源头控制好数据质量,让数据“规范化输入、标准化输出”是解决人工智能数据质量问题的关键所在。同时不仅关注数据来源的可靠性,而且考虑数据是否涵盖足够的维度和场景,确保数据来源、质量和多样性。
4) 数据预处理
数据标注与数据增强是数据质量管理活动中不可或缺的部分,它们能够在有限的数据资源基础上,通过创新技术和策略,生成大量高质量的训练数据,有力支撑人工智能模型的高效训练和准确预测。
a. 数据清洗:此阶段聚焦于消除数据中的错误、不完整、不一致和重复等问题。具体措施包括: 缺失值处理:通过填充(如使用平均值、中位数、众数等)、插值或其他方法处理缺失值。 异常值检测与处理:识别并移除或者替换那些明显偏离正常范围的数据点,防止其对模型训练产生不良影响。 数据一致性校验:对同一实体在不同数据源中的记录进行比对和整合,保证数据的一致性。 去重处理:识别并移除非唯一标识的重复数据记录,避免因重复样本导致的模型训练偏差。
b. 数据标注:在某些 AI 任务中,尤其是监督学习场景下,模型需要依赖带有标签的高质量数据进行训练。高质量的数据标注能有效提高模型理解和学习数据的能力,为后续模型训练奠定基础。
c. 数据增强:即使经过精心标注,实际可用的数据量也可能受限,这可能会导致模型过拟合等问题。数据增强技术旨在通过一系列规则或算法人为地扩增训练数据,如在图像识别任务中采用翻转、旋转、裁剪、色彩变换等方式生成新的训练样本;在文本数据上,可通过同义词替换、句式变换等方式生成不同的表达形式。数据增强不仅可以有效扩大训练样本空间,还可以提高模型的泛化能力和鲁棒性,降低过拟合的风险。
5) 特征工程
对已预处理过后的数据,可能仍然存在不满足人工智能需求,其目的是通过对已清洗和预处理过的数据进行深层次的分析和转换,提取、构造出最具价值的特征,以满足后续人工智能模型构建的需求。通过特征工程的实施,可以极大提升数据对于人工智能模型的解释能力和预测能力,进而增强模型的泛化能力和实用性。
6) 数据偏见检测与矫正
在数据治理的过程中,深入挖掘并矫正数据偏见是构建负责任且公平的人工智能系统的基石,有助于避免 AI 应用在社会生活中可能造成的歧视和不公。a. 数据偏见检测:数据偏见检测主要通过统计分析、可视化手段以及特定的偏见评估框架来发现潜在的不公平现象。例如,在分类任务中检查不同群体的误分类率是否存在显著差异,在回归任务中审视因变量预测值是否受无关属性(如性别、种族)的影响过大等。b. 偏见矫正:在发现数据存在偏见后,数据质量管理活动会采取一系列措施来矫正这些偏见,从而提升模型决策的公平性。
7) 常态化数据质量监控
a. 模型训练阶段的数据质量监控:在模型训练前,系统应具备实时数据质量监测功能,对输入的训练数据持续进行完整性、一致性、精确性、及时性等方面的监控。一旦发现数据异常或质量问题,如数据分布突然变化、出现大量缺失值、新增数据格式不合规等情况,应及时触发告警机制,以便快速定位问题源头并采取相应措施进行修复或清洗。只有确保数据质量达到预期标准,才能将其用于模型训练和微调,以期得到精准、可靠且具有泛化能力的 AI 模型。
b. 模型推理阶段的数据质量监控:即使模型进入推理阶段,数据质量监控工作依然不能松懈。对于模型接收的实时或批量推理请求所携带的数据,也需要执行严格的数据质量检查,确保数据格式正确、内容合法、业务逻辑合理,避免无效数据、恶意攻击数据或不符合模型输入规范的数据对模型运行造成干扰或损害。通过实时数据质量监控,能够迅速发现并拦截有问题的数据输入,保障模型推理的稳定性和准确性
8) 持续改进
在面向人工智能的数据治理过程中,数据质量管理活动的持续改进是一个动态迭代、持续优化的过程。不断地总结经验教训,优化数据质量管理的方法和流程,实现数据质量的螺旋式上升,从而为人工智能系统提供更为精准、可靠的数据支撑,推动 AI 技术的健康发展。该过程可能包括:定期复盘过去的数据质量管理活动,总结成效、发现问题,为改进提供方向;提炼经验教训,制度化有效策略并规避同类问题;紧跟 AI 技术发展,优化数据采集、预处理、清洗、标注等环节,提升管理方法和流程的科学性与高效性;密切关注并适时引入新的数据处理与质量管理工具,以应对复杂挑战,提高数据质量,促进 AI 模型训练与应用效果。
2. 治理技术
在面向人工智能的数据治理过程中,数据质量治理涵盖了从数据准备到模型训练、再到模型部署应用的全过程,每个阶段都有相应的数据治理技术来确保数据质量.
数据清洗:数据清洗是数据预处理中的一项基本任务,旨在去除数据中的噪声、异常值和重复信息。随着机器学习和人工智能的发展,数据清洗技术也在不断进步。现在,通过使用自动化工具和机器学习算法,可以更高效地识别和纠正数据中的错误和不一致性,提高数据的质量和可靠性
自动化与智能标注:传统的数据标注方法通常需要大量的人工劳动,成本高昂且耗时。为了解决这个问题,自动化标注技术应运而生。自动化标注使用机器学习算法和计算机视觉技术自动识别和标注数据,大大提高了标注效率并降低了成本。对于某些复杂的数据类型,完全自动化的标注可能无法达到高精度。在这种情况下,交互式标注和可编辑的标注成为一种有效的解决方案。这些方法允许用户对自动标注的结果进行手动编辑和调整,以提高标注的准确性和精度。
特征工程:特征工程是将原始数据转换为特征向量,供机器学习算法使用的技术。随着机器学习和人工智能技术的发展,特征工程技术正朝着自动化和智能化方向发展。通过使用机器学习算法和自然语言处理技术,可以自动识别和转换数据中的特征,提高数据处理的效率和准确性。
数据增强:数据增强是通过生成新的训练样本扩展数据集的技术。在深度学习和计算机视觉领域中,数据增强扮演着重要的角色。通过使用旋转、翻转、裁剪等技术,可以增加数据的多样性和丰富性,从而提高模型的泛化能力。
多模态数据处理和分析:随着多模态数据的普及,数据质量特征工程技术正朝着多模态数据处理和分析方向发展。多模态数据包括文本、图像、音频和视频等多种形式,每种形式都有自己的特征和属性。通过多模态数据处理和分析技术,可以综合利用不同模态的数据,提高数据分析和预测的准确性和可靠性
(二) 数据安全与隐私治理
1. 治理方法
1) 建立数据全生命周期安全监督机制
为确保数据全生命周期的安全性,需建立包含数据采集、处理、存储及输出的全面安全保障机制。这涉及确保数据集多样性与公平性、实施数据处理与加密措施、制定严格的数据使用规定等。在数据治理中,透明度与知情权的保障至关重要,需明确告知用户数据收集目的,并允许用户自主决定是否共享个人信息,增强隐私控制。遵循数据最小化原则,仅收集必要的个人数据,并定期审查清理,以降低隐私风险,确保数据安全。
2) 制定数据集安全风险分类管理体系
为应对人工智能领域的安全挑战,需构建一个基于应用场景、影响范围和风险的分类分级管理体系。该体系应对高风险领域进行定期的数据安全能力评估,并根据风险级别采取差异化的管理策略,实现精细化管理。首先,明确隐私数据的定义和范围,对数据进行等级分类,指导数据使用模块对不同安全等级的数据进行模糊化处理,以降低泄露风险。数据安全管理应贯穿整个数据治理生命周期,通过分类分级为信息安全管理提供指导,帮助制定安全策略和保护措施,确保数据治理全面合规。数据分级还涉及对数据破坏后果的预估和公众危害程度的分析,确保各级数据得到适当保护。其次,建立数据安全管理系统,支持数据分类的增删、搜索和敏感词管理,优化资源分配与共享,增强数据安全意识,引导用户主动保护数据安全。通过这些措施,可以有效地评估和管理数据安全风险,确保数据的安全性和合规性
3) 数据加密
应用先进的加密算法对数据进行加密,确保数据在存储和传输过程中的安全。其次,构建全面的安全管理体系,涵盖安全审计和漏洞扫描等环节,以监测和防御潜在风险。技术层面上,实施坚固的加密技术和身份验证机制,防止未授权访问,增强系统的整体安全性。这些措施共同构成了强化数据安全保障的核心,有效抵御数据泄露和网络攻击。
4) 风险评估
为了确保人工智能模型的安全性和可靠性,需要加强模型评估,以判断其对潜在威胁的反应能力和逃避监管的可能性。这包括评估模型是否具有危险行为的倾向,并验证其行为是否与设计预期相符,同时对模型的内部机制进行审查。此外,风险评估是数据治理的持续任务,需要定期执行以识别和防范数据安全和隐私方面的风险。通过这些措施,组织可以制定有效的应对策略,确保数据和隐私得到有效保护,及时应对安全挑战。
5) 教育与培训
安全与隐私是人工智能应用的红线,为组织内部人员提供关于数据安全和隐私的培训,增强人员安全隐私的意识,有助于构建一个全员参与的安全文化。同时,向用户提供关于安全实践和隐私保护的教育,使其更加自觉地保护个人信息,进一步提升整个生态系统的安全性。
6) 监管与合规审计
建立有效的监管机制,监督人工智能系统的运行,以及进行定期的合规审计,确保系统的运行符合相关法规和政策,是保障治理有效性和可持续性的关键步骤。通过这一系列综合的治理方法,可以全面而有效地应对人工智能数据安全与隐私治理的复杂挑战。
2. 治理技术
1) 安全治理技术
异常数据检测:利用异常样本和良性样本的分布差异或在隐藏空间上的特征差异,检测数据中的异常值。数据增强:数据增强对于对抗攻击、后门攻击、投毒攻击来说都是有效防御机制,在丰富数据集多样性的同时,可降低异常数据的有效性。鲁棒训练:通过改进训练过程来降低恶意数据的影响,提高大模型面对对抗样本的预测准确率数字水印:水印技术是一种在数据中嵌入隐蔽标记的方法,用于追踪数据来源,增强数据安全性和可溯源性。技术的最新进展在于对抗性水印,它通过复杂算法和模型抵抗包括篡改和定向攻击在内的多种攻击,保护数据完整性和隐私。安全对抗:安全对抗技术对人工智能数据安全与隐私治理至关重要,安全对抗技术是一种主动的安全策略,通过模拟攻击行为来预先发现和修复系统潜在漏洞。通过提高安全对抗技术的有效性,人工智能系统能够更主动、全面地保护数据安全,确保用户信息不被恶意获取或滥用。加密与脱敏:加密技术和安全协议是确保数据在传输和存储过程中不被未授权访问、窃听或泄露的关键手段,尤其是在云环境或网络传输中。数据脱敏技术通过变形敏感信息,保护个人隐私,同时保持数据的可用性,降低隐私风险,对 AI 数据安全治理起着核心作用。
2) 隐私治理技术
差分隐私:通过对数据加噪,确保训练集中某一数据不论存在与否,对模型预测结果的影响都有限,从而阻止攻击者根据模型输出推断数据集中的具体数据信息。同态加密:同态加密在明文和密文上进行计算得到的结果相同,因此可以直接在加密后的隐私数据上进行运算,保障数据隐私。但同态加密时间复杂度高,面对海量数据效率较低。安全多方计算:安全多方计算允许各参与方输入对其他方保密的情况下,根据输入共同计算一个函数,确保了整个系统中个体敏感数据的隐私性。匿名化:匿名化技术的最新进展集中在不可逆加密方法和差分隐私技术上。不可逆加密方法通过使用无法逆向解密的算法,确保个体身份信息在处理后无法还原,有效保护数据主体隐私。差分隐私技术则通过在数据发布或处理时加入噪声,防止重新识别攻击,保护个体身份信息不被泄露。概念擦除:概念擦除技术通过修改数据中的敏感信息来降低隐私泄露的风险。最新的概念擦除方法不仅关注隐私保护,还考虑在信息擦除的同时保持数据的分析可用性。
(三) 数据伦理治理
1. 治理方法
1) 制定数据伦理政策
2) 提升透明度和可解释性
3) 规范数据收集和标注
4) 开展风险评估和缓解措施
5) 定期审查和更新
2. 治理技术
偏差检测和纠正:识别算法中存在的偏见,并通过调整算法参数或重新训练来消除偏见。反歧视性算法设计:确保算法在处理数据时不会因种族、性别、宗教等因素产生歧视。责任与可追溯性技术:确保 AI 系统的决策过程有清晰的记录,出现问题时可以追溯到责任方。
三、 面向人工智能的数据治理步骤
当前产业对于人工智能的工程建设工作包括数据收集、数据预处理/清洗、特征工程、数据标注、数据划分、数据增强、模型训练、模型验证与测试、模型推理等九个阶段。
过程上,总体由业务方提出需求后,数据工程师、算法工程师、数据科学家等角色进行分头开发。其总体上缺乏一套科学的方法论将各个团队、人员、角色进行串联,形成“流水线”式的作业。从而往往导致团队间的协作困难、工作效率不高、工作成本不低、责任分工不清、应用效果不及预期等问题。
通过利用 DataOps1所强调的加强团队间协作沟通、要求数据流程具有可重复性和可追溯性、重视自动化和持续集成、关注数据集的监控和持续改进、强调数据流程的监控与反馈等特性。能够有效改善这些问题,实现数据流程的自动化、质量管理的持续改进以及合规性、伦理性和隐私保护的强化,从而提高人工智能项目的效率和效果。以下我们将创新性的提出利用 DataOps 理念来赋能人工智能模型研发、治理和运营的一体化流程方法,为产业提供一种实践思路,并在今后的报告中不断打磨。
(一)明确应用目标与需求
确定应用目标与效果:首先,与相关方共同明确人工智能应用的目标和预期效果。这可能涉及解决的业务问题、改善的业务流程或实现的业务目标。明确应用场景:确定人工智能应用的具体场景和应用范围。这包括确定应用的环境、用户和操作方式。澄清数据需求:与算法方、需求方和数据方共同澄清所需的数据类型、数据数量和数据质量标准。这可能涉及确定需要的数据来源、数据格式、数据标签等。评估数据获取难度:评估当前已有数据与所需数据的可获取性和使用难度。这包括考虑数据获取的法律、道德和技术限制,以及数据采集和标注的成本和时间
(二)设计数据集治理要求与规范
制定数据标注流程:制定清晰的数据标注流程,包括数据标注的步骤、标准和质量控制措施。这可能涉及确定标注人员的资质要求、标注工具的选择和标注结果的审核流程。
明确数据质量标准:明确数据质量的衡量标准和评估方法,包括数据准确性、完整性、一致性和可靠性等方面。这可以通过制定数据质量指标和监控机制来实现。
考虑合规和隐私要求:确保数据采集、标注和使用过程符合法律、道德和行业规范的要求,特别是涉及个人隐私和敏感信息的情况下。这可能涉及制定数据保护策略、访问控制机制和数据使用协议。
管理规范持续更新:建立一个持续更新的数据管理规范,确保规范与技术发展和业务需求的变化保持同步。这可能包括定期审查和更新数据管理政策、流程和工具
(三)开展数据集处理与研发
数据清洗和标注:进行数据清洗、标注和预处理,以确保数据质量和一致性。这可能涉及识别和处理数据中的噪音、缺失值和异常值,以及为数据添加标签和元数据。特征工程和数据增强:进行特征工程和数据增强,以提取数据的有效特征并增加数据的多样性。这可以通过使用统计方法、机器学习算法和数据增强技术来实现。沟通与验收:加强算法方与数据方的沟通,确保数据处理过程中的偏差得到及时纠正。这可能包括定期的数据处理进展报告和算法人员的阶段性验收动作
(四)进行数据集洞察与交付
数据集持续维护:对交付的数据集进行持续维护和更新,确保数据集的及时性和适用性。这可能包括定期的数据质量评估、数据集版本管理和数据集权限管控
(五)持续数据集运营与优化
构建监控指标体系:构建全局的监控指标体系,综合考虑数据集的使用频率、更新频率、质量评价和成本效益等方面。这可以通过建立数据集运营指标和监控仪表板来实现。持续优化数据集流程:对整个数据集构建周期的流程进行持续优化,提高数据集的效率和效果。这可能包括对数据处理流程的自动化、工作流程的优化和团队协作的改进等方面。
四、 展望
(一)人工智能数据产业分工更加明确
总体来看,产业中存在大量对数据的重复标注、重复采集、重复加工的现象。这无疑是对时间、资金、资源和人才的铺张浪费。未来,供给人工智能数据集的产业在采集、加工、交易、消费等环节将更加清晰和成熟,通过市场化的调节机制可以合理分配产业的人才、资金与资源,更高效的推进人工智能应用发展。
(二)数据治理或成为大模型的胜负手
当前,产业界普遍通过大力发展大模型产品应用来抢占市场份额。然而,随着市场集中度的提高(马太效应),只有少数企业可能在这场竞争中胜出。通过有效的数据治理,企业将有可能获得竞争优势。
(三)服务化
随着 DG4AI 技术、实践和理论的成熟,DG4AI 将更加标准化与流程化,进而发展为服务化,能够高效、高质量、安全可控的提供标准的数据产品(数据集、语料库)。
来源:CCSA TC601 大数据技术标准推进委员会