一、 人工智能資料治理概念界定
(一) 資料治理的發展
資料治理的概念起源于企業管理領域,關于資料治理的定義研究衆多,但由于業界權威研究機構、研究學者以及國内外标準組織研究視角不同,尚未形成較為統一的認知。
國際資料治理研究所(DGI)提出資料治理的定義為“一個根據既定模型針對資訊相關過程的決策權和職責配置設定體系”。
梅宏院士在《資料治理之論》一書中提出資料治理的核心内容包括以釋放資料價值為目标、以資料資産地位确立為基礎、以資料管理體制為核心、以資料共享開放利用為重點、以資料安全與隐私保護為底線。
國際資料管理協會(DAMA)提出的資料治理概念為“在管理資料資産過程中行使權力和管控活動,包括計劃、監控和實施。
結合通用場景下資料治理定義的特征來看,資料治理的核心治理内容主要圍繞資料品質、資料安全、資料合規等内容展開,強調要圍繞治理内容進行統籌協調、權責配置設定、資源排程等。
2. 資料治理的三個階段
第一階段,20 世紀 80 年代,随着資料庫技術的發展,企業開始意識到資料的重要性。但當時資料管理主要依靠資料庫管理系統(DBMS),直到 1988 年由麻省理工學院的兩位教授啟動了全面資料品質管理計劃(TDQM),可以認為是資料治理最初的雛形。
第二階段,伴随着資料倉庫的建設,主資料管理與商務智能平台的實施,國内也逐漸開始接受并利用資料治理的概念進行推廣實踐。
第三階段,21 世紀 20 年代,以大模型為代表的生成式模型成為推動人工智能發展的重要驅動力。大模型的興起對資料治理提出了新的挑戰和需求。
3. 大模型時代資料治理的難題
1) 資料“高量低質”
資料是人工智能技術的基石,是大模型訓練和推斷的原材料已成為共識。然而,資料的數量和品質并不總是成正比。
2) 安全與隐私洩露頻發
随着大模型對資料的依賴性日益增強,資料安全和隐私保護已成為核心問題。
3) 偏見與歧視随處可見
在科技飛速發展的背景下,人工智能倫理和道德的關注程度及應對措施尚未完全跟上技術的步伐。自然語言處理技術的濫用案例日益增多。其中包括壓制不同意見、侵犯隐私與匿名性等。
(二) 面向人工智能的資料治理的定義
面向人工智能的資料治理(DG4AI,DataGovernance for Artificial Intelligence)是指在人工智能應用中管理和控制資料的過程與實踐,用以確定資料的品質、可靠性、安全性與合規性,資料能夠被準确地用于訓練和部署 AI 模型,同時保護資料的隐私和安全。
(三) 面向人工智能開展資料治理的主要階段與對象
1. 頂層設計階段:治理目标:确立資料治理的總體架構和戰略目标,確定資料治理與組織的整體戰略相比對。工作重點:根據組織的業務現狀、資訊化現狀、資料現狀和 AI 現狀,設定組織中各機構和部門的職責、權力的利益,定義符合組織戰略目标的整體資料治理目标和可行的行動路徑。
2. 資料治理組織保障體系搭建階段: 治理目标:確定面向 AI 的資料治理得到必要的支援和資源,包括人力、算力、算法、資料、技術和管理等支援。工作重點:分析上司層、管理層、執行層等利益相關方的需求,建立健全面向 AI 資料治理的相關管理制度和标準,并基于資料治理所需的專項能力和業務價值目标建構支援面向 AI 的資料治理體系。
3. 資料治理工程建設階段:治理目标:基于資料戰略目标,結合 AI 資料治理的特點,制定并執行資料治理實施計劃,確定資料治理能夠按照既定目标和流程進行。工作重點:包括資料收集、資料預處理/清洗、特征工程、資料标注、資料劃分、資料增強、模型訓練、模型驗證與測試、模型推理等實施步驟
4. 資料治理營運優化與 AI 應用融合階段:治理目标:提升 AI 應用的規模化落地效果,實作資料治理與 AI 應用的良性互動。進一步,形成資料治理與 AI 應用互相促進的閉環,實作資料價值的最大化。工作重點:通過資料治理提升 AI 模型的拟合效果,同時利用 AI 技術優化資料治理流程,形成良性閉環系統。
對于人工智能訓練和推理的階段與資料治理對應關系如下:
1) 資料收集階段:此階段治理對象包括:結構化資料、非結構化資料、半結構化資料、空間地理資料、時間序列資料等多種模态資料集。資料來源的選擇和收集政策直接影響後續的資料品質。資料的有效性和代表性在此階段就已開始形成。此階段我們需要保障相關來源的資料量和多樣性。
2) 資料預處理/清洗階段:此階段資料治理對象是資料收集階段所采集的多模态資料。此階段對收集到的資料進行初步處理,去除無關資訊,修正錯誤資料,處理缺失值、異常值、重複值等問題,確定資料品質。資料必須具備高度的品質和準确性,保證訓練模型時使用的樣本資料能夠反映真實世界的情況。
3) 特征工程階段:此階段治理對象包括:原始資料集,中間資料和特征變量、标簽資料集等。此階段将原始資料轉化為适合機器學習算法使用的特征表示,包括特征提取、特征選擇、特征構造等。對于非結構化資料,可能需要進行特征提取,如文本分詞、圖像特征提取等。特征的選擇、構造與轉換過程決定了模型能否有效捕捉到資料中的有用資訊,特征的品質直接影響模型的表現力和泛化能力。
4) 資料标注階段:此階段治理對象主要是标注資料集。對于監督學習任務,需要人工或半自動方式對資料進行标注。高品質的标注資料對于模型的學習至關重要。準确、一緻且全面的标注能顯著提升模型訓練效果。
5) 資料劃分階段:此階段治理對象主要是訓練集、驗證集和測試集三類。本階段将資料集劃分為訓練集、驗證集和測試集,訓練集用于訓練模型。資料劃分階段的品質治理重點在于保障資料分布和資料平衡,合理地将資料劃分為訓練集、驗證集和測試集,確定每個集合都能代表總體資料分布,有助于避免過拟合或欠拟合。
6) 資料增強階段:此階段治理對象主要是合成資料。為了提高模型的泛化能力和應對不平衡資料問題,合成資料是通過模拟或生成技術生成的人工資料,用于模型訓練、隐私保護等目的。雖然對合成資料的品質治理不是直接改善原始資料品質,但能間接提高模型對各種情況的适應性和泛化能力。合成資料品質治理包括對合成資料的生成過程、使用限制等方面進行規範和管理
7) 模型訓練階段:此階段治理對象主要是訓練資料。使用高品質的資料訓練模型,會得到更準确、穩定的結果。訓練過程中,如果資料品質不佳,模型容易學得有偏差或者過拟合。訓練資料的資料品質治理重點保障資料的完整性、準确性、一緻性、多樣性和代表性。
8) 模型驗證與測試階段:此階段治理對象主要是驗證資料和測試資料,包括對抗性樣本、稀有事件或者小樣本資料等。模型的性能驗證和測試依賴于獨立的高品質測試集,隻有當測試資料具有良好的代表性時,才能準确評估模型在新樣本上的真實性能。在模型驗證與測試階段,對資料的要求和活動更加聚焦于檢驗模型在未知資料上的表現和魯棒性,確定模型不僅在訓練集上表現出色,而且在新的、未見過的資料上也能維持良好的性能。
9) 模型推理階段:此階段治理對象主要是推理資料集。在模型推理階段,除了確定模型自身的性能以外,還要關注用于推理的實時資料的品質,通過一系列的資料處理活動來保證模型在實際應用中的效果和穩定性。推理資料集品質治理的關注點主要包括推理資料集的資料格式相容性、資料品質監控、資料有效性驗證、實時資料更新與維護、線上特征提取與轉。
(四) 面向人工智能的資料治理價值
通過在面向人工智能場景下對資料集與資料工程流程進行系統化、标準化的治理,一是能夠提高人工智能模型的準确性和可靠性。二是能夠縮短人工智能模型的開發周期,降低開發與維護成本。三是能夠提升整個 AI 系統的安全水準。此外,這項工作還能夠完善對未來全域資料治理理論版圖的建構。
(五) 面向人工智能的資料治理原則
标準化原則:人工智能資料治理應具有靈活性、可操作性和實用性,能夠被實際應用到資料治理中,通過制定和使用統一的标準、規範和流程并不斷疊代完善。這有助于降低資料管理成本,提高資料品質和效率。
透明性原則:人工智能資料治理應該是透明的,運作方式和資料處理過程應該是可解釋和可了解的,有助于建立信任和可靠性,并確定合規性。
合規性原則:人工智能資料治理應該符合相關法律法規和行業标準的要求,如隐私法、知識産權法等。
安全性原則:人工智能資料治理應注重資料的安全性,采取适當的安全措施,如加密、通路控制等,以保護敏感資料的機密性和完整性。
負責任原則:人工智能資料治理應該遵循道德和倫理标準,保證對資料和個人隐私的尊重,避免歧視和不公平的結果。
公正性原則:人工智能資料治理應該確定公正和平等的對待所有使用者和利益相關方,不偏袒特定群體或個人。
可審計原則:人工智能資料治理應建立審計機制,對資料的收集、存儲、處理和使用等過程進行監控和記錄,以便及時發現和解決潛在問題。
二、 面向人工智能資料治理的重點工作
資料治理理論已有多年的發展,相關治理逐漸趨于完善和成熟。然而,針對人工智能領域的資料治理,由于治理對象與評價方式的特殊性,各方實踐仍處于初步探索階段。本章節我們将從資料品質治理、資料安全與隐私治理、資料倫理治理三方面展開探讨,為人工智能場景下的資料治理工作提供指導。這三大重點工作與傳統的資料治理理論過程類似(如 PDCA 循環、安全分級分類等),但鑒于人工智能應用場景的特殊性,其在技術和實施細節上有所差異。
(一) 資料品質治理
推進面向人工智能的資料品質治理是保障人工智能應用高品質、準确、持續可用的重要基礎,這要求企業找準人工智能應用建設過程中的資料品質治理需求,把握人工智能資料品質治理與傳統資料品質治理的差異,精準識别人工智能資料品質治理的範圍和對象,進而幫助企業科學設計人工智能資料品質治理的機制、方法和步驟,建設面向人工智能的全面的資料品質治理技術能力,以良好的資料品質治理實踐預防和杜絕資料品質問題,提高人工智能應用的性能和效果。
1. 治理方法
面向人工智能的資料品質治理是確定資料品質對人工智能模型效果的重要保障。資料品質管理貫穿于人工智能研發、管理和應用的整個生命周期,需要建立一套完善的資料品質管理體系,制定相應的資料品質管理制度和流程,并明确各環節的責任和要求。同時,還需要建立有效的資料品質評估和監控機制,以確定資料品質符合要求,為人工智能模型的訓練、調優提供高品質、高可信度的資料資源,進而提升模型表現效果。
1) 需求分析與品質目标設定
在面向人工智能的資料治理過程中,資料品質治理始于需求分析與品質目标設定階段。明确人工智能應用對于資料品質和數量的具體需求,設立針對性的資料品質基準和目标。通過這一系列的資料需求分析與品質目标設定工作,可以為後續的資料清洗、預處理、特征工程、标注和增強等資料品質管理活動提供清晰的方向和依據,確定整個資料治理體系圍繞既定目标有序展開,最終提升人工智能模型的性能和穩定性。
2) 制定資料品質管理體系
在面向人工智能的資料治理過程中,制定資料品質标準和規範是極為關鍵的一環,其主要任務是建立一個全面、嚴謹的資料品質評價名額體系。通過這樣的資料品質标準和規範體系,能夠對資料治理過程中的資料進行全方位、多層次的品質評估,指導資料清洗、預處理、标注等活動的開展,進而保障人工智能應用所用資料的品質,推動模型訓練和應用效果的提升。
3) 資料源評估及采集
從資料的源頭控制好資料品質,讓資料“規範化輸入、标準化輸出”是解決人工智能資料品質問題的關鍵所在。同時不僅關注資料來源的可靠性,而且考慮資料是否涵蓋足夠的次元和場景,確定資料來源、品質和多樣性。
4) 資料預處理
資料标注與資料增強是資料品質管理活動中不可或缺的部分,它們能夠在有限的資料資源基礎上,通過創新技術和政策,生成大量高品質的訓練資料,有力支撐人工智能模型的高效訓練和準确預測。
a. 資料清洗:此階段聚焦于消除資料中的錯誤、不完整、不一緻和重複等問題。具體措施包括: 缺失值處理:通過填充(如使用平均值、中位數、衆數等)、插值或其他方法處理缺失值。 異常值檢測與處理:識别并移除或者替換那些明顯偏離正常範圍的資料點,防止其對模型訓練産生不良影響。 資料一緻性校驗:對同一實體在不同資料源中的記錄進行比對和整合,保證資料的一緻性。 去重處理:識别并移除非唯一辨別的重複資料記錄,避免因重複樣本導緻的模型訓練偏差。
b. 資料标注:在某些 AI 任務中,尤其是監督學習場景下,模型需要依賴帶有标簽的高品質資料進行訓練。高品質的資料标注能有效提高模型了解和學習資料的能力,為後續模型訓練奠定基礎。
c. 資料增強:即使經過精心标注,實際可用的資料量也可能受限,這可能會導緻模型過拟合等問題。資料增強技術旨在通過一系列規則或算法人為地擴增訓練資料,如在圖像識别任務中采用翻轉、旋轉、裁剪、色彩變換等方式生成新的訓練樣本;在文本資料上,可通過同義詞替換、句式變換等方式生成不同的表達形式。資料增強不僅可以有效擴大訓練樣本空間,還可以提高模型的泛化能力和魯棒性,降低過拟合的風險。
5) 特征工程
對已預處理過後的資料,可能仍然存在不滿足人工智能需求,其目的是通過對已清洗和預處理過的資料進行深層次的分析和轉換,提取、構造出最具價值的特征,以滿足後續人工智能模型建構的需求。通過特征工程的實施,可以極大提升資料對于人工智能模型的解釋能力和預測能力,進而增強模型的泛化能力和實用性。
6) 資料偏見檢測與矯正
在資料治理的過程中,深入挖掘并矯正資料偏見是建構負責任且公平的人工智能系統的基石,有助于避免 AI 應用在社會生活中可能造成的歧視和不公。a. 資料偏見檢測:資料偏見檢測主要通過統計分析、可視化手段以及特定的偏見評估架構來發現潛在的不公平現象。例如,在分類任務中檢查不同群體的誤分類率是否存在顯著差異,在回歸任務中審視因變量預測值是否受無關屬性(如性别、種族)的影響過大等。b. 偏見矯正:在發現資料存在偏見後,資料品質管理活動會采取一系列措施來矯正這些偏見,進而提升模型決策的公平性。
7) 常态化資料品質監控
a. 模型訓練階段的資料品質監控:在模型訓練前,系統應具備實時資料品質監測功能,對輸入的訓練資料持續進行完整性、一緻性、精确性、及時性等方面的監控。一旦發現資料異常或品質問題,如資料分布突然變化、出現大量缺失值、新增資料格式不合規等情況,應及時觸發告警機制,以便快速定位問題源頭并采取相應措施進行修複或清洗。隻有確定資料品質達到預期标準,才能将其用于模型訓練和微調,以期得到精準、可靠且具有泛化能力的 AI 模型。
b. 模型推理階段的資料品質監控:即使模型進入推理階段,資料品質監控工作依然不能松懈。對于模型接收的實時或批量推理請求所攜帶的資料,也需要執行嚴格的資料品質檢查,確定資料格式正确、内容合法、業務邏輯合理,避免無效資料、惡意攻擊資料或不符合模型輸入規範的資料對模型運作造成幹擾或損害。通過實時資料品質監控,能夠迅速發現并攔截有問題的資料輸入,保障模型推理的穩定性和準确性
8) 持續改進
在面向人工智能的資料治理過程中,資料品質管理活動的持續改進是一個動态疊代、持續優化的過程。不斷地總結經驗教訓,優化資料品質管理的方法和流程,實作資料品質的螺旋式上升,進而為人工智能系統提供更為精準、可靠的資料支撐,推動 AI 技術的健康發展。該過程可能包括:定期複盤過去的資料品質管理活動,總結成效、發現問題,為改進提供方向;提煉經驗教訓,制度化有效政策并規避同類問題;緊跟 AI 技術發展,優化資料采集、預處理、清洗、标注等環節,提升管理方法和流程的科學性與高效性;密切關注并适時引入新的資料處理與品質管理工具,以應對複雜挑戰,提高資料品質,促進 AI 模型訓練與應用效果。
2. 治理技術
在面向人工智能的資料治理過程中,資料品質治理涵蓋了從資料準備到模型訓練、再到模型部署應用的全過程,每個階段都有相應的資料治理技術來確定資料品質.
資料清洗:資料清洗是資料預進行中的一項基本任務,旨在去除資料中的噪聲、異常值和重複資訊。随着機器學習和人工智能的發展,資料清洗技術也在不斷進步。現在,通過使用自動化工具和機器學習算法,可以更高效地識别和糾正資料中的錯誤和不一緻性,提高資料的品質和可靠性
自動化與智能标注:傳統的資料标注方法通常需要大量的人工勞動,成本高昂且耗時。為了解決這個問題,自動化标注技術應運而生。自動化标注使用機器學習算法和計算機視覺技術自動識别和标注資料,大大提高了标注效率并降低了成本。對于某些複雜的資料類型,完全自動化的标注可能無法達到高精度。在這種情況下,互動式标注和可編輯的标注成為一種有效的解決方案。這些方法允許使用者對自動标注的結果進行手動編輯和調整,以提高标注的準确性和精度。
特征工程:特征工程是将原始資料轉換為特征向量,供機器學習算法使用的技術。随着機器學習和人工智能技術的發展,特征工程技術正朝着自動化和智能化方向發展。通過使用機器學習算法和自然語言處理技術,可以自動識别和轉換資料中的特征,提高資料處理的效率和準确性。
資料增強:資料增強是通過生成新的訓練樣本擴充資料集的技術。在深度學習和計算機視覺領域中,資料增強扮演着重要的角色。通過使用旋轉、翻轉、裁剪等技術,可以增加資料的多樣性和豐富性,進而提高模型的泛化能力。
多模态資料處理和分析:随着多模态資料的普及,資料品質特征工程技術正朝着多模态資料處理和分析方向發展。多模态資料包括文本、圖像、音頻和視訊等多種形式,每種形式都有自己的特征和屬性。通過多模态資料處理和分析技術,可以綜合利用不同模态的資料,提高資料分析和預測的準确性和可靠性
(二) 資料安全與隐私治理
1. 治理方法
1) 建立資料全生命周期安全監督機制
為確定資料全生命周期的安全性,需建立包含資料采集、處理、存儲及輸出的全面安全保障機制。這涉及確定資料集多樣性與公平性、實施資料處理與加密措施、制定嚴格的資料使用規定等。在資料治理中,透明度與知情權的保障至關重要,需明确告知使用者資料收集目的,并允許使用者自主決定是否共享個人資訊,增強隐私控制。遵循資料最小化原則,僅收集必要的個人資料,并定期審查清理,以降低隐私風險,確定資料安全。
2) 制定資料集安全風險分類管理體系
為應對人工智能領域的安全挑戰,需建構一個基于應用場景、影響範圍和風險的分類分級管理體系。該體系應對高風險領域進行定期的資料安全能力評估,并根據風險級别采取差異化的管理政策,實作精細化管理。首先,明确隐私資料的定義和範圍,對資料進行等級分類,指導資料使用子產品對不同安全等級的資料進行模糊化處理,以降低洩露風險。資料安全管理應貫穿整個資料治理生命周期,通過分類分級為資訊安全管理提供指導,幫助制定安全政策和保護措施,確定資料治理全面合規。資料分級還涉及對資料破壞後果的預估和公衆危害程度的分析,確定各級資料得到适當保護。其次,建立資料安全管理系統,支援資料分類的增删、搜尋和敏感詞管理,優化資源配置設定與共享,增強資料安全意識,引導使用者主動保護資料安全。通過這些措施,可以有效地評估和管理資料安全風險,確定資料的安全性和合規性
3) 資料加密
應用先進的加密算法對資料進行加密,確定資料在存儲和傳輸過程中的安全。其次,建構全面的安全管理體系,涵蓋安全審計和漏洞掃描等環節,以監測和防禦潛在風險。技術層面上,實施堅固的加密技術和身份驗證機制,防止未授權通路,增強系統的整體安全性。這些措施共同構成了強化資料安全保障的核心,有效抵禦資料洩露和網絡攻擊。
4) 風險評估
為了確定人工智能模型的安全性和可靠性,需要加強模型評估,以判斷其對潛在威脅的反應能力和逃避監管的可能性。這包括評估模型是否具有危險行為的傾向,并驗證其行為是否與設計預期相符,同時對模型的内部機制進行審查。此外,風險評估是資料治理的持續任務,需要定期執行以識别和防範資料安全和隐私方面的風險。通過這些措施,組織可以制定有效的應對政策,確定資料和隐私得到有效保護,及時應對安全挑戰。
5) 教育與教育訓練
安全與隐私是人工智能應用的紅線,為組織内部人員提供關于資料安全和隐私的教育訓練,增強人員安全隐私的意識,有助于建構一個全員參與的安全文化。同時,向使用者提供關于安全實踐和隐私保護的教育,使其更加自覺地保護個人資訊,進一步提升整個生态系統的安全性。
6) 監管與合規審計
建立有效的監管機制,監督人工智能系統的運作,以及進行定期的合規審計,確定系統的運作符合相關法規和政策,是保障治理有效性和可持續性的關鍵步驟。通過這一系列綜合的治理方法,可以全面而有效地應對人工智能資料安全與隐私治理的複雜挑戰。
2. 治理技術
1) 安全治理技術
異常資料檢測:利用異常樣本和良性樣本的分布差異或在隐藏空間上的特征差異,檢測資料中的異常值。資料增強:資料增強對于對抗攻擊、後門攻擊、投毒攻擊來說都是有效防禦機制,在豐富資料集多樣性的同時,可降低異常資料的有效性。魯棒訓練:通過改進訓練過程來降低惡意資料的影響,提高大模型面對對抗樣本的預測準确率數字水印:水印技術是一種在資料中嵌入隐蔽标記的方法,用于追蹤資料來源,增強資料安全性和可溯源性。技術的最新進展在于對抗性水印,它通過複雜算法和模型抵抗包括篡改和定向攻擊在内的多種攻擊,保護資料完整性和隐私。安全對抗:安全對抗技術對人工智能資料安全與隐私治理至關重要,安全對抗技術是一種主動的安全政策,通過模拟攻擊行為來預先發現和修複系統潛在漏洞。通過提高安全對抗技術的有效性,人工智能系統能夠更主動、全面地保護資料安全,確定使用者資訊不被惡意擷取或濫用。加密與脫敏:加密技術和安全協定是確定資料在傳輸和存儲過程中不被未授權通路、竊聽或洩露的關鍵手段,尤其是在雲環境或網絡傳輸中。資料脫敏技術通過變形敏感資訊,保護個人隐私,同時保持資料的可用性,降低隐私風險,對 AI 資料安全治理起着核心作用。
2) 隐私治理技術
差分隐私:通過對資料加噪,確定訓練集中某一資料不論存在與否,對模型預測結果的影響都有限,進而阻止攻擊者根據模型輸出推斷資料集中的具體資料資訊。同态加密:同态加密在明文和密文上進行計算得到的結果相同,是以可以直接在加密後的隐私資料上進行運算,保障資料隐私。但同态加密時間複雜度高,面對海量資料效率較低。安全多方計算:安全多方計算允許各參與方輸入對其他方保密的情況下,根據輸入共同計算一個函數,確定了整個系統中個體敏感資料的隐私性。匿名化:匿名化技術的最新進展集中在不可逆加密方法和差分隐私技術上。不可逆加密方法通過使用無法逆向解密的算法,確定個體身份資訊在處理後無法還原,有效保護資料主體隐私。差分隐私技術則通過在資料釋出或處理時加入噪聲,防止重新識别攻擊,保護個體身份資訊不被洩露。概念擦除:概念擦除技術通過修改資料中的敏感資訊來降低隐私洩露的風險。最新的概念擦除方法不僅關注隐私保護,還考慮在資訊擦除的同時保持資料的分析可用性。
(三) 資料倫理治理
1. 治理方法
1) 制定資料倫理政策
2) 提升透明度和可解釋性
3) 規範資料收集和标注
4) 開展風險評估和緩解措施
5) 定期審查和更新
2. 治理技術
偏差檢測和糾正:識别算法中存在的偏見,并通過調整算法參數或重新訓練來消除偏見。反歧視性算法設計:確定算法在處理資料時不會因種族、性别、宗教等因素産生歧視。責任與可追溯性技術:確定 AI 系統的決策過程有清晰的記錄,出現問題時可以追溯到責任方。
三、 面向人工智能的資料治理步驟
目前産業對于人工智能的工程建設工作包括資料收集、資料預處理/清洗、特征工程、資料标注、資料劃分、資料增強、模型訓練、模型驗證與測試、模型推理等九個階段。
過程上,總體由業務方提出需求後,資料工程師、算法工程師、資料科學家等角色進行分頭開發。其總體上缺乏一套科學的方法論将各個團隊、人員、角色進行串聯,形成“流水線”式的作業。進而往往導緻團隊間的協作困難、工作效率不高、工作成本不低、責任分工不清、應用效果不及預期等問題。
通過利用 DataOps1所強調的加強團隊間協作溝通、要求資料流程具有可重複性和可追溯性、重視自動化和持續內建、關注資料集的監控和持續改進、強調資料流程的監控與回報等特性。能夠有效改善這些問題,實作資料流程的自動化、品質管理的持續改進以及合規性、倫理性和隐私保護的強化,進而提高人工智能項目的效率和效果。以下我們将創新性的提出利用 DataOps 理念來賦能人工智能模型研發、治理和營運的一體化流程方法,為産業提供一種實踐思路,并在今後的報告中不斷打磨。
(一)明确應用目标與需求
确定應用目标與效果:首先,與相關方共同明确人工智能應用的目标和預期效果。這可能涉及解決的業務問題、改善的業務流程或實作的業務目标。明确應用場景:确定人工智能應用的具體場景和應用範圍。這包括确定應用的環境、使用者和操作方式。澄清資料需求:與算法方、需求方和資料方共同澄清所需的資料類型、資料數量和資料品質标準。這可能涉及确定需要的資料來源、資料格式、資料标簽等。評估資料擷取難度:評估目前已有資料與所需資料的可擷取性和使用難度。這包括考慮資料擷取的法律、道德和技術限制,以及資料采集和标注的成本和時間
(二)設計資料集治理要求與規範
制定資料标注流程:制定清晰的資料标注流程,包括資料标注的步驟、标準和品質控制措施。這可能涉及确定标注人員的資質要求、标注工具的選擇和标注結果的稽核流程。
明确資料品質标準:明确資料品質的衡量标準和評估方法,包括資料準确性、完整性、一緻性和可靠性等方面。這可以通過制定資料品質名額和監控機制來實作。
考慮合規和隐私要求:確定資料采集、标注和使用過程符合法律、道德和行業規範的要求,特别是涉及個人隐私和敏感資訊的情況下。這可能涉及制定資料保護政策、通路控制機制和資料使用協定。
管理規範持續更新:建立一個持續更新的資料管理規範,確定規範與技術發展和業務需求的變化保持同步。這可能包括定期審查和更新資料管理政策、流程和工具
(三)開展資料集處理與研發
資料清洗和标注:進行資料清洗、标注和預處理,以確定資料品質和一緻性。這可能涉及識别和處理資料中的噪音、缺失值和異常值,以及為資料添加标簽和中繼資料。特征工程和資料增強:進行特征工程和資料增強,以提取資料的有效特征并增加資料的多樣性。這可以通過使用統計方法、機器學習算法和資料增強技術來實作。溝通與驗收:加強算法方與資料方的溝通,確定資料處理過程中的偏差得到及時糾正。這可能包括定期的資料處理進展報告和算法人員的階段性驗收動作
(四)進行資料集洞察與傳遞
資料集持續維護:對傳遞的資料集進行持續維護和更新,確定資料集的及時性和适用性。這可能包括定期的資料品質評估、資料集版本管理和資料集權限管控
(五)持續資料集營運與優化
建構監控名額體系:建構全局的監控名額體系,綜合考慮資料集的使用頻率、更新頻率、品質評價和成本效益等方面。這可以通過建立資料集營運名額和監控儀表闆來實作。持續優化資料集流程:對整個資料集建構周期的流程進行持續優化,提高資料集的效率和效果。這可能包括對資料處理流程的自動化、工作流程的優化和團隊協作的改進等方面。
四、 展望
(一)人工智能資料産業分工更加明确
總體來看,産業中存在大量對資料的重複标注、重複采集、重複加工的現象。這無疑是對時間、資金、資源和人才的鋪張浪費。未來,供給人工智能資料集的産業在采集、加工、交易、消費等環節将更加清晰和成熟,通過市場化的調節機制可以合理配置設定産業的人才、資金與資源,更高效的推進人工智能應用發展。
(二)資料治理或成為大模型的勝負手
目前,産業界普遍通過大力發展大模型産品應用來搶占市場佔有率。然而,随着市場集中度的提高(馬太效應),隻有少數企業可能在這場競争中勝出。通過有效的資料治理,企業将有可能獲得競争優勢。
(三)服務化
随着 DG4AI 技術、實踐和理論的成熟,DG4AI 将更加标準化與流程化,進而發展為服務化,能夠高效、高品質、安全可控的提供标準的資料産品(資料集、語料庫)。
來源:CCSA TC601 大資料技術标準推進委員會