模型賦能下的資料安全合規管理

導讀本文将分享平安在資料安全合規管理方面的實踐。資料安全合規管理是整個資料管理中的一部分，其理念和思想是一脈相承的。标題中還提到了“模型賦能”，文中也将探讨與大模型應用相關的問題。

主要内容包括三大部分：

1. 平安資料管理價值主張

2. 基于大模型的資料安全合規場景應用

3. Q&A

分享嘉賓｜張森森平安科技進階經理

編輯整理｜徐謙

内容校對｜李瑤

出品社群｜DataFun

平安資料管理價值主張

首先來介紹一下資料安全相關背景，以及平安資料管理的價值主張。

2021 年，國家頒布了個保法和數安法，在國家層面上，對資料安全合規提出了一些新的要求，并對未來資料的高效應用提出了方向。現在有了國家資料局這一部門，對于資料的要求可能會往上走到一個更高的台階。

為了應對于國家相關法律的出台，平安集團委托科技成立了資料管理部，來負責對國家戰略的銜接。

資料管理的工作并不是從國家法律出台才開始的，而是已經經曆了不斷地完善和演進。

平安資料管理的演進主要包括三個時代：

第一個時代是資訊化時代，主要任務是資料品質提升、監管報送等。平安有大量的保險和金融行業的資料應用，需要做監管報送。
第二個時代是以資料資産為核心的資料管理體系的建設。不僅在集團層面上推進，在各個子公司裡面也都會做自己的資料資産管理和資料價值挖掘。
第三個時代是以資料合規為基礎的全域資料管理體系。即今天在講的，在符合外部監管對于資料安全的要求的前提下，建設能夠保證資料高效流通，并對改善資産營運提出了要求的品質管理體系。

發展過程中，我們需要逐漸解決各個痛點：

資料責權及能力評估：包括資料戰略、考核、組織、能力、制度和領域的建設。
資料價值的衡量營運：包括資料價值的轉化、量化、展現和營運。
保障體系的科學完備：做好整個合規的規劃、體系建設，以及營運和保障。

整個合規體系，包括合規的資料保障和高效的資料互動兩大部分：

首先，資料的合規保障，包括客戶隐私協定，委托共享協定，授權鑒權管理等。我們會在這個體系之下，對國家法律進行整體統一解讀，然後進行考核，實作協作機制。
另外，在合規的基礎之上，要保證資料有高效的互動，為此我們做了統一的資料資産管理、分級分類，推動資料的互動以及統一的價值資産評估。

面向外部監管、企業賦能和資産治理的資料管理的業務了解包括以下幾大方面：

最底層是技術平台的支援，包括資料資産管理平台、營運監控平台、資料加密的共享平台，以及客戶授權管理平台。
向上是企業賦能，包括資料工作的落實，日常的監測，以及專項的一些檢視工作。在此基礎上是資料合規保障和資料資産管理。
最後是對接外部監管，過去是中國銀保監，現在是金融局，還有一些銀行自己的監管部門或證券的監管部門。要有相應的組織流程和制度，以及考核名額，對外進行披露和暴露。

上圖中展示了平安十年來建構的資料管了解決方案，包括 1 個平台、4 類規則庫、5 項服務和 6 類客戶。

1 個平台，指的是資料管控平台，包括資産、營運、加密和授權管理。
4 類規則庫包括合規規則庫、合規知識庫、資料資産庫和系統工具庫。
5 項服務是提供資料管理機制、資料合規保障、資料資産管理、資料營運管理和技術工具實施。
6 類客戶包括企業高管、資料管理人員、業務人員、IT 人員、法務人員和财務人員。

我們需要面對平安集團十幾家專業公司的治理和管理，是以與隻有一家公司的資料管理不太一樣。我們的工作完成之後，會下發到各家專業公司，專業公司再進行相應的執行和回報。

基于大模型的資料安全合規場景應用

下面介紹平安基于大模型的資料安全合規場景的應用。

我們的應用場景主要包括資料合規管理、資料資産管理和資料能力評估。在這些場景中，我們也在利用大模型做一些嘗試。LLM 任務主要包括分類任務、摘要任務、評估任務、問答任務和 SQL 任務。

模型分層包括基礎層、決策層和執行層。基礎層主要是做一些問答，以及對知識庫的完善。決策層，會對模型進行二次訓練，做一些微調，與知識圖譜結合，支援合規檢視預審、材料總結、内容判斷、成熟度評估等專項場景。執行層，有一些工具和能力的下沉。我們現在也在嘗試利用大模型進行決策之後，驅動工具去進行相應的解釋，并依據解釋的結果，再進行評價。

整體的技術架構如上圖所示。采用了多模态大模型。從信号端來看，包括文字提取、PDF 轉圖檔，之後通過 index 向量存儲和檢索文本化的向量化，再經過指令路由，傳到模型端。在模型端，平安有自己的 GPT，專業公司也會有自己的 GPT，是以是多 GPT 的存在。在多 GPT 之上，進行指令的處理，通過 Prompt 和 Job 的分發，最後在應用端通過對整個模型的結果進行組裝和格式化的資料提取，驅動上文中提到的三個業務的開展，建立好知識應用中心、能力應用中心和名額應用中心。

針對資料合規的場景，主要包括如下一些工作：首先是制度的下發；接着，我們會對制度進行合規檢查；檢查完後，下發到專業公司，專業公司會對整個資訊進行申報；我們根據專業公司的申報進行評價；評價後，進行風險檢測；針對國家近期出台的法律法條，我們可能會開展一些專項檢查，比如 PIA 的評估、出入境的評估等等。

這些工作中，制度下發的難度是比較高的，因為合規的工作從國家開始立法，很多事情是沒有細則的，需要企業不斷探索，找到工作的方向。是以工作量非常大，非常耗時，難度非常高。有時對法律法條的解讀，不僅需要對法律的了解，還要有對整個技術的深入了解，是以對人的綜合要求較高。

合規檢查的工作中，常常缺少指引，我們要基于人的主觀經驗判斷能力，形成比較規範化的工程化的指引，應用到整個合規的解釋過程中。

關于資訊申報，可能一個檢查申報上來的材料會有上百份。甚至有些我們對接接口過來的資料，雖然都已經格式化好了，但每次的資料形态和狀态可能也不是完全一緻的，可能還需要再做一些清理，稽核的工作量是非常大的。

風險監測，要計算大量名額，并上報給集團上司，同時也要提供給各家專業公司，為其提供風險指引。

最後是專項解釋，PIA 的評估。平安會對出境資料做審查和稽核，這個工作量也是非常大的。是以我們借助大模型，将整個知識庫沉澱下來，通過多模态的方式做好智能的稽核，以及異常監測報警，進而大幅提升工作效率。

我們的資産管理和專業公司的資産管理之間類似的地方是，資料都是從采集到治理、到盤點，再到使用。但我們的資産管理更側重于資産的使用，促進不同的專業公司之間合規地進行資料互動。

在資料采集部分，主要工作是推進集團各家專業公司做好 DataOps 工具的使用和規範的推進。

在資料治理部分，要做好資料标準管理和資料品質管理。我們不太關注每家專業公司具體的命名等細節，而是關注其最終結果，是不是他自己所做的指引産生的結果。

資産盤點方面，主要關注分級分類，對于重點資料做重點的考察和審計。還要做好資料認責，一旦資料發生了洩露或者出現其它風險，可以有責任人去追查。

最後是資産的使用。資産使用要經過審批鍊，要有對于互動的申請，合規的稽核。敏感資料是不能被使用的，可能需要對使用申請進行整改，要做一些掩碼或者加密。

整個過程中，最主要的工作包括利用AI 分析做分級分類，以及通過知識圖譜做資料認責等。

第三個場景是基于大模型的資料能力評估。随着資料管理和資料治理在企業中不斷被強化，資料化已成為公司發展過程中必不可少的一部分。信通院也會有大量的評審工作開展。在評審工作開展之前，很多專業公司對自身目前的水準都不是很清楚。是以我們在内部會做一些初評，包括 DCAM 的評估、安全能力的評估、資料狀态程度的評估等等。

評估的工作是非常繁雜且龐大的，僅靠人工的稽核是無法完成的，是以我們會基于知識庫去做内容的稽核并提出整改建議。

以上就是本次分享的内容，謝謝大家。

Q&A

Q1：大模型分類分級的能力是如何實作的，效果如何？合規管理中，對合規的風險是怎麼了解的，規則庫有哪些？大模型在合規管理中扮演怎樣的角色？

A1：首先回答第一個問題，關于分級分類，金融行業有一個專業的指引，我們剛開始會去找一家專業公司，推行其做法，再将分級分類的成果沉澱。對于比較好的中繼資料治理的專業公司，就可以通過知識圖譜等方式，快速識别出高風險資料，避免高風險問題的爆發，再對其它資料做分層處理。這是我們現在分級分類的做法。

關于大模型，目前主要嘗試用來識别高風險資料，當然後面的資料可能對于我們的知識庫會有更大挑戰。

平安的大模型工作不是一個 Team 在做，平安自己就在做自己的大模型，他們做 L1 層，我們在做垂域，是以相當于我們是需求提出方，他們在做通盤的平安體系的大模型的過程中把我們的需求加進去，做好調優，輸出給我們用就可以了。

未來，我們考慮将知識庫的搭建過程工程化，将調參、finetune 等操作相結合，這樣使合規領域的大模型與金融領域的垂直大模型發生一些關聯。

Q2：大模型做出來的結果如何進行檢驗？怎樣做好與人的互相協調，既減少人工的投入，同時又保證準确率？

A2：集團層面，場景會稍微單純一點，簡單一點，因為是各家專業公司上報的資料資産，幹淨程度是有保障的，是以我們在用大模型去做審查時過程是相對簡單的。但其實這個應用在專業公司是沒法用的。在知識庫建設的最後一步，應該寫一個 case，之後去驗證這個 case。比如傳統過程中資料治理或者中繼資料的品質校驗結果，要和大模型的結果做對齊，這是我們未來要去做的，并且考慮将其平台化，這樣整個對齊的過程隻需要在平台裡面去看一下結果是不是 OK 的，如果是 OK 的話，就把大模型的這個功能固定下來，未來專注去做這件事就可以了。

Q3：分享中風險監測子產品包含的名額計算的展示具體是怎麼做的，輸出會放在哪裡，面向的使用者具體是哪些人員？這些資料應該都是來自于平安的各個專業公司的底層業務系統，集團拿到這些資料之後應該是會有一個整體的資料庫，那麼給到專業公司的賦能展現在哪裡？輸出資料的價值展現從外部和内部看分别是什麼？

A3：這是個非常好的問題。大家都在講名額，特别是風險名額。最關注風險名額的是管理層，是以名額最終的展現方式會是一張大屏或者一個 board，上面可以看到比如個人資訊保護有沒有做到，隐私協定的簽約有沒有做到，資産互動的合規流程有沒有做到等等。基于 70 多個名額，最後濃縮為十幾個名額，展現在 board 上，提供給管理層。

第二個層面是給到各家專業公司的上司，幫助其了解自身的合規工作做到了什麼樣的程度，比如下面的 App 是不是都已經做好了協定的更改，分級分類處于一個什麼樣的水準，讓各公司心裡有數。

第三個層面是給到真正在做資料管理這件事的營運層面上，他們可能更加關注的是我這件事情所反映出來的結果，比如交換的某個材料有沒有實際的風險，是否需要整改。

相當于下面關注點，中間關注面，而到了上司層則關注得更加立體。

Q4：資料安全部分提到了資料認責，資料認責和資料使用效率之間的平衡是如何處理的？比如有些業務資料可能會配置設定一些責任人，但是對于資料分析人員、資料模型人員，可能不太去接觸業務，但他需要使用資料，可能需要認證、審批等流程，那麼工作效率如何保證？

A4：這也是個非常好的問題。資料認責其實是一個非常難解決的問題，業界也沒有一個能夠完全解決資料認責問題的最佳實踐。“資料二十條”提出，資料的角色要分開，生産者和擁有者有不同的職責。我們對每一個資料會指定一個所有人，負責該資料是否共享，并為合規負責。對于加工者，比如這個資料 A 公司分享給了 B 公司，那麼 B 公司就有權使用這個資料，每一個資料加工的背後還有一個特定的場景，資料責任人隻負責在這個資料場景之下，這個資料該不該被使用。我們通過這樣的以場景驅動的方式來處理認責和合規。

以上就是本次分享的内容，謝謝大家。

模型賦能下的資料安全合規管理

繼續閱讀

埃安全新兩廂車實車曝光！或搭載全新一代電池技術，續航超500km

假的！假的！安全隐患巨大，千萬别買！

3C認證是假的！質檢報告也是假的！安全隐患巨大，千萬别買！央視《财經調查》曝光→

3C認證是假的！質檢報告也是假的！安全隐患巨大，千萬别買！

擔心安全，還是押注金磚峰會？普京最終拍闆：不出席巴西G20峰會

位元組跳動回應大模型訓練被實習生攻擊：已被辭退，不影響線上業務

這兩天一個大學生朋友和我私下聊天，講述他和大學輔導員老師的故事[捂臉]他大三，女輔導員33歲已婚，兩地分居狀态。他和她因

食品安全最大！孩子安全大中大！“臭肉”事件相關人員必須嚴恁！

參評項目位列全球30強！這裡将成為全球“管理教育新高地”

網絡安全“國家隊”來楊浦啦！攜手打造“數治”楊浦新範式

取暖神器怎麼用才安全

自建房消防安全指南

定期監測是兒童身高管理必不可少的環節

緊急提示｜這類場所消防安全要注意

交通安全 | 知危險，會避險！這份交通安全提示，請學生、家長收好！

每日車圈新鮮事：埃安全新車曝光｜邁凱倫W1上市｜純電奔馳G開售