導讀 本文将分享平安在資料安全合規管理方面的實踐。資料安全合規管理是整個資料管理中的一部分,其理念和思想是一脈相承的。标題中還提到了“模型賦能”,文中也将探讨與大模型應用相關的問題。
主要内容包括三大部分:
1. 平安資料管理價值主張
2. 基于大模型的資料安全合規場景應用
3. Q&A
分享嘉賓|張森森 平安科技 進階經理
編輯整理|徐謙
内容校對|李瑤
出品社群|DataFun
01
平安資料管理價值主張
首先來介紹一下資料安全相關背景,以及平安資料管理的價值主張。
2021 年,國家頒布了個保法和數安法,在國家層面上,對資料安全合規提出了一些新的要求,并對未來資料的高效應用提出了方向。現在有了國家資料局這一部門,對于資料的要求可能會往上走到一個更高的台階。
為了應對于國家相關法律的出台,平安集團委托科技成立了資料管理部,來負責對國家戰略的銜接。
資料管理的工作并不是從國家法律出台才開始的,而是已經經曆了不斷地完善和演進。
平安資料管理的演進主要包括三個時代:
- 第一個時代是資訊化時代,主要任務是資料品質提升、監管報送等。平安有大量的保險和金融行業的資料應用,需要做監管報送。
- 第二個時代是以資料資産為核心的資料管理體系的建設。不僅在集團層面上推進,在各個子公司裡面也都會做自己的資料資産管理和資料價值挖掘。
- 第三個時代是以資料合規為基礎的全域資料管理體系。即今天在講的,在符合外部監管對于資料安全的要求的前提下,建設能夠保證資料高效流通,并對改善資産營運提出了要求的品質管理體系。
發展過程中,我們需要逐漸解決各個痛點:
- 資料責權及能力評估:包括資料戰略、考核、組織、能力、制度和領域的建設。
- 資料價值的衡量營運:包括資料價值的轉化、量化、展現和營運。
- 保障體系的科學完備:做好整個合規的規劃、體系建設,以及營運和保障。
整個合規體系,包括合規的資料保障和高效的資料互動兩大部分:
- 首先,資料的合規保障,包括客戶隐私協定,委托共享協定,授權鑒權管理等。我們會在這個體系之下,對國家法律進行整體統一解讀,然後進行考核,實作協作機制。
- 另外,在合規的基礎之上,要保證資料有高效的互動,為此我們做了統一的資料資産管理、分級分類,推動資料的互動以及統一的價值資産評估。
面向外部監管、企業賦能和資産治理的資料管理的業務了解包括以下幾大方面:
- 最底層是技術平台的支援,包括資料資産管理平台、營運監控平台、資料加密的共享平台,以及客戶授權管理平台。
- 向上是企業賦能,包括資料工作的落實,日常的監測,以及專項的一些檢視工作。在此基礎上是資料合規保障和資料資産管理。
- 最後是對接外部監管,過去是中國銀保監,現在是金融局,還有一些銀行自己的監管部門或證券的監管部門。要有相應的組織流程和制度,以及考核名額,對外進行披露和暴露。
上圖中展示了平安十年來建構的資料管了解決方案,包括 1 個平台、4 類規則庫、5 項服務和 6 類客戶。
- 1 個平台,指的是資料管控平台,包括資産、營運、加密和授權管理。
- 4 類規則庫包括合規規則庫、合規知識庫、資料資産庫和系統工具庫。
- 5 項服務是提供資料管理機制、資料合規保障、資料資産管理、資料營運管理和技術工具實施。
- 6 類客戶包括企業高管、資料管理人員、業務人員、IT 人員、法務人員和财務人員。
我們需要面對平安集團十幾家專業公司的治理和管理,是以與隻有一家公司的資料管理不太一樣。我們的工作完成之後,會下發到各家專業公司,專業公司再進行相應的執行和回報。
02
基于大模型的資料安全合規場景應用
下面介紹平安基于大模型的資料安全合規場景的應用。
我們的應用場景主要包括資料合規管理、資料資産管理和資料能力評估。在這些場景中,我們也在利用大模型做一些嘗試。LLM 任務主要包括分類任務、摘要任務、評估任務、問答任務和 SQL 任務。
模型分層包括基礎層、決策層和執行層。基礎層主要是做一些問答,以及對知識庫的完善。決策層,會對模型進行二次訓練,做一些微調,與知識圖譜結合,支援合規檢視預審、材料總結、内容判斷、成熟度評估等專項場景。執行層,有一些工具和能力的下沉。我們現在也在嘗試利用大模型進行決策之後,驅動工具去進行相應的解釋,并依據解釋的結果,再進行評價。
整體的技術架構如上圖所示。采用了多模态大模型。從信号端來看,包括文字提取、PDF 轉圖檔,之後通過 index 向量存儲和檢索文本化的向量化,再經過指令路由,傳到模型端。在模型端,平安有自己的 GPT,專業公司也會有自己的 GPT,是以是多 GPT 的存在。在多 GPT 之上,進行指令的處理,通過 Prompt 和 Job 的分發,最後在應用端通過對整個模型的結果進行組裝和格式化的資料提取,驅動上文中提到的三個業務的開展,建立好知識應用中心、能力應用中心和名額應用中心。
針對資料合規的場景,主要包括如下一些工作:首先是制度的下發;接着,我們會對制度進行合規檢查;檢查完後,下發到專業公司,專業公司會對整個資訊進行申報;我們根據專業公司的申報進行評價;評價後,進行風險檢測;針對國家近期出台的法律法條,我們可能會開展一些專項檢查,比如 PIA 的評估、出入境的評估等等。
這些工作中,制度下發的難度是比較高的,因為合規的工作從國家開始立法,很多事情是沒有細則的,需要企業不斷探索,找到工作的方向。是以工作量非常大,非常耗時,難度非常高。有時對法律法條的解讀,不僅需要對法律的了解,還要有對整個技術的深入了解,是以對人的綜合要求較高。
合規檢查的工作中,常常缺少指引,我們要基于人的主觀經驗判斷能力,形成比較規範化的工程化的指引,應用到整個合規的解釋過程中。
關于資訊申報,可能一個檢查申報上來的材料會有上百份。甚至有些我們對接接口過來的資料,雖然都已經格式化好了,但每次的資料形态和狀态可能也不是完全一緻的,可能還需要再做一些清理,稽核的工作量是非常大的。
風險監測,要計算大量名額,并上報給集團上司,同時也要提供給各家專業公司,為其提供風險指引。
最後是專項解釋,PIA 的評估。平安會對出境資料做審查和稽核,這個工作量也是非常大的。是以我們借助大模型,将整個知識庫沉澱下來,通過多模态的方式做好智能的稽核,以及異常監測報警,進而大幅提升工作效率。
我們的資産管理和專業公司的資産管理之間類似的地方是,資料都是從采集到治理、到盤點,再到使用。但我們的資産管理更側重于資産的使用,促進不同的專業公司之間合規地進行資料互動。
在資料采集部分,主要工作是推進集團各家專業公司做好 DataOps 工具的使用和規範的推進。
在資料治理部分,要做好資料标準管理和資料品質管理。我們不太關注每家專業公司具體的命名等細節,而是關注其最終結果,是不是他自己所做的指引産生的結果。
資産盤點方面,主要關注分級分類,對于重點資料做重點的考察和審計。還要做好資料認責,一旦資料發生了洩露或者出現其它風險,可以有責任人去追查。
最後是資産的使用。資産使用要經過審批鍊,要有對于互動的申請,合規的稽核。敏感資料是不能被使用的,可能需要對使用申請進行整改,要做一些掩碼或者加密。
整個過程中,最主要的工作包括利用AI 分析做分級分類,以及通過知識圖譜做資料認責等。
第三個場景是基于大模型的資料能力評估。随着資料管理和資料治理在企業中不斷被強化,資料化已成為公司發展過程中必不可少的一部分。信通院也會有大量的評審工作開展。在評審工作開展之前,很多專業公司對自身目前的水準都不是很清楚。是以我們在内部會做一些初評,包括 DCAM 的評估、安全能力的評估、資料狀态程度的評估等等。
評估的工作是非常繁雜且龐大的,僅靠人工的稽核是無法完成的,是以我們會基于知識庫去做内容的稽核并提出整改建議。
以上就是本次分享的内容,謝謝大家。
03
Q&A
Q1:大模型分類分級的能力是如何實作的,效果如何?合規管理中,對合規的風險是怎麼了解的,規則庫有哪些?大模型在合規管理中扮演怎樣的角色?
A1:首先回答第一個問題,關于分級分類,金融行業有一個專業的指引,我們剛開始會去找一家專業公司,推行其做法,再将分級分類的成果沉澱。對于比較好的中繼資料治理的專業公司,就可以通過知識圖譜等方式,快速識别出高風險資料,避免高風險問題的爆發,再對其它資料做分層處理。這是我們現在分級分類的做法。
關于大模型,目前主要嘗試用來識别高風險資料,當然後面的資料可能對于我們的知識庫會有更大挑戰。
平安的大模型工作不是一個 Team 在做,平安自己就在做自己的大模型,他們做 L1 層,我們在做垂域,是以相當于我們是需求提出方,他們在做通盤的平安體系的大模型的過程中把我們的需求加進去,做好調優,輸出給我們用就可以了。
未來,我們考慮将知識庫的搭建過程工程化,将調參、finetune 等操作相結合,這樣使合規領域的大模型與金融領域的垂直大模型發生一些關聯。
Q2:大模型做出來的結果如何進行檢驗?怎樣做好與人的互相協調,既減少人工的投入,同時又保證準确率?
A2:集團層面,場景會稍微單純一點,簡單一點,因為是各家專業公司上報的資料資産,幹淨程度是有保障的,是以我們在用大模型去做審查時過程是相對簡單的。但其實這個應用在專業公司是沒法用的。在知識庫建設的最後一步,應該寫一個 case,之後去驗證這個 case。比如傳統過程中資料治理或者中繼資料的品質校驗結果,要和大模型的結果做對齊,這是我們未來要去做的,并且考慮将其平台化,這樣整個對齊的過程隻需要在平台裡面去看一下結果是不是 OK 的,如果是 OK 的話,就把大模型的這個功能固定下來,未來專注去做這件事就可以了。
Q3:分享中風險監測子產品包含的名額計算的展示具體是怎麼做的,輸出會放在哪裡,面向的使用者具體是哪些人員?這些資料應該都是來自于平安的各個專業公司的底層業務系統,集團拿到這些資料之後應該是會有一個整體的資料庫,那麼給到專業公司的賦能展現在哪裡?輸出資料的價值展現從外部和内部看分别是什麼?
A3:這是個非常好的問題。大家都在講名額,特别是風險名額。最關注風險名額的是管理層,是以名額最終的展現方式會是一張大屏或者一個 board,上面可以看到比如個人資訊保護有沒有做到,隐私協定的簽約有沒有做到,資産互動的合規流程有沒有做到等等。基于 70 多個名額,最後濃縮為十幾個名額,展現在 board 上,提供給管理層。
第二個層面是給到各家專業公司的上司,幫助其了解自身的合規工作做到了什麼樣的程度,比如下面的 App 是不是都已經做好了協定的更改,分級分類處于一個什麼樣的水準,讓各公司心裡有數。
第三個層面是給到真正在做資料管理這件事的營運層面上,他們可能更加關注的是我這件事情所反映出來的結果,比如交換的某個材料有沒有實際的風險,是否需要整改。
相當于下面關注點,中間關注面,而到了上司層則關注得更加立體。
Q4:資料安全部分提到了資料認責,資料認責和資料使用效率之間的平衡是如何處理的?比如有些業務資料可能會配置設定一些責任人,但是對于資料分析人員、資料模型人員,可能不太去接觸業務,但他需要使用資料,可能需要認證、審批等流程,那麼工作效率如何保證?
A4:這也是個非常好的問題。資料認責其實是一個非常難解決的問題,業界也沒有一個能夠完全解決資料認責問題的最佳實踐。“資料二十條”提出,資料的角色要分開,生産者和擁有者有不同的職責。我們對每一個資料會指定一個所有人,負責該資料是否共享,并為合規負責。對于加工者,比如這個資料 A 公司分享給了 B 公司,那麼 B 公司就有權使用這個資料,每一個資料加工的背後還有一個特定的場景,資料責任人隻負責在這個資料場景之下,這個資料該不該被使用。我們通過這樣的以場景驅動的方式來處理認責和合規。
以上就是本次分享的内容,謝謝大家。