模型赋能下的数据安全合规管理

导读本文将分享平安在数据安全合规管理方面的实践。数据安全合规管理是整个数据管理中的一部分，其理念和思想是一脉相承的。标题中还提到了“模型赋能”，文中也将探讨与大模型应用相关的问题。

主要内容包括三大部分：

1. 平安数据管理价值主张

2. 基于大模型的数据安全合规场景应用

3. Q&A

分享嘉宾｜张森森平安科技高级经理

编辑整理｜徐谦

内容校对｜李瑶

出品社区｜DataFun

平安数据管理价值主张

首先来介绍一下数据安全相关背景，以及平安数据管理的价值主张。

2021 年，国家颁布了个保法和数安法，在国家层面上，对数据安全合规提出了一些新的要求，并对未来数据的高效应用提出了方向。现在有了国家数据局这一部门，对于数据的要求可能会往上走到一个更高的台阶。

为了应对于国家相关法律的出台，平安集团委托科技成立了数据管理部，来负责对国家战略的衔接。

数据管理的工作并不是从国家法律出台才开始的，而是已经经历了不断地完善和演进。

平安数据管理的演进主要包括三个时代：

第一个时代是信息化时代，主要任务是数据质量提升、监管报送等。平安有大量的保险和金融行业的数据应用，需要做监管报送。
第二个时代是以数据资产为核心的数据管理体系的建设。不仅在集团层面上推进，在各个子公司里面也都会做自己的数据资产管理和数据价值挖掘。
第三个时代是以数据合规为基础的全域数据管理体系。即今天在讲的，在符合外部监管对于数据安全的要求的前提下，建设能够保证数据高效流通，并对改善资产运营提出了要求的质量管理体系。

发展过程中，我们需要逐步解决各个痛点：

数据责权及能力评估：包括数据战略、考核、组织、能力、制度和领域的建设。
数据价值的衡量运营：包括数据价值的转化、量化、展现和运营。
保障体系的科学完备：做好整个合规的规划、体系建设，以及运营和保障。

整个合规体系，包括合规的数据保障和高效的数据交互两大部分：

首先，数据的合规保障，包括客户隐私协议，委托共享协议，授权鉴权管理等。我们会在这个体系之下，对国家法律进行整体统一解读，然后进行考核，实现协作机制。
另外，在合规的基础之上，要保证数据有高效的交互，为此我们做了统一的数据资产管理、分级分类，推动数据的交互以及统一的价值资产评估。

面向外部监管、企业赋能和资产治理的数据管理的业务理解包括以下几大方面：

最底层是技术平台的支持，包括数据资产管理平台、运营监控平台、数据加密的共享平台，以及客户授权管理平台。
向上是企业赋能，包括数据工作的落实，日常的监测，以及专项的一些检视工作。在此基础上是数据合规保障和数据资产管理。
最后是对接外部监管，过去是中国银保监，现在是金融局，还有一些银行自己的监管部门或证券的监管部门。要有相应的组织流程和制度，以及考核指标，对外进行披露和暴露。

上图中展示了平安十年来构建的数据管理解决方案，包括 1 个平台、4 类规则库、5 项服务和 6 类客户。

1 个平台，指的是数据管控平台，包括资产、运营、加密和授权管理。
4 类规则库包括合规规则库、合规知识库、数据资产库和系统工具库。
5 项服务是提供数据管理机制、数据合规保障、数据资产管理、数据运营管理和技术工具实施。
6 类客户包括企业高管、数据管理人员、业务人员、IT 人员、法务人员和财务人员。

我们需要面对平安集团十几家专业公司的治理和管理，所以与只有一家公司的数据管理不太一样。我们的工作完成之后，会下发到各家专业公司，专业公司再进行相应的执行和反馈。

基于大模型的数据安全合规场景应用

下面介绍平安基于大模型的数据安全合规场景的应用。

我们的应用场景主要包括数据合规管理、数据资产管理和数据能力评估。在这些场景中，我们也在利用大模型做一些尝试。LLM 任务主要包括分类任务、摘要任务、评估任务、问答任务和 SQL 任务。

模型分层包括基础层、决策层和执行层。基础层主要是做一些问答，以及对知识库的完善。决策层，会对模型进行二次训练，做一些微调，与知识图谱结合，支持合规检视预审、材料总结、内容判断、成熟度评估等专项场景。执行层，有一些工具和能力的下沉。我们现在也在尝试利用大模型进行决策之后，驱动工具去进行相应的解释，并依据解释的结果，再进行评价。

整体的技术架构如上图所示。采用了多模态大模型。从信号端来看，包括文字提取、PDF 转图片，之后通过 index 向量存储和检索文本化的向量化，再经过指令路由，传到模型端。在模型端，平安有自己的 GPT，专业公司也会有自己的 GPT，所以是多 GPT 的存在。在多 GPT 之上，进行指令的处理，通过 Prompt 和 Job 的分发，最后在应用端通过对整个模型的结果进行组装和格式化的数据提取，驱动上文中提到的三个业务的开展，建立好知识应用中心、能力应用中心和指标应用中心。

针对数据合规的场景，主要包括如下一些工作：首先是制度的下发；接着，我们会对制度进行合规检查；检查完后，下发到专业公司，专业公司会对整个信息进行申报；我们根据专业公司的申报进行评价；评价后，进行风险检测；针对国家近期出台的法律法条，我们可能会开展一些专项检查，比如 PIA 的评估、出入境的评估等等。

这些工作中，制度下发的难度是比较高的，因为合规的工作从国家开始立法，很多事情是没有细则的，需要企业不断探索，找到工作的方向。所以工作量非常大，非常耗时，难度非常高。有时对法律法条的解读，不仅需要对法律的了解，还要有对整个技术的深入理解，所以对人的综合要求较高。

合规检查的工作中，常常缺少指引，我们要基于人的主观经验判断能力，形成比较规范化的工程化的指引，应用到整个合规的解释过程中。

关于信息申报，可能一个检查申报上来的材料会有上百份。甚至有些我们对接接口过来的数据，虽然都已经格式化好了，但每次的数据形态和状态可能也不是完全一致的，可能还需要再做一些清理，审核的工作量是非常大的。

风险监测，要计算大量指标，并上报给集团领导，同时也要提供给各家专业公司，为其提供风险指引。

最后是专项解释，PIA 的评估。平安会对出境数据做审查和审核，这个工作量也是非常大的。因此我们借助大模型，将整个知识库沉淀下来，通过多模态的方式做好智能的审核，以及异常监测报警，从而大幅提升工作效率。

我们的资产管理和专业公司的资产管理之间类似的地方是，数据都是从采集到治理、到盘点，再到使用。但我们的资产管理更侧重于资产的使用，促进不同的专业公司之间合规地进行数据交互。

在数据采集部分，主要工作是推进集团各家专业公司做好 DataOps 工具的使用和规范的推进。

在数据治理部分，要做好数据标准管理和数据质量管理。我们不太关注每家专业公司具体的命名等细节，而是关注其最终结果，是不是他自己所做的指引产生的结果。

资产盘点方面，主要关注分级分类，对于重点数据做重点的考察和审计。还要做好数据认责，一旦数据发生了泄露或者出现其它风险，可以有责任人去追查。

最后是资产的使用。资产使用要经过审批链，要有对于交互的申请，合规的审核。敏感数据是不能被使用的，可能需要对使用申请进行整改，要做一些掩码或者加密。

整个过程中，最主要的工作包括利用AI 分析做分级分类，以及通过知识图谱做数据认责等。

第三个场景是基于大模型的数据能力评估。随着数据管理和数据治理在企业中不断被强化，数据化已成为公司发展过程中必不可少的一部分。信通院也会有大量的评审工作开展。在评审工作开展之前，很多专业公司对自身当前的水平都不是很清楚。所以我们在内部会做一些初评，包括 DCAM 的评估、安全能力的评估、数据状态程度的评估等等。

评估的工作是非常繁杂且庞大的，仅靠人工的审核是无法完成的，因此我们会基于知识库去做内容的审核并提出整改建议。

以上就是本次分享的内容，谢谢大家。

Q&A

Q1：大模型分类分级的能力是如何实现的，效果如何？合规管理中，对合规的风险是怎么理解的，规则库有哪些？大模型在合规管理中扮演怎样的角色？

A1：首先回答第一个问题，关于分级分类，金融行业有一个专业的指引，我们刚开始会去找一家专业公司，推行其做法，再将分级分类的成果沉淀。对于比较好的元数据治理的专业公司，就可以通过知识图谱等方式，快速识别出高风险数据，避免高风险问题的爆发，再对其它数据做分层处理。这是我们现在分级分类的做法。

关于大模型，目前主要尝试用来识别高风险数据，当然后面的数据可能对于我们的知识库会有更大挑战。

平安的大模型工作不是一个 Team 在做，平安自己就在做自己的大模型，他们做 L1 层，我们在做垂域，所以相当于我们是需求提出方，他们在做通盘的平安体系的大模型的过程中把我们的需求加进去，做好调优，输出给我们用就可以了。

未来，我们考虑将知识库的搭建过程工程化，将调参、finetune 等操作相结合，这样使合规领域的大模型与金融领域的垂直大模型发生一些关联。

Q2：大模型做出来的结果如何进行检验？怎样做好与人的相互协调，既减少人工的投入，同时又保证准确率？

A2：集团层面，场景会稍微单纯一点，简单一点，因为是各家专业公司上报的数据资产，干净程度是有保障的，所以我们在用大模型去做审查时过程是相对简单的。但其实这个应用在专业公司是没法用的。在知识库建设的最后一步，应该写一个 case，之后去验证这个 case。比如传统过程中数据治理或者元数据的质量校验结果，要和大模型的结果做对齐，这是我们未来要去做的，并且考虑将其平台化，这样整个对齐的过程只需要在平台里面去看一下结果是不是 OK 的，如果是 OK 的话，就把大模型的这个功能固定下来，未来专注去做这件事就可以了。

Q3：分享中风险监测模块包含的指标计算的展示具体是怎么做的，输出会放在哪里，面向的用户具体是哪些人员？这些数据应该都是来自于平安的各个专业公司的底层业务系统，集团拿到这些数据之后应该是会有一个整体的数据库，那么给到专业公司的赋能体现在哪里？输出数据的价值体现从外部和内部看分别是什么？

A3：这是个非常好的问题。大家都在讲指标，特别是风险指标。最关注风险指标的是管理层，所以指标最终的展现方式会是一张大屏或者一个 board，上面可以看到比如个人信息保护有没有做到，隐私协议的签约有没有做到，资产交互的合规流程有没有做到等等。基于 70 多个指标，最后浓缩为十几个指标，展现在 board 上，提供给管理层。

第二个层面是给到各家专业公司的领导，帮助其了解自身的合规工作做到了什么样的程度，比如下面的 App 是不是都已经做好了协议的更改，分级分类处于一个什么样的水平，让各公司心里有数。

第三个层面是给到真正在做数据管理这件事的运营层面上，他们可能更加关注的是我这件事情所反映出来的结果，比如交换的某个材料有没有实际的风险，是否需要整改。

相当于下面关注点，中间关注面，而到了领导层则关注得更加立体。

Q4：数据安全部分提到了数据认责，数据认责和数据使用效率之间的平衡是如何处理的？比如有些业务数据可能会分配一些责任人，但是对于数据分析人员、数据模型人员，可能不太去接触业务，但他需要使用数据，可能需要认证、审批等流程，那么工作效率如何保证？

A4：这也是个非常好的问题。数据认责其实是一个非常难解决的问题，业界也没有一个能够完全解决数据认责问题的最佳实践。“数据二十条”提出，数据的角色要分开，生产者和拥有者有不同的职责。我们对每一个数据会指定一个所有人，负责该数据是否共享，并为合规负责。对于加工者，比如这个数据 A 公司分享给了 B 公司，那么 B 公司就有权使用这个数据，每一个数据加工的背后还有一个特定的场景，数据责任人只负责在这个数据场景之下，这个数据该不该被使用。我们通过这样的以场景驱动的方式来处理认责和合规。

以上就是本次分享的内容，谢谢大家。

模型赋能下的数据安全合规管理

继续阅读

埃安全新两厢车实车曝光！或搭载全新一代电池技术，续航超500km

假的！假的！安全隐患巨大，千万别买！

3C认证是假的！质检报告也是假的！安全隐患巨大，千万别买！央视《财经调查》曝光→

3C认证是假的！质检报告也是假的！安全隐患巨大，千万别买！

担心安全，还是押注金砖峰会？普京最终拍板：不出席巴西G20峰会

字节跳动回应大模型训练被实习生攻击：已被辞退，不影响线上业务

这两天一个大学生朋友和我私下聊天，讲述他和大学辅导员老师的故事[捂脸]他大三，女辅导员33岁已婚，两地分居状态。他和她因

食品安全最大！孩子安全大中大！“臭肉”事件相关人员必须严恁！

参评项目位列全球30强！这里将成为全球“管理教育新高地”

网络安全“国家队”来杨浦啦！携手打造“数治”杨浦新范式

取暖神器怎么用才安全

自建房消防安全指南

定期监测是儿童身高管理必不可少的环节

紧急提示｜这类场所消防安全要注意

交通安全 | 知危险，会避险！这份交通安全提示，请学生、家长收好！

每日车圈新鲜事：埃安全新车曝光｜迈凯伦W1上市｜纯电奔驰G开售