大数据安全
特征:多样化、海量化、快速化、价值密度低、复杂
云计算
基于互联网的计算新方式,通过互联网上异构、自治的服务为个人和企业用户提供按需即取的计算、软件和信息
云计算特征
资源共享、按需分配、弹性调度、服务可扩展、普通接入、系统安全、地理分布
云计算架构
按服务方式:自下而上的基础设施为基础设施即服务层(IaaS)、平台即服务层(PaaS)、软件即服务层(SaaS),三者没有必然联系,也不相互依赖
**按部署方式:**公共云、私有云和混合云
IaaS
提供虚拟硬件资源,如虚拟主机、存储、网络、数据库等
PaaS
把公有的能力进行提取,以开放的接口,提供给个人及第三方进行开发使用
SaaS
一种提供软件的商业模式。客户根据自己实际需求,通过互联网向厂商定购所需的应用软件服务,按定购服务的多少和时间长短向厂商支付费用,并通过互联网获得厂商提供的服务
私有云
企业自己使用的云,所有提供服务不是供外部人员使用
公共云
为外部用户提供服务的云,所有的服务是供外部人员使用
混合云
把公用云模式和私有云模式结合在一起
云计算与相关技术
云计算可以说是单机计算、并行计算、分布式计算、网格计算的延展
单机计算
计算由单机独立完成,具有较好的安全性能
并行计算
同时使用多种计算资源处理问题的过程,时间上的并行计算指流水线技术,空间上的并行指用多个处理器并发的执行计算。目前的并行计算多指后者,此方式划分的任务之间有很强的关联性,容错性较差,导致并行计算的价格较高,多使用于科学计算中
分布式计算
在两个或多个软件互相共享信息,计算任务既可以在同一台计算机上运行,也可以在通过网络连接起来的多台计算机上运行。实现稀有资源共享,实现任务的平衡计算负载,共享稀有资源和平衡负载是计算机分布式计算的核心思想之一
网格计算
利用互联网把分散在不同地理位置的计算机组织成一个虚拟的超级计算机,其中每一台参与计算的计算机就是一个“节点”,而整个计算是有成千上万个“及诶单”组成的“一张网格”。具有超强的数据处理能力,能充分利用网络中的限制处理能力
云计算与网格计算比较
云计算 | 网格计算 | |
---|---|---|
目标 | 提供通用的计算平台和存储空间,提供各种软件服务 | 共享高性能计算力和数据资源,实现资源共享和协同工作 |
资源来源 | 同一机构 | 不同机构 |
资源节点 | 服务器/pc | 高性能计算机 |
虚拟化视图 | 虚拟机 | 虚拟组织 |
计算类型 | 松耦合问题 | 紧耦合问题为主 |
应用类型 | 数据处理为主 | 科学计算为主 |
用户类型 | 商业社会 | 科学界 |
付费方式 | 按量计费 | 免费 |
标准化 | ITU、Oasis、OCC、CSA等开始制定标准 | 国际标准OGSA/WSRF |
云计算与P2P技术
架构:云计算以服务器集群为中心,计算和数据存储都由网络中的云端完成,终端可以只实现输入输出;P2P强调去中心化理念,实现对终端能力的充分挖掘,网络只是传输管道
服务质量:云计算的服务器集群具有高度的稳定性 ,这使得基于云计算实现的应用范围更广阔;P2P网络具有天然的高动态性,导致P2P的应用性能存在天然缺陷
网络流量:云计算服务器之间是分布式结构,对外类似C/S模式,流量具有天然的非对称特点,符合现阶段的网络带宽特点;P2P产生的流量具有上下行趋于相等的趋势
云计算与大数据的关系
- 云计算的资源共享、高可扩展性、服务特性可以用来搭建大数据平台,进行数据管理和运营;云计算架构及服务模式为大数据提供基础的信息存储、分享解决方案,是大数据挖掘及知识生产的基础
- 大数据技术对存储、分析、安全的需求,促进了云计算架构、云存储、云安全技术快速发展和严谨,推动云服务与云应用的落地
云计算是大数据处理的基础,大数据是云计算的延伸。云计算代表着一种数据存储、计算能力,大数据代表着一种数据知识挑战,计算需要数据来体现其效率,数据需要计算来体现价值。
大数据安全产业动态
腾讯大数据安全应用动态
**腾讯数据挖掘体系:**数据层、分析等、算法层、输出层、投放层
算法层具有定向规则过滤,输出层严格控制细分人群的精准投放率,投放层控制投放频次进行算法配置
阿里巴巴数据防护开展
阿里云梯Hadoop集群采用HDFS和MapReduce技术。为了实现原始表、中间表、元数据共享,避免重复计算和存储没在阿里云梯Hadoop集群上构建了阿里巴巴数据交换中心
百度基础大数据平台的安全防护
百度重点在大数据规模数据存储、数据分析以及数据索引等方面做了研究与应用
大数据安全威胁
大数据基础设施安全威胁
- 非授权访问
- 信息泄露或丢失
- 网络基础设施传输过程中破坏数据完整性
- 拒绝服务供给
- 网络病毒传播
大数据存储安全威胁
关系型分布式数据库
基础理论:
ACID(atomicity、consistency、ioslation、durability),原子性、一致性、隔离性、持久性。
原子性:对于事务中的所有操作要么全做,要么全不做
一致性:事务开始之前,数据库处于一致性的状态,事物结束后,数据库也必须处于一致性状态
隔离性:系统必须保证事务不受其他并发执行的事务影响
持久性:一个事务一旦成功完成,他对数据库的改变必须是永久的,即便是在系统遇到故障的情况下也不会丢失
优点:
较强的并发读写能力、数据强一致性保障、结构化查询与复杂分析能力、标准的数据访问接口、操作方便、易于维护、便于访问数据、更安全便捷
非关系型数据库存储安全
NoSQL
基础理论:
BASE(basically avilable、soft state、eventually consistent),基本可用、软状态\柔性事务、最终一致性
安全问题:
- 模式成熟度不够。没有严格的访问控制和隐私管理工具;允许不断对数据记录添加属性,需要为这些新属性定义安全策略
- 系统成熟度不够。存在各种漏洞
- 客户端软件问题。没有内置足够的安全机制,必须对访问这些软件的客户端应用程序提供安全措施,但会产生如下问题:
- 身份验证和授权功能
- SQL注入问题
- 代码容易产生漏洞
- 数据冗余和分散性问题。大数据系统将数据分散在不同地理位置、不同服务器中,以实现数据的优化查询处理及容灾备份。
大数据网络安全威胁
大规模网络主要面临的问题包括:
安全数据规模巨大;安全事件难以发现;安全的整体状况无法描述;安全态势难以感知
大规模网络安全事件的应对手段:
访问控制、入侵检测、身份识别等基础防御手段;及时感知网络中的一场事件与整体安全态势,从成千上万的安全事件和日志中找到最有价值、最需要处理和解决的安全问题。
大数据隐私问题
大数据通常包含了大量的用户身份信息、属性信息、行为信息。大数据的多元性,使得来自各个渠道的数据可以用来进行交叉检验,多源交叉验证可可能发现匿名化数据后面的真实用户。
大数据中的隐私泄露形式:
- 在数据存储的过程中对用户隐私权造成的侵犯
- 在数据传输的过程中对用户隐私权造成的侵犯
- 在数据处理的过程中对用户隐私权造成的侵犯
针对大数据的高级持续性攻击
APT特点:
- 攻击行为特征难以提取
- 单点隐蔽能力强
- 攻击渠道多样化
- 攻击持续时间长
APT使得传统以实时监测、实时阻断为主体的防御方式难以发挥作用,在面对大数据的APT对抗中,必须转换思路,采取新的检测方式,以应对新挑战
其他安全威胁
- 网络化社会使大数据易称为攻击目标
- 大数据滥用风险
- 大数据误用风险
理解大数据安全
大数据内涵
大数据安全应该包括两个层面的含义:保障大数据安全和大数据用于安全。
保障大数据安全:保障大数据计算过程、数据形态、应用价值的处理技术,涉及到大数据自身安全的问题
大数据用于安全:利用大数据技术提升信息系统安全效能和能力的方法,设计如何解决信息系统安全问题
保障大数据安全
大数据自身产生的安全问题
- 大数据由于目标大,在网络上更容易被发现了,对潜在攻击者的吸引力更大
- 海量数据的汇集加大了敏感数据暴露的可能性
- 大数据的无序使用增加了要害信息泄露的危险
- 随着企业数据访问捅到越来越多,对大数据访问的安全控制难度增加
- 大数据分析在特殊行业需要满足数据安全标准和保密性要求
- 数据集中后,对现有的存储和安全防范措施提出新的挑战
大数据以为这数据及其承载系统的分布式和鲁棒性,单个数据和系统的价值相对降低,空间和时间的大跨度,价值的稀疏,外部人员更不容易寻找攻击点。在大数据环境下完全的去中心化很难,对于低密度价值的提炼过程也是吸引攻击的内容。
为结局大数据自身的安全问题,需要重新设计和构建大数据安全构架和开放数据服务,从网络安全、数据安全、灾难备份、安全风险管理、安全运营管理、安全事件管理、安全治理等各个角度考虑,部署整体的安全解决方案,保障大数据计算过程、数据形态、应用价值的安全。
大数据用于安全领域
大数据对安全分析提供新的可能性,对于海量数据的分析有助于更好地刻画网络异常行为,从而找出数据中的风险点,指定更好的预防攻击,防止信息泄露的策略。
目前大数据在信息安全的领域的应用包括两个方面:宏观上的网络安全态势感知和微观上的安全威胁发现。
网络态势感知:运用大数据技术特有的海量存储、并行计算、高校查询等特点,解决大规模网络安全事件数据的有效获取,海量安全事件数据的实时关联分析,客观、可理解的网络安全指标体建立等问题,从中发现主机和网络异常行为,起到全局安全预警的作用。
安全威胁发现:大数据中刚发现微观事件,特别是高级持续性威胁攻击发现。通过全面收集重要终端和服务器上的日志信息,以及采集网络设备上的原始流量,利用大数据技术进行分析和挖掘,检测并还原整个APT攻击场景,能够起到动态预防的安全作用。
大数据安全技术研究方向
一:确保大数据安全的关键技术,设计大数据业务链条上的数据产生、存储、处理、价值提取、商业应用等环节的数据安全防御和保护技术
二:利用设计安全信息的大数据在信息安全领域进行分析与应用,涉及安全大数据的手机、整理、过滤、正和、存储、挖掘、审计、应用等环节的关键技术
大数据安全保障技术
目标:最大程度的保护具有流动性和开放性特征的大数据自身安全,防止数据泄露、越权访问、数据篡改、数据丢失、密钥泄露、侵犯用户隐私等问题的出现。
大数据安全生命周期
建立 --> 存储 --> 使用 --> 分享 --> 封存 --> 销毁
对大数据挖掘和分析的前提是采集足够多的数据,其后的集成、分析、管理都构建于数据采集基础之上。但是数据在采集、过滤、整合、提炼过程中常常涉及采集合规、敏感信息、隐私数据、传输安全、接口安全等问题。
采集阶段
- 网络层针对数据应用的网络架构与系统入口进行安全防护,例如防火墙和入侵监测等手段
- 设备层采用设备安置及无力保护、设备处置与重用安全、存储设备安全要求、服务器安全要求、终端安全管理、接入设备安全要求等防护措施
数据传输阶段
- 数据加密通过加密算法为数据流的上传提供有效保护,实现信息隐蔽
- 数据脱敏对脱敏等级与效果进行度量
数据安全存储
- 数据加密。按照数据安全存储的需求,被存储在数据集的任何存储空间,通过SSL加密,实现数据集的节点和应用程序之间移动保护大数据。在大数据的传输服务过程中,加密为数据流的上传和下载提供有效的保护。应用隐私保护和外包数据计算,屏蔽网络攻击
- 分离密钥和加密数据。使用密钥管理技术把数据使用于数据保管相分离,把密钥与要保护的数据隔离开。涉及从密钥的管理体制、管理协议和密钥的产生、分配、存储、更换、注入、有效期等
- 使用过滤器。通过过滤器的监控,一旦发现数据离开了用户的网络,就自动阻止的再次传输,可采用数据标识、签名、水印等技术来实现
- 数据备份。对于大数据应用而言,实时备份恢复非常困难。因此,需要定时通过系统容灾、敏感信息集中管控和数据管理等产品,实现端对端的数据保护,确保大数据损坏情况下有备无患和安全管控。
- 加强细粒度授权管理。可以根据大数据的密级程度和用户需求不同,将大数据和用户设定不同的权限等级,并严格控制访问权限。实际生产中,要对数据流主客体、数据访问权限、特权用户的登入、访问行数、数据表和高危行为、允可规则、禁止规则等进行管控
数据挖掘阶段
- 对接入的实体信息进行身份认证和访问控制,通过安全的方式与数据存储系统对接
- 保存完整的操作处理日志,以便设计
- 通过统一安全策略进行管理,实现鉴权、审计等功能
- 在数据应用前,需要有效的技术手段保障数据自身的安全性,防止数据盗用和回写等违规操作
- 审计分析需要具备关键字分析、统计分析和关联分析等能力。可采用的技术有:行为合规审计、内容合规审计、输出加密要求、实时审计、事后审计、审计留痕等
大数据安全保障技术
数据采集安全技术
太常规了,采用SSL VPN技术保证大数据传输过程中的应用
SSL VPN
特点
- 连接是保密的
- 连接是可靠的
- 对端实体的鉴别采用非对称密码体制进行认证
工作模式
- web浏览器模式
- SSL VPN客户端模式
- LAN到LAN模式
数据存储安全技术
隐私保护
隐私保护技术主要保护以下两方面的内容
- 如何保证数据应用过程中不泄露隐私
- 如何更有利于数据的应用
隐私保护技术的分类
-
基于数据变换的隐私保护技术
对敏感属性进行转换,使原始数据部分失真,但是保持某些数据或数据属性不便的方法。数据失真技术通过扰动原始数据来实现隐私保护,它要使扰动后的数据同时满足以下两点
- 攻击者不能发现真实的原始数据。也就是说,攻击者通过发布的失真数据不能重构出真实的原始数据
- 失真后的数据仍然保持某些性质不变,即利用失真数据得出的某些信息等同于从原始数据上得出的信息,这就保证了基于失真数据的某些应用的可行性
-
基于数据加密的隐私保护技术
采用对称或非对称加密技术在数据挖掘过程中隐藏敏感数据,多用于分布式应用环境中,如分布式数据挖掘、分布式安全查询、几何计算、科学计算等。
分布式一般采用两种模式存储数据:
- 垂直划分。分布式环境中,每个站点值存储部分属性的数据,所有站点存储数据不重复
- 水平划分。将数据记录存储到分布式环境中的多个站点,所有站点存储的数据不重复。
-
基于匿名化的隐私保护技术
匿名化是根据具体情况有条件地发布数据。限制发布即有选择的发布原始数据、不发布后者发布精度较低的敏感数据,以实现隐私保护。数据匿名化一般采用两种基本操作。
- 抑制:抑制某项数据项,即不发布该数据项
- 泛化:泛化是对数据进行更概括、抽象的描述。譬如,对整数5的一种泛化形式是[3,6],5在区间[3,6]内。
基于数据变换的技术,效率比较高,但却存在一定程度的信息丢失;基于加密的技术能保证最终数据的准确性和安全性,但是计算开销较大;限制发布技术的优点是保证所发布的数据一定真实,但发布的数据会有一定的信息丢失
备份与恢复
常见的备份与恢复机制
- 异地备份
- 基于磁盘阵列
- 基于主机方式
- 基于存储管理平台
- RAID(独立磁盘冗余阵列)
- 数据镜像
- 快照
大数据的备份与恢复
Hadoop分布式文件系统HDFS
数据挖掘安全技术
身份认证
- kerberos认证
- 基于公共密钥的认证机制
- 基于动态口令的认证机制
- 基于生物识别技术的认证机制
访问控制
- 自主访问控制(DAC)
- 强制访问控制(MAC)
- 基于角色的访问控制(RBAC)
数据发布安全技术
安全审计
- 基于日志的审计技术
- 基于网络监听的审计技术
- 基于网关的审计技术
- 基于代理的审计技术
数据溯源
数字水印技术特征
- 不可感知性
- 强壮性
- 可证明性
- 自恢复性
- 安全保密性
数字水印利用数据隐藏原理使水印标志不可见,既不损害原数据,又达到了对数据进行标记的目的。将数字水印引入大数据应用领域,解决数据溯源问题。在数据发布出口,建立数字水印加载机制,在进行数据发布时,针对重要数据,为每个访问者获得的数据加载唯一的数字水印。当发生机密泄露或隐私问题时,可以通过水印提取的方式,检查发生问题数据是发布给哪个数据访问者的,从而确定数据泄露的源头,及时进行处理
防范APT攻击
APT攻击特征与流程
APT攻击特征
- 极强的隐蔽性
- 潜伏期长,持续性强
- 目标性强
- 技术高超
- 威胁性大
描述 | 属性 | 传统攻击 | APT攻击 |
---|---|---|---|
who | 攻击者 | 大范围寻找目标的黑客 | 资金充足、有组织、有背景的黑客团队 |
what | 目标对象 | 在线零售业及其用户 | 国家重要基础设施、重点组织和任务 |
目标数据 | 信用卡数据、银行账号、个人信息等 | 价值很高的电子资产,如知识产权、国家安全、商业机密等 | |
why | 目的 | 获得经济利益,身份窃取等 | 提升国家战略优势、操作市场、摧毁关键设施等 |
how | 手段 | 传统技术手段、重点攻击安全边界 | 深入调查公司员工信息、商业业务和网络拓扑、攻击终端用户和终端设备 |
工具 | 常用扫描工具、木马 | 针对目标漏洞定制木马等攻击工具 | |
0day工具使用 | 极少 | 普遍 | |
遇到阻力 | 转到其他脆弱机器 | 构建其他方法或工具 |
APT攻击一般流程
- 信息侦查
- 持续渗透
- 长期潜伏
- 窃取信息
APT攻击检测
检测方案:
- 沙箱方案
- 异常检测
- 全流量审计
- 基于深层协议解析的异常识别
- 攻击溯源
APT攻击检测中,存在的问题包括:
- 攻击过程包含路径和时序
- 攻击过程的大部分貌似正常操作
- 不是所有的异常操作都能立刻被检测
- 不能保证被检测到的异常在APT过程的开始或早期
基于记忆的检测可以有效缓解上述问题,现在对抗APT的思路是以时间来对抗时间。既然APT是在长时间发生的,我们的对抗也要在一个时间窗内来进行对抗,对长时间、全流量数据进行深度分析。针对A问题,可以采用沙箱方式、异常检测模式来解决特征匹配的不足;针对P问题,可以将传统基于试试时间点的检测,转变为基于历史时间窗的检测,通过流量的回溯和关联分析发现APT模式。而流量存储与现有检测技术相结合,构成了新一代基于记忆的智能检测系统。此外,还需要利用大数据分析的关键技术。
APT攻击防范策略
新的防御体系:
- 防范社会工程
- 全面采集行为记录,避免内部监控盲点
- 主机行为采集
- 网络行为采集
- IT系统异常行为检测
非法外联行为:
- 下载恶意程序到目标主机
- 目标主机与外网的C&C服务器进行联络
- 内部主机向C&C服务器传送数据,其中外传数据的行为是最多样、最隐蔽也是最终构成实质性危害的行为