大数据时代的安全威胁 - 奥玛物流仓储联盟

在大数据环境下，各行业和领域的安全需求正在发生改变，从数据采集、数据整合、数据提炼、数据挖掘到数据发布，这一流程已经形成新的完整链条。随着数据的进一步集中和数据量的增大，对产业链中的数据进行安全防护变得更加困难。同时，数据的分布式、协作式、开放式处理也加大了数据泄露的风险，在大数据的应用过程中，如何确保用户及自身信息资源不被泄露将在很长一段时间都是企业重点考虑的问题。然而，现有的信息安全手段已不能满足大数据时代的信息安全要求，安全威胁将逐渐成为制约大数据技术发展的瓶颈。下面介绍大数据面临的安全威胁。

一、大数据基础设施安全威胁

大数据基础设施包括存储设备、运算设备、一体机和其他基础软件（如虚拟化软件）等。为了支持大数据的应用，需要创建支持大数据环境的基础设施。例如，需要高速的网络来收集各种数据源，大规模的存储设备对海量数据进行存储，还需要各种服务器和计算设备对数据进行分析与应用，并且这些基础设施带有虚拟化和分布式性质等特点。这些基础设施给用户带来各种大数据新应用的同时，也会遭受到安全威胁。

非授权访问，即没有预先经过同意，就使用网络或计算机资源。例如，有意避开系统访问控制机制，对网络设备及资源进行非正常使用，或擅自扩大使用权限，越权访问信息。主要形式有假冒、身份攻击、非法用户进入网络系统进行违法操作，以及合法用户以未授权方式进行操作等。

信息泄露或丢失，包括数据在传输中泄漏或丢失（例如，利用电磁泄漏或搭线窃听方式截获机密信息，或通过对信息流向、流量、通信频度和长度等参数的分析，窃取有用信息等）、在存储介质中丢失或泄漏，以及“ 黑客”通过建立隐蔽隧道窃取敏感信息等。

网络基础设施传输过程中破坏数据完整性。大数据采用的分布式和虚拟化架构，意味着比传统的基础设施有更多的数据传输，大量数据在一个共享的系统里被集成和复制，当加密强度不够的数据在传输时，攻击者能通过实施嗅探、中间人攻击、重放攻击来窃取或篡改数据。

拒绝服务攻击，即通过对网络服务系统的不断干扰，改变其正常的作业流程或执行无关程序，导致系统响应迟缓，影响合法用户的正常使用，甚至使合法用户遭到排斥，不能得到相应的服务。

网络病毒传播，即通过信息网络传播计算机病毒。针对虚拟化技术的安全漏洞攻击，黑客可利用虚拟机管理系统自身的漏洞，入侵到宿主机或同个宿主机上的其他虚拟机。

二、大数据存储安全威胁

大数据规模的爆发性增长，对存储架构产生新的需求，大数据分析应用需求也在推动着IT技术以及计算技术的发展。大数据的规模通常可达到PB量级，结构化数据和非结构化数据混杂其中，数据的来源多种多样，传统结构化存储系统已经无法满足大数据应用的需要，因此，需要采用面向大数据处理的存储系统架构。大数据存储系统要有强大的扩展能力，可以通过增加模块或磁盘存储来增加容量；大数据存储系统的扩展要操作简便快速，操作什至不需要停机。在此种背景下，Scale-out架构越来越受到青睐。Scale-out是指根据需求增加不同的服务器和存储应用，依靠多部服务器、存储协同运算、负载平衡及容错等功能来提高运算能力及可靠度。与传统存储系统的烟囱式架构完全不同，Scale-out架构可以实现无缝平滑的扩展，避免产生“存储孤岛”。

在传统的数据安全中，数据存储是非法入侵的最后环节，目前已形成完善的安全防护体系。大数据对存储的需求主要体现在海量数据处理、大规模集群管理、低延迟读写速度和较低的建设及运营成本方面。大数据时代的数据非常的繁杂，其数据量非常的惊人，保证这些信息数据在有效利用之前的安全是一个重要话题。在数据应用的生命周期中，数据存储是一个关键环节，数据停留在此阶段的时间最长。目前，可采用关系型（SQL）数据库和非关系型（NOSQL，not only SQL）数据库进行存储。现阶段，大多数的企业采用非关系型数据库存储大数据。

1、关系型数据库存储安全

关系型分布式数据库的理论基础是ACID（atomicity、consistency、isolation、durability，原子性、一致性、隔离性、持久性）模型。事务的原子性是指事务中包含的所有操作要么全做，要么全不做。一致性是指在事务开始之前，数据库处于一致性的状态，事务结束后，数据库也必须处于一致性状态。事务隔离性要求系统必须保证事务不受其他并发执行的事务影响。例如对于任何一对事务T1和T2，在事务T1看来，T2要么在T1开始之前已经结束，要么在T1完成之后才开始执行。而持久性是指一个事务一旦成功完成，它对数据库的改变必须是永久的，即便是在系统遇到故障的情况下也不会丢失。数据的重要性决定了事务持久性的重要性。

通过SQL 数据库的ACID模型可以知道，传统的关系型数据库虽然因为通用性设计带来了性能上的限制，但可以通过集群提供较强的横向扩展能力。关系型数据库的优点除了较强的并发读写能力，数据强一致性保障，很强的结构化查询与复杂分析能力和标准的数据访问接口外，还包括如下优点。

●操作方便：关系型数据库通过应用程序和后台连接，方便用户对数据的操作。

●易于维护：关系型数据库具有非常好的完整性，包括实体完整性、参照完整性和用户定义完整性，大大降低了数据冗余和数据不一致的概率。

●便于访问数据：关系型数据库提供了诸如视图、存储过程、触发器、索引等对象。

●更安全便捷：关系型数据库的权限分配和管理，使其较以往的数据库在安全性上要高很多。

通常，数据结构化对于数据库开发和数据防护有着非常重要的作用。结构化的数据便于管理、加密、处理和分类，能够有效地智能分辨非法入侵数据，数据结构化虽然不能够彻底避免数据安全风险，但是能够加快数据安全防护的效果。

关系型数据库所具有的ACID特性保证了数据库交易的可靠处理。关系型数据库通过集成的安全功能保证数据的机密性、完整性和可用性，例如基于角色的权限控制、数据加密机制、支持行和列访问控制等。

关系型数据库也存在很多瓶颈，包括不能有效地处理多维数据，不能有效处理半结构化和非结构化的海量数据，高并发读写性能低，支撑容量有限，数据库的可扩展性和可用性低，建设和运维成本高等。

2、非关系型数据库存储安全

由于大数据具备数据量大、多数据类型、增长速度快和价值密度低的特点，采用传统关系型数据库管理技术往往面临成本支出过多、扩展性差、数据快速查询困难等问题。对于占数据总量80%以上的非结构化数据，通常采用NoSQL（not only SQL）技术完成对大数据的存储、管理和处理。NoSQL指的是非关系型数据库，包含大量不同类型结构化数据和非结构化数据的数据存储。和关系型分布式数据库的ACID理论基础相对，非关系型数据库的理论基础是base模型。base来自于互联网电子商务领域的实践，它是基于CAP理论逐步演化而来，核心思想是即便不能达到强一致性（strong consistency），但可以根据应用特点采用适当的方式来达到最终一致性（eventual consistency）的效果。base是basically available、soft state、eventually consistent 3个词组的简写，是对CAP中CA应用的延伸。base的含义包括：basically available（基本可用）；soft state（软状态/柔性事务），即状态可以有一段时间的不同步；eventual consistency（最终一致性）。base是反ACID的，它完全不同于ACID模型，牺牲强一致性，获得基本可用性和柔性可靠性性能，并要求达到最终一致性。

从NoSQL 的理论基础可以知道，由于数据多样性，非关系数据并不是通过标准SQL语言进行访问的。NoSQL数据存储方法的主要优点是数据的可扩展性和可用性、数据存储的灵活性。每个数据的镜像都存储在不同地点以确保数据可用性。NoSQL的不足之处为在数据一致性方面需要应用层保障，结构化查询统计能力也较弱。

NoSQL带来以下安全挑战。

（1）模式成熟度不够。目前的标准SQL技术包括严格的访问控制和隐私管理工具，而在NoSQL模式中，并没有这样的要求。事实上，NoSQL无法沿用SQL的模式，它应该有自己的新模式。例如，与传统SQL数据存储相比，在NoSQL数据存储中，列和行级的安全性更为重要。此外，NoSQL允许不断对数据记录添加属性，需要为这些新属性定义安全策略。

（2）系统成熟度不够。在饱受各种安全问题的困扰后，关系型数据库和文件服务器系统的安全机制已经变得比较成熟。虽然NoSQL可以从关系型数据库安全设计中学习经验教训，但至少在几年内NoSQL仍然会存在各种漏洞。

（3）客户端软件问题。由于NoSQL 服务器软件没有内置足够的安全机制，因此，必须对访问这些软件的客户端应用程序提供安全措施，这样又会产生其他问题。

● 身份验证和授权功能。该安全措施使应用程序更复杂。例如，应用程序需要定义用户和角色，并且需要决定是否向用户授权访问权限。

● SQL注入问题。困扰着关系型数据库应用程序的问题又继续困扰NoSQL 数据库。例如，在2011年的Black Hat会议上，研究人员展示了黑客如何利用“NoSQL注入”来访问受限制的信息。

●代码容易产生漏洞。市面上有很多NoSQL产品和应用程序，应用程序越多，产生漏洞就越多。

（4）数据冗余和分散性问题。关系型数据库通常在相同位置存储数据。但大数据系统完全采用另外一种模式，将数据分散在不同地理位置、不同服务器中，以实现数据的优化查询处理及容灾备份。这种情况下，难以定位这些数据并进行保护。

非关系型数据的优势是扩展简单、读写快速和成本低廉，但存在很多劣势，例如不提供对SQL的支持，产品不够成熟，很难实现数据的完整性，缺乏强有力的技术支持等。因此开源数据库从出现到用户接受需要一个漫长的过程。

三、大数据网络安全威胁

互联网及移动互联网的快速发展不断地改变人们的工作、生活方式，同时也带来严重的安全威胁。网络面临的风险可分为广度风险和深度风险。广度风险是指安全问题随网络节点数量的增加呈指数级上升。深度风险是指传统攻击依然存在且手段多样；APT（高级持续性威胁）攻击逐渐增多且造成的损失不断增大；攻击者的工具和手段呈现平台化、集成化和自动化的特点，具有更强的隐蔽性、更长的攻击与潜伏时间、更加明确和特定的攻击目标。结合广度风险与深度风险，大规模网络主要面临的问题包括：安全数据规模巨大；安全事件难以发现；安全的整体状况无法描述；安全态势难以感知等。

通过上述分析，网络安全是大数据安全防护的重要内容。现有的安全机制对大数据环境下的网络安全防护并不完美。一方面，大数据时代的信息爆炸，导致来自网络的非法入侵次数急剧增长，网络防御形势十分严峻。另一方面，由于攻击技术的不断成熟，现在的网络攻击手段越来越难以辨识，给现有的数据防护机制带来了巨大的压力。因此对于大型网络，在网络安全层面，除了访问控制、入侵检测、身份识别等基础防御手段，还需要管理人员能够及时感知网络中的异常事件与整体安全态势，从成千上万的安全事件和日志中找到最有价值、最需要处理和解决的安全问题，从而保障网络的安全状态。

四、大数据带来隐私问题

大数据通常包含了大量的用户身份信息、属性信息、行为信息，在大数据应用的各阶段内，如果不能保护好大数据，极易造成用户隐私泄露。此外，大数据的多源性，使得来自各个渠道的数据可以用来进行交叉检验。过去，一些拥有数据的企业经常提供经过简单匿名化的数据作为公开的测试集，在大数据环境下，多源交叉验证有可能发现匿名化数据后面的真实用户，同样会导致隐私泄露。

隐私泄露成为大数据必须要面对且急需解决的问题。大数据时代，现有的隐私保护技术手段还不够完善，除了要建立健全个人隐私保护的法律法规和基本规则之外，还应鼓励隐私保护技术的研发、创新和使用，从技术层面来保障隐私安全，完善用户保障体系。此外，推动大数据产品在个人隐私安全方面标准的制定，提倡行业在用户隐私保护领域自律，并制定相应的行业标准或公约。

1、大数据中的隐私泄露

传统数据安全往往是围绕数据生命周期来部署的，即数据的产生、存储、使用和销毁。随着大数据应用越来越多，数据的拥有者和管理者相分离，原来的数据生命周期逐渐转变成数据的产生、传输、存储和使用。由于大数据的规模没有上限，且许多数据的生命周期极为短暂，因此，常规安全产品要想继续发挥作用，则需要解决如何根据数据存储和处理的动态化、并行化特征，动态跟踪数据边界，管理对数据的操作行为等。

大数据中的隐私泄露有以下表现形式。

（1）在数据存储的过程中对用户隐私权造成的侵犯。大数据中用户无法知道数据确切的存放位置，用户对其个人数据的采集、存储、使用、分享无法有效控制。

（2）在数据传输的过程中对用户隐私权造成的侵犯。大数据环境下数据传输将更为开放和多元化，传统物理区域隔离的方法无法有效保证远距离传输的安全性，电磁泄漏和窃听将成为更加突出的安全威胁。

（3）在数据处理的过程中对用户隐私权造成的侵犯。大数据环境下可能部署大量的虚拟技术，基础设施的脆弱性和加密措施的失效可能产生新的安全风险。大规模的数据处理需要完备的访问控制和身份认证管理，以避免未经授权的数据访问，但资源动态共享的模式无疑增加了这种管理的难度，账户劫持、攻击、身份伪装、认证失效、密钥丢失等都可能威胁用户数据安全。

2、法律和监管

海量数据的汇集加大了国家、企业机密信息泄露的可能性，对大数据的无序使用也增加了敏感信息泄露的危险。在政府层面，建议明确重点领域数据库范围，制定完善的重点领域数据库管理和安全操作制度，加强日常监管。在企业层面，需要加强企业内部管理，制定设备特别是移动设备安全使用规程，规范大数据的使用方法和流程。

五、针对大数据的高级持续性攻击

美国国家标准和技术研究院对APT给出了详细定义：“精通复杂技术的攻击者利用多种攻击向量（如网络、物理和欺诈）借助丰富资源创建机会实现自己目的。”这些目的通常包括对目标企业的信息技术架构进行篡改从而盗取数据（如将数据从内网输送到外网），执行或阻止一项任务、程序；又或者潜入对方架构中伺机偷取数据。

APT的威胁主要包括：

（1）长时间重复这种操作；

（2）适应防御者从而产生抵抗能力；

（3）维持在所需的互动水平以执行偷取信息的操作。

简言之，APT就是长时间窃取数据。作为一种有目标、有组织的攻击方式， APT在流程上同普通攻击行为并无明显区别，但在具体攻击步骤上，APT体现出以下特点，使其具备更强的破坏性。

（1）攻击行为特征难以提取：APT普遍采用0day 漏洞获取权限，通过未知木马进行远程控制。

（2）单点隐蔽能力强：为了躲避传统检测设备，APT 更加注重动态行为和静态文件的隐蔽性。

（3）攻击渠道多样化：目前被曝光的知名APT事件中，社交攻击、0day 漏洞利用、物理摆渡等方式层出不穷。

（4）攻击持续时间长：APT 攻击分为多个步骤，从最初的信息搜集到信息窃取并外传往往要经历几个月甚至更长的时间。

在新形势下，APT可能将大数据作为主要攻击目标，APT攻击的上述特点使得传统以实时检测、实时阻断为主体的防御方式难以有效发挥作用。在同APT的对抗中，必须转换思路，采取新的检测方式，以应对新挑战。

六、其他安全威胁

大数据除了在基础设施、存储、网络、隐私等方面面临上述安全威胁外，还包括如下几方面。

（1）网络化社会使大数据易成为攻击目标

论坛、博客、微博、社交网络、视频网站为代表的新媒体形式促成网络化社会的形成，在网络化社会中，信息的价值要超过基础设施的价值，极容易吸引黑客的攻击。另一方面，网络化社会中大数据蕴涵着人与人之间的关系与联系，使得黑客成功攻击一次就能获得更多数据，无形中降低了黑客的进攻成本，增加了攻击收益。近年来在互联网上发生用户账号的信息失窃等连锁反应可以看出，大数据更容易吸引黑客，而且一旦遭受攻击，造成损失十分惊人。

（2）大数据滥用风险

计算机网络技术和人工智能的发展，为大数据自动收集以及智能动态分析提供方便。但是，大数据技术被滥用或者误用也会带来安全风险。一方面，大数据本身的安全防护存在漏洞。对大数据的安全控制力度仍然不够，API访问权限控制以及密钥生成、存储和管理方面的不足都可能造成数据泄漏。另一方面，攻击者也在利用大数据技术进行攻击。例如，黑客能够利用大数据技术最大限度地收集更多用户敏感信息。

（3）大数据误用风险

大数据的准确性、数据质量以及使用大数据做出的决定可能会产生影响。例如，从社交媒体获取个人信息的准确性，基本的个人资料例如年龄、婚姻状况、教育或者就业情况等通常都是未经验证的，分析结果可信度不高。另一个是数据的质量，从公众渠道收集到的信息，可能与需求相关度较小。这些数据的价值密度较低，如果对其进行分析和使用可能产生无效的结果，从而导致错误的决策。

七、结语

大数据的核心价值在于从海量的复杂数据中挖掘出有价值的信息，通过大数据技术进行更快的分析、更准确的预测，从而构建一个以数据为中心的社会。但是，大数据的新特征对传统的基础设施、存储、网络、信息资源等都提出了更高的安全要求。

（如有版权问题，请通知修改！）