马晓亭 陈 臣
(兰州财经大学信息工程学院 兰州 730020)
·学术论坛·
基于大数据生命周期理论的读者隐私风险管理与保护框架构建
马晓亭 陈 臣
(兰州财经大学信息工程学院 兰州 730020)
图书馆读者大数据的安全和隐私保护面临着诸如安全架构、数据隐私风险管理、个人数据被全天候和全方位监视、读者大数据被二次利用等风险,传统的隐私保护技术已不适应大数据时代图书馆隐私保护需求。文章总结归纳了大数据环境下面临的隐私问题,通过分析现有隐私保护机制的不足,构建基于大数据生命周期理论的图书馆读者隐私风险管理与保护框架。
大数据 生命周期理论 隐私风险管理与保护
随着移动互联网、云计算、传感器网络和物联网技术的发展,图书馆已进入大数据时代。大数据具有海量(Volume)、多样性(Variety)、快速处理(Velocity)、高价值(Value)的4V特征[1],传统的数据安全管理与防范策略,已不适应当前图书馆复杂、多变的大数据环境安全管理需求,极易受到黑客与病毒的攻击而导致数据被截取、篡改和非法滥用。此外,图书馆对大数据的过度挖掘和分析,也可能会泄露读者隐私和侵犯敏感数据。因此,大数据环境下如何有效保护数据安全和读者隐私,已成为关系图书馆服务效益、可信度和读者满意度的重要问题。
美国是世界上最早提出隐私权并予以法律保护的国家,于1974年通过了《隐私法案》。奥巴马政府于2015年初公布了《2015年消费者隐私权法案》,该法案明确规定了大数据的所有权属于用户,并对第三方在使用用户个体数据的透明性和安全性上进行了限制。2012年3月,欧盟也提出改革《数据保护法规》,帮助欧盟民众进一步保护个人信息,帮助企业利用“单一数字市场”带来的机遇。与欧美等国在法律上较完善的数据隐私保护相比,我国相关法律中仅提及“公民的个人数据不得非法搜集、传输、处理和利用”,但我国《民法通则》并未将隐私权作为一项独立的人格权加以保护,还未颁布相关大数据时代公民隐私保护法律[2]。
2.1 大数据时代读者的隐私范畴难以界定
图书馆通过视频监控器、传感器、移动设备、读者管理系统和阅读终端等,采集到的读者个体特征数据具有海量、多样化、复杂、动态、纵深和分布的特点,图书馆难以对所采集的读者数据进行隐私范畴划分与界定。据独立调研机构Ponemon Institute调研报告显示:84%的公司在软件开发与测试期间使用真实的客户信息,70%的公司使用消费者的数据,51%的公司使用信贷或其它支付信息,而且其中45%的公司没有对开发和测试中使用的真实数据予以保护。这意味着商业公司或政府机构在使用客户数据的过程中,存在着严重的安全风险和个人隐私泄露隐患[3]。
图书馆不同部门采集的大数据具有数据海量、多类型、数据条块分割严重和不易融合的特点。此外,各部门在大数据的采集、传输和存储中采用不同的数据标准和操作规范,易导致“数据孤岛”现象发生,图书馆难以有效划分读者隐私数据的内容和数量。其次,为了提升大数据的价值总量和数据可用性,图书馆会与第三方通过数据交换、共享的方式进行数据交易,这种数据交易方式可能会破坏图书馆原有的数据安全监管、防护体系,导致读者的隐私范畴划分复杂化。第三,为了增强大数据的管理效率和降低大数据应用成本,图书馆会采用租赁云存储空间和云计算资源的方式,实现海量大数据的高速云存储和实时计算。图书馆如果将大数据存储于云空间,大数据的主体范围、地域、时空等都发生了变化,而现有法律制度还未对存储于云空间的数据所有权进行明确规定,图书馆可能会丧失数据的主权(数据主权是指一个国家对其管辖地域范围内个人、企业和相关组织所产生的数据拥有的最高权力)和数据控制权。第四,读者位置信息和移动路径数据,是图书馆判定读者个性化阅读需求的关键数据。图书馆虽然可通过用户知情、授权使用和匿名化等方式保护读者隐私,但如何在保证位置数据可用性前提下保护读者隐私,以及准确度量读者敏感信息泄露的程度,是大数据时代读者隐私范畴界定的一个难点问题。
2.2 读者的个人隐私数据可能会被肆意收集
大数据环境下,图书馆可根据IT服务基础设施构建、读者阅读需求预测、数据中心运营管理和用户QOS(服务质量)保证需求,全方位、不间断地采集读者的特征大数据。采集读者个体大数据的方式主要通过搜索引擎、用户管理系统、监控视频、移动阅读终端、服务器监控设备等,获取读者的个体特征数据、阅读历史行为数据、阅读社会关系数据、移动路径与位置数据、工作与居住地信息、个人习惯和偏好数据等,这些特征数据的采集通常未经读者授权,读者也很少思考与过问这些数据的使用内容、对象、范围和被监管主体,存在较大的隐私安全隐患。
《大数据时代》一书作者维克托·迈尔-舍恩伯格,在出席北京第八届中国云计算大会期间描述道:“我们当前的方式是询问每一个客户、个人是否同意搜集其个人数据,这种个人数据保护方式是完全错误的,政府应做出某种程度上的规定,判定数据收集的合理性和合法性”[4]。当前,随着图书馆传感器网络存储、计算能力的提升和设备使用成本的下降,大数据的采集、存储和计算已不再是影响图书馆大数据应用的关键因素,如何制定符合大数据应用实际的法律、法规,有效保护读者隐私安全才是关系图书馆服务可信度的关键。其次,大数据时代图书馆为了提升服务的开放性和可用性,会支持第三方开发相应的个性化阅读与应用软件,而第三方应用软件也可能会采集、窃取读者的隐私数据。因此,如何在采集的内容、范围、程度和应用对象等方面,有效监督和限制第三方的应用软件,是防止读者个人隐私被肆意收集的重要举措。第三,为了提高大数据采集的效率和速度,图书馆通常会利用网络爬虫来采集读者的阅读行为数据,并以出售和共享的方式转让给第三方。这种对图书馆大数据的过度采集、共享、融合和分析方式,虽然极大程度挖掘了读者大数据的价值,但存在读者隐私被侵犯的风险。
2.3 大数据清洗不能实现数据的完全脱敏
传统数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息和纠正错误,并提供数据一致性。而在大数据时代,图书馆希望通过大数据清洗后隐匿读者的个人身份信息、个人隐私和社会关系数据,确保图书馆在大数据分析与决策中不会泄露读者的隐私。其次,图书馆期望通过大数据清洗后,改变读者原有个体数据的知识结构和所有权归属,使图书馆获得读者个体数据的使用和所有权。实际上,传统的数据清洗并不能实现读者个体大数据的脱敏,更无法实现将“底层数据”的所有权转移到所谓的“数据结果”上,因而图书馆无法获得法律意义上的数据所有权和支配权。
Internet网络是大数据采集、传输和处理的支撑平台,大数据环境下的Internet网络具有更强的开放性、交互性、及时性和多元性等特点,传统IT环境下通过告知与许可、模糊化与匿名化等保护读者隐私的方式,已不适用于图书馆大数据复杂环境。此外,大数据时代黑客侵犯读者隐私权的手段更加广泛、多样、智能和隐蔽,即使是匿名脱敏后的大数据也可以被重新定义并归属到具体的读者个体,难以防范。
2.4 大数据时代读者隐私权的语义与范围发生变化
大数据时代读者隐私权涵盖的范围快速扩展,除传统意义上的公民个人在生活中不愿为他人(一定范围以外的人)公开或知悉的秘密,还包括读者的位置信息、移动路径、视频监控、浏览记录和阅读社会关系等,对这些数据的深度挖掘和分析同样会导致读者隐私泄露。
其次,读者隐私侵犯的不可逆性显著增强,图书馆对读者隐私权益保护的难度快速升级。当前,大数据的应用已摆脱了时间、空间与计算能力对数据可用性的限制,图书馆可全面、深度和不间断地采集数据,并对所采集到的数据进行快速、实时的计算与决策分析。但是,国际上对个人隐私保护的立法相对滞后,无法满足快速增长的大数据复杂环境变化和读者隐私保护需求,难以有效处理大数据时代读者隐私保护面临的新问题。
第三,基于大数据开放和公平信息实践的原则,图书馆在不能有效判断读者隐私被侵犯的前提下,不应过分限制决策层和各应用部分对读者个体数据采集、处理、分析和决策的程度,从而影响图书馆对读者个体数据采集的整体价值量和分析、决策的科学性。因此,重新思考该如何为读者授权,使读者拥有对自身数据采集、传输、存储、处理、访问、分析和决策的控制权,是大数据时代图书馆应重点关注的问题。
第四,大数据时代,图书馆如何基于相关法律支持个人数据使用协议,在法律和协议规定的时间、对象、范围和内容等范围内使用读者数据,防止数据分析师通过对数据的过度挖掘、还原、整合和二次分析侵犯读者隐私,是大数据时代读者个人隐私永久归属权判定、管理和保护的关键点。
2.5 读者隐私权存在被二次分析、使用的威胁
大数据时代,图书馆基于大数据的计算框架,可凭借科学的数学算法对海量数据进行全面分析,进而从杂乱无章的数据关系中发现规律,使图书馆的服务竞争环境、服务模式变化趋势、服务收益和读者行为变成可量化的维度,实现对图书馆发展趋势、用户服务模式变革和读者阅读需求等较为偶然事件的科学预测。图书馆在利用大数据进行分析、预测时,可通过挖掘大数据中的异常点、频繁模式、分类模式和数据相关性,获知用户的隐私信息。比如Analytics是一款由谷歌分析的官方Android版手机应用,用户可直接使用自己手机上的Google帐号进入,可以在Android手机上随时随地查看、分析自己的网站访问统计数据。然而,用户使用该工具时并不能保证自己的隐私数据不被泄露,Analytics不仅知道用户本身网站所有的访客信息,也可以通过关联分析获悉其他网站中的访客信息[5]。
云计算技术在图书馆服务中的广泛应用,大幅降低了图书馆大数据存储和云计算的成本。但是,频繁利用云计算技术对读者大数据进行全面的采集、深度挖掘、循环利用和二次分析,虽然可快速提升图书馆大数据决策的科学性、效率和收益,但这种全方位、多层次和不间断的大数据收集、分析与循环利用模式,在一定程度上增加了读者隐私被侵犯的风险。
数据融合是图书馆采用链接操作将多个异构数据源汇聚在一起,并在一定准则下加以自动分析、综合,以完成所需的决策和评估任务而进行的信息处理技术。然而,如果将多源数据通过关联处理而实现决策层的融合,则即使图书馆采用匿名或者模糊化技术将读者的隐私信息隐匿,攻击者也可利用其他公共或者隐私数据源,对匿名之后的数据源进行链接攻击,最终实现读者身份和隐私数据的重新识别。
3.1 图书馆读者隐私保护生命周期管理模型的构建
图书馆在读者大数据隐私保护中,相关的对象主要为读者个体、用户大数据采集终端、大数据网络传输设备、大数据存储服务器、云计算服务器和图书馆决策层等,涉及的大数据隐私保护流程主要为大数据的生产、大数据采集与传输、大数据云存储、大数据的计算与分析、大数据的应用决策等过程。图书馆读者隐私保护生命周期管理模型的设计原则,应符合读者隐私数据产生、数据存储与管理、数据处理与应用、数据销毁的数据生命周期发展科学规律,依据读者隐私保护的优先级别和隐私侵犯后果的严重性设计保护模型。图书馆读者隐私保护生命周期管理模型见图1所示:
图1 图书馆读者隐私保护生命周期管理模型
读者隐私保护生命周期管理模型,基于隐私数据生命周期发展各个阶段所涉及的作用对象和数据传输流程,详细描述、划分了读者隐私被侵犯所面临的风险问题,依据读者隐私侵犯的对象、内容、流程和手段,设计了基于读者隐私安全动态监控、隐私安全动态评估、隐私安全管理技术保证、安全事故审计与问责制度、隐私保护法律与行业规定为主体的隐私保护生命周期管理模型。该模型可动态监控读者的隐私安全防御系统运行状况和所面临的安全威胁,对隐私保护内容的重要级别和安全性进行评估,并动态选择相应的安全策略和技术手段积极防护。此外,当读者隐私侵犯事件发生后,还可依据隐私保护法律制度和图书馆行业规定,对图书馆发生的相关读者隐私侵犯事故进行安全审计和事后问责[6]。
3.2 读者应获得对个人隐私数据采集、存储、使用和共享的控制权
读者既是大数据的生产者,也是图书馆大数据决策服务的受益者,读者个体大数据的价值总量、价值密度和决策可用性,直接关系图书馆大数据应用的科学性与决策收益。但在读者个体大数据的采集、处理、分析和决策中,如果所有的大数据应用过程都必须获得读者的授权与许可,则必定会影响图书馆大数据应用的效率和决策可用性。所以,图书馆大数据决策应采取读者提前授权的方式,由读者完全掌握个人隐私数据采集、存储、使用和共享的控制权。
首先,读者应完全拥有自身大数据的所有权、知情权、使用权、选择权和销毁权,图书馆有责任与义务保护读者隐私数据的安全,在使用读者个体大数据时必须履行相应的告知义务,在获得读者授权后,才能在相应授权范围内进行个体大数据的采集、传输、存储、计算和决策应用。同时,读者也可根据自己获得阅读服务的等级和收益,决定自身大数据应用的范围与程度。其次,图书馆对于读者个体大数据的使用,应坚持以服务为中心的目的原则,不过度采集、处理和分析读者的隐私数据,防止因对读者大数据的过度挖掘、还原、整合和二次分析而侵犯读者隐私[4]。第三,对读者个体数据的共享与二次利用,是图书馆深度挖掘用户大数据价值和提升数据决策科学性的重要途径。图书馆在对读者大数据进行共享与二次利用时,应对大数据应用的安全性和读者隐私保护的有效性进行风险评估,特别对隐私数据的分析、利用和共享过程实行严格管控,必须获得读者授权和对数据进行脱敏处理。此外,当图书馆的服务权或者资产所有权发生改变时,图书馆在将读者个体大数据转给新的所有者时必须获得读者许可。
3.3 应对敏感大数据进行脱敏处理
大数据时代,读者可使用智能手机、移动阅读终端等设备访问数字图书馆,在享受图书馆知识服务的同时,也会将自身的个体移动路径与位置信息、浏览时间与地点、阅读内容、阅读社会关系和阅读需求等数据传输给图书馆,使读者个体数据的所有权边界消失或者模糊不清,导致图书馆传统IT环境下的读者隐私保护体系失效。此外,图书馆还可通过对海量数据的全面融合和交叉分析,分析出读者的个人隐私信息。因此,必须对与图书馆服务无关的用户数据进行脱敏处理,才能保护读者隐私安全。
百度百科将数据脱敏定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集[7]。其中敏感数据的识别与认定、脱敏规则和使用环境是图书馆读者数据脱敏应关注的3个关键点。图书馆在大数据决策中,应保证读者个体大数据价值总量、价值密度和数据可用性的前提下,脱敏与大数据决策相关性较弱的读者姓名、身份证件号、位置信息、住址、联系方式、银行账号、邮箱地址和社交关系等数据。按照脱敏规则划分,图书馆可将敏感数据划分为脱敏后敏感信息可恢复和不可恢复两大类。对于敏感性评估较低的读者姓名、阅读终端类型、浏览时间与地点、阅读需求等数据,可用复杂度较低的加解密算法进行处理。而对敏感性评估较高的诸如读者移动路径与位置信息、阅读内容、阅读社会关系和银行帐户等数据,则可用替换算法和生成算法等,将需要脱敏的部分用定义好的字符或字符串替换,把敏感数据转化为真实的“假数据”进行保护。此外,对于需要实时决策的读者敏感大数据,图书馆应采用在数据产生环境中进行动态加密和决策环境快速脱敏的方式,在保证大数据即时决策需求的前提下保护读者隐私安全。
3.4 图书馆应依法加强对读者隐私的保护
美国Verizon公司发布的《2015年数据泄露调查报告》显示,据95个国家的不完全统计,仅2014年就发生了近八万起数据安全事故,涉及上亿个记录。然而政府、企业和其他管理机构对数据泄露和不当使用的反应速度,常常要滞后数小时、几天或者几个月,且存在着相应的法律、法规缺失问题[8]。《大数据时代》作者维克托·迈尔-舍恩伯格认为:通过询问每一个客户是否同意公开数据的做法是错误的,每个个体并不知道我的数据会被怎样使用,有一些人对此并不在意,往往会点同意。因此,应转变由读者个人成为保护自身隐私主体的模式,而由政府通过立法来明确公民隐私保护的内容、范围、方式和权益[9]。
大数据时代,图书馆应坚持隐私保护政策开放和维护读者利益相结合的原则,努力在读者隐私保护有效性和大数据决策收益之间实现均衡。首先,读者应享有图书馆对自身隐私数据采集、存储、传输、处理和分析的告知权,读者有权控制图书馆对自身大数据的采集和使用,当图书馆将读者大数据与第三方交换、共享或交易时,读者应拥有对交易对象选择、审核和撤销的权利。其次,在最有利于读者理解隐私风险和易于个人控制风险的时间、地点,图书馆有向读者说明个人数据采集与应用的内容、原因和决策对象的责任,以及与第三方共享读者数据的目的和保护相关隐私数据的措施等。第三,图书馆在数据库管理员和大数据分析师的选择上,应根据大数据的复杂度、决策重要性和安全需求,选择具有相应资格证书的技术人员负责,并全程对数据库管理员和数据库分析师的行为进行监控,确保大数据管理与分析人员严格执行相应的规章制度和法律规定,当发生数据安全问题时及时启动安全预案和事后问责。
3.5 限制大数据分析与决策应用的范围
《大数据时代》的作者维克托·迈尔-舍恩伯格认为:除了信任,我们还需要明白的是技术层面的数据安全,要求对数据进行加密,以确保一些人获取不到这些数据。数据使用方对数据安全要承担法律责任,任何一个机构,包括美国政府都不可以拥有获得所有个人信息的“钥匙”[10]。因此,图书馆在对读者大数据进行采集、分析和决策时,首先应明确大数据应用的内容、对象和方式,诸如读者姓名、家庭住址、银行帐户、手机、邮箱、身份证号等具有唯一性的隐私数据,图书馆大数据决策既然无法依据这些数据来预测读者的需求、服务市场变化趋势、服务模式发展和读者QOS(阅读服务质量),则应对这些数据进行隔离存储、加密或脱敏处理,在不降低读者大数据价值与可用性的前提下,保证读者隐私安全。
读者大数据具有较高的价值量,是图书馆与第三方服务商争相获取的宝贵资源,在读者许可和保证隐私安全的前提下交换、共享数据,是提升图书馆服务质量的重要环节。因此,图书馆在读者大数据应用前,应评估相关读者大数据的价值、安全需求和可用性,并对相关大数据的共享、出售、租赁、使用对象和使用方式进行明确,通过签署相应的隐私保护协议对数据使用方进行法律约束,在保护读者隐私的前提下为读者提供更好的服务和体验。
伴随大数据时代的到来,读者的隐私数据面临着被循环利用、过度分析、共享窃取和用户控制权丢失的威胁。因此,在确保图书馆基于大数据的知识获取过程高效、预测结果精确和决策科学的前提下,如何安全、高效、经济和可控地保护读者隐私,是关系图书馆服务有效性和读者满意度的重要问题。
大数据环境下,图书馆读者隐私保护过程应符合大数据的生命周期发展规律,围绕读者大数据在产生、采集、传输、存储、计算、分析和决策过程中可能面临的隐私侵犯威胁,在完善和优化传统的防火墙、入侵检测、系统认证、病毒防范、安全审计、网络隔离和数据加密等安全防护技术外,还应采用符合大数据复杂环境的大数据安全性评估、云存储安全管理、大数据脱敏、读者自身大数据管控等技术,不断提升图书馆读者隐私保护的风险评估和安全管理水平[1]。此外,在保证图书馆大数据分析、决策科学性的前提下,还应严格遵守相应的读者隐私保护法律法规、行业规定和大数据应用安全操作规范,才能确保图书馆大数据服务具有较高的可信度和用户满意度,保证图书馆大数据服务可持续发展。
(来稿时间:2016年7月)
1.(英)维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013
2.朱光,崔维军,张薇薇.信息生命周期视角下的大数据隐私风险管理框架研究[J].情报资料工作,2016(1):99-103
3.王忠.大数据时代个人数据隐私泄露举报机制研究[J].情报杂志,2016, 35(3):165-168, 79
4.王忠,赵惠.大数据时代个人数据的隐私顾虑研究——基于调研数据的分析[J].情报理论与实践,2014, 37(11):26-29
5.马晓亭.大数据时代基于服务等级协议的图书馆读者隐私感知与保护研究[J].情报理论与实践, 2014, 37(4):57-60
6.李可风,沈扬.大数据环境下移动数字图书馆信息推送策略研究[J].图书馆学研究,2015(21):66-70
7.马蕾,杨洪雪,刘建平.大数据环境下用户隐私数据存储方法的研究[J].计算机仿真,2016, 33(2):465-468
8.周水庚,李丰,陶宇飞,等.面向数据库应用的隐私保护研究综述[J].计算机学报,2009, 32(5):847-861
9.孟小峰,张啸剑.大数据隐私管理[J].计算机研究与发展,2015, 52(2):265-281
10.王璐,孟小峰.位置大数据隐私保护研究综述[J].软件学报,2014, 25(4):693, 712
Construction of the Privacy Risk Management and Protection Framework for Library Readers Based on Big Data Life Cycle Theory
Ma Xiaoting Chen Chen ( School of Information Engineering, Lanzhou University of Finance and Economics )
Readers’ big data security and privacy face a lot of challenges in the aspects of security architecture, data privacy risk management, personal data monitored all-day and all-round, reader data secondary used, and so on, traditional privacy preserving technologies are no longer meeting the needs of the library privacy protection in era of big data.This paper summarizes the problems of big data privacy in library, and analyzes the deficiency of the existing privacy protection mechanism, and constructions of the privacy risk management and protection framework for library readers based on big data life cycle theory.
Big data Life cycle theory Privacy risk management and protection
G250.76
格式〕 马晓亭,陈臣.基于大数据生命周期理论的读者隐私风险管理与保护框架构建[J].图书馆,2016(12):62-66
马晓亭(1974-),女,硕士,教授,研究方向:大数据、数字图书馆建设;陈臣(1974-),男,硕士,副教授,研究方向:云计算、数字图书馆建设。