图书馆大数据
⑴ 大数据给专业图书馆带来的启示
随着大数据时代的到来,科学数据的产生和积累呈指数级增长,专业图书馆作为社会中储存信息知识、提供信息服务的信息中心,必须主动利用这些变化来进行战略性创新,满足需求,创造未来。
1.建立融数据和文献于一体的新型数字图书馆
科学向数据密集型科学研究范式转换的成功,标志着一种新的常规科学的形成,必将引发科学研究观念和方法的新突破与新发展,并将对专业图书馆产生新的需求。因此,必须建立融数据和文献于一体的新型数字图书馆,形成数据与信息融合的互操作架构,让科学研究的整个过程在数字图书馆的电子环境中进行,并对所有人开放,使科学研究的素材、思路、过程和结论得到传播和共享。培养数据密集型科研环境下的数据管理人才“数据是信息化时代的石油”,数据管理人才是数据密集型科研环境下的稀缺人才。全世界的各类海量数据正在源源不断地汇集到美国(或美国公司),这个趋势短期内还看不到转变的迹象。未来国家的核心竞争力将很大程度上依赖将数据转化为信息和知识的速度与能力,而这种转化速度和能力,实际上则取决于大数据方面的技术能力。要保持科学研究的领先地位,国家决策者和科学研究者必须高度关注大数据的趋势。美国国家科学理事会N SB在其发表的《长期保存的数字数据集合:支持21世纪的研究与教育》报告中,提出如何培育和支持被称为数据科学家的新兴科学家群体的问题:“数据科学家包括信息学家、计算机科学家、数据库和软件工程师或程序员、学科专家、数据管理者、数据标引专家、图书馆学家、档案学家等对科学数据资源的成功管理起着关键作用的人们,他们希望自己的创造性和智力贡献得到充分认可”。目前美国需要14万到19万以上具备“深度分析”专长的研究人员,而对具备数据知识的经理人员的需求超过150万。大数据的应用是技术难度极高的集成应用,如需要集成人工智能、商业智能、数学算法、自然语言理解、信息技术等跨学科领域的技术成果。数据科学家是未来10年最具吸引力的职位,数据图书馆员、数据服务馆员等数据管理人才将是数据密集型科研环境下的稀缺人才。
2.建立数据驱动的E-Science服务模式
在E-Science环境下,能否从传统信息服务向知识服务的突破,将是图书馆能否继续生存并保持活力的关键。因此,必须加强对科学数据的重视,认识到开展科学数据服务、提升对科学数据组织和挖掘能力,对科学研究及图书馆竞争力的重要意义。专业图书馆应针对海量数据需要长期存储的需求,为科研人员提供最佳信息和技术服务,融入用户工作流的数据生命周期。数据驱动的E-Science服务模式将是现代科学图书馆发展的新的生长点。
⑵ 大数据给数字图书馆带来哪些变革
数字图书馆遇挑战
“各类型数据急剧增长,正朝着海量数据方向发展,国家数字图书馆面临着数字资源长期保存、资源整合、信息安全以及服务创新等多方面的挑战。”魏大威介绍说,截至2013年底,国家数字图书馆数字资源总量已达到874.5TB,其中自建数字资源量为737.9TB,网络信息采集量达45.7TB,外购中外文数据库共计273个,文津搜索汇集的元数据已达2.9亿条;随着读者服务扩展至计算机、数字电视、手机、手持阅读器、平板电脑、电子触摸屏等多种服务终端,服务量的不断增加,各业务系统每天都会产生大量的日志数据,其中包含了大量的用户行为信息,例如,Aleph系统日均产生日志数据约20GB,文津搜索系统日均产生日志数据大于300G。
将建立超大型元数据仓储
魏大威指出,面临新的环境、背景,国家图书馆为实现传统业务与数字图书馆业务高度融合,最大限度发挥国家图书馆服务效能,把资源整合作为工作抓手。
他进一步强调,进行数字资源整合必须结合大数据特点和资源现状,以用户需求为导向,博采众长,突出特色,分阶段、有计划的实施。建立超大型元数据仓储是未来数字图书馆进行资源整合的思路之一,从而实现资源的统一聚合与一站式检索,将云服务与关联数据结合起来实现数字馆藏的组织和聚合,构建“资源——用户”关系模型等思路展开工作,但资源整合也面临着资金、人才、技术等方面的挑战。
⑶ 大数据趋势与专业图书馆
数据被称作信息化时代的石油,其重要性不言而喻。“大数据”通常被认为是一种数据量很大、数据形式多样化的非结构化数据。从产业角度,常常把这些数据与采集它们的工具、平台、分析系统一起称为“大数据”。在大数据时代,顺应大数据趋势,实现传统业务的转移,是带给国内专业图书馆的一个契机。
1.大数据与科学研究
2011年,麦肯锡研究院在《大数据:创新、竞争和生产率的下一个前沿》的报告中提出“大数据”时代已经到来。2012年3月,奥巴马政府发布了“大数据研究和发展计划”;2012年6月,联合国专门发布了大数据发展战略。这是联合国第一次就某一技术问题发布报告。“大数据”成为2012年热门词汇和研究热点之一。除了国家和研究机构,全球主要的大型IT商业公司均对大数据技术投入巨资,目的是利用大数据为国家治理、企业决策乃至个人生活提供服务。目前,科学研究正在进入一个崭新的阶段。在信息与网络技术迅速发展的推动下,大量从宏观到微观,从自然到社会的观察、感知、计算、仿真、模拟、传播等设施和活动产生出大量科学数据,形成被称为“大数据”的新的科学基础设施。数据不再仅仅是科学研究的结果,而且是科学研究活动的基础。科学家不仅通过对广泛的数据实时、动态地监测与分析来解决难以解决或不可触及的科学问题,更是把数据作为科学研究的对象和工具,基于数据来思考、设计和实施科学研究。以数据考察为基础,联合理论、实验和模拟为一体的数据密集计算的范式,成为与经验范式、理论范式和模拟范式并列的第四范式。数据被一起捕获或者由模拟器生成,处理后存储在计算机中,科研人员使用数据管理和统计学方法分析数据库和文档,据此产生创新思维和成果。这种科研模式被称为数据密集型范式,简称数据范式,是一种新的科研模式。
2.大数据与现有数据库技术的对比
大数据具有数据持续增加、体量巨大(Volume)、数据类型和来源多样(Variety)、速度快(Velocity)等特点。
3.大数据与新型数字图书馆
图书馆在科学文献(纸质或是电子)的组织与服务方面积累了丰富的经验,已成为科研活动和学术交流体系中的有力支撑。随着学术信息交流方式的变化,既有数据档案库,也有文献档案库,而数据则进入数据档案库中。因此,数据图书馆将成为未来数字图书馆的一部分。存储在各类数据库和文档系统中的科学数据,以及以业界标准化关系数据库所产生的元数据体系,将构成一种新型的、分布式的和整合式的数字图书馆。这种数字图书馆既包括传统数字图书馆的各类处理、管理、检索服务等功能,又包括数据转换、可视化和数据挖掘服务等新型数据服务功能。
4.大数据在专业研究领域中的应用
生物医学领域是大数据的先行者,这主要得益于美国国家医学图书馆基于科学数据建立的超级计算和数据处理平台。这些平台支持基础科学和应用科学的知识发现和数据关联,以及分析基础上的模拟仿真研究,为科研和政府决策提供服务。2007年,吉姆格雷扩展了其对数据密集型科学的看法,提出7个重要行动领域之一就是同国家医学图书馆支持生物科学一样,建立更多数字图书馆以支持其他科学。生物医学领域的数据量在飞速增长。欧洲分子生物实验室核酸序列数据库EMBL-Bank收到数据的速度每年递增200%;人类基因组计划2008年生产数据1万亿碱基对,2009年速率又翻一番;在生物医学文献编目中已经有1800万医学文章,每年增加接近百万篇。
美国国立医学图书馆的Entrez系统是美国国立医学图书馆建立的生命科学搜索引擎,它真正实现了数据和文献的交互性操作。用户可以在阅读论文的同时打开基因数据,跟随基因找到这个疾病,再回到文章(微软的WWT也实现了数据与文献的融合)。融合和交互操作可通过统一的链接、统一的标签和ID号实现。医学、生物学、心理学等学科领域的大型实验设备的实验型数据、人类基因数据中,有些由于观测和实验的不可重复性,有些由于时间、设备和经济等条件的限制,数据获取难度大,因此,数据的长期有效保存、科学管理、有条件共享和促进利用是极有意义和价值的一项工作。把全世界的数据都集成在一起,形成巨型的动态数据集,将诞生一个全球化的数据库。
5.国内专业图书馆的实践
专业图书馆的思考在实践方面,国内已经建立了一系列的科学数据平台,如科技部支持建设的科学数据共享工程等,但图书馆人员参与很少。在新的交流体系形成之际,专业图书馆应该深刻思考和研究支撑科研创造的信息服务环境;思考科研成果融合数据之后,形成的原始数据、派生数据和科学文献融为一体的新的信息环境下,如何提供信息和数据服务;研究数据科研基础设施建设和运行过程中信息机构的职责、作用和角色。从大量的数据中分析其潜在的价值将成为大数据时代图书馆的一大主要业务,并且提供这些业务的水平将决定着大数据时代图书馆的发展水平和方向。专业图书馆尤其要分析研究数据科学家的知识结构、基本素养、基本技能,并将此纳入培养计划加以实施,为未来社会提供所需人才。
⑷ 大数据时代,数字图书馆将面临怎样的挑战
个人觉得数字图书馆将要面临的 无非是把数字转化为数据管理 方便查阅节省时间 虽然数字和大数据字面几乎无异 但是当中有很大的区别
⑸ 基于大数据的图书馆个性化服务读者行为分析方法和策略
1. 基于大数据的图书馆个性化服务读者行为分析方法与步骤
基于大数据的图书馆个性化服务读者行为分析,是指图书馆基于事件存储大数据库数据的支持,通过对用户海量数据进行采集、过滤、分析和定义,从中发现读者行为数据中蕴含的行为关系、用户需求和知识,是对读者的行为进行分析、判定、定义和匹配的过程,也是图书馆掌握读者阅读习惯和发现服务需求,提高个性化服务精确性和用户满意度的关键,读者行为分析与判定流程见图2-2。
读者行为分析过程可分为用户行为事件采集、用户行为事件的存储、用户行为事件初步过滤、用户行为定义、用户行为分析与判定、用户行为匹配、用户行为存储大数据库的更新、行为分析与判定过程的完善8部分内容。在用户行为事件分析、判定前,图书馆应全面、规范地采集读者行为数据,并对数据进行科学分类、综合分析、行为定义和人工匹配,构建具备海量存储、高效管理和查询功能的用户行为事件存储大数据库。
当图书馆完成对用户行为数据的采集后,首先,应依据对用户行为的分类和管理员经验,对用户行为数据进行价值过滤和人工筛选,以提高行为数据的价值密度和可用性。其次,对用户行为发生的时间、地点、方式、作用对象和结果进行定义,采用高效算法对存储于用户行为事件大数据库中的资源进行分析、判定,并对用户行为的类型进行详细定义。再次,应将已定义的用户行为和用户行为存储大数据库中的数据进行比对,进一步完善、规范用户行为存储大数据库的资源。同时,利用用户行为存储大数据库资源,对用户行为分析与判定的规则实施反馈,完成对用户行为分析、判定规则的动态修改与完善。最后,图书馆可依据读者行为分析与判定的结果,明确读者阅读需求及其变化趋势,为读者提供个性化的阅读推送式服务。
图2-2 图书馆读者行为分析与判定流程图
个性化服务是一个不断完善的过程,多次经过行为模拟和分析反复校准才能让个性化服务尽可能贴近每一个用户。如通过记录用户访问某些专业内容来判断为用户推荐的相关内容或深度内容是否精准,就需要不断地积累用户在某专业内容上的行为记录,记录次数越多,记录越精细,在下一次为用户做个性化推荐时的精准度就越高。所以个性化服务所需的数据分析系统包括采集与感知都是循环起效的,这是一个闭环上升的垂直优化体系。
2.基于大数据的图书馆个性化服务读者行为分析策略
(1)发现读者需求及变化趋势。大数据背景下,图书馆可通过监控设备、传感器网络和其他读者行为采集设备,获取读者阅读活动的服务内容与方式、阅读终端与服务模式、阅读社会关系组成、成员信息交流、论坛、博客、微博、微信朋友圈等社交网络上的思想表达、移动阅读中读者个体的行为路径、传感器网络对读者活动的记录、服务系统的运行参数信息等数据,这些数据蕴含着巨大的社会和商业价值。因此,图书馆力图采集读者行为大数据,将读者行为进行解析、描述和量化,最终实现对读者服务需求、服务模式变化趋势预测与控制。同时,图书馆应注重读者行为数据分析的时效性,及时获取读者阅读情绪和服务需求的变化数据,并将数据变化结果可视化表现出来,确保服务策略和内容随着读者个性化需求变化而动态调整。
(2)最大范围的采集读者行为数据。科学采集高价值读者行为数据,是准确分析和预测读者需求,提高读者忠诚度和服务满意度的关键。首先,图书馆应从读者服务全局出发,收集读者的行为数据,采集来自服务器运行监控设备、传感器网络、用户阅读终端设备、系统运行日志、读者论坛与博客、读者服务反馈系统、网页cookies、搜索引擎、读者阅读行为监控设备的数据,尽量减少用户行为数据采集的盲点,提高数据的完整性、精确性、及时性和有效性。其次,所采集的数据应具有海量和实时性特点,依据读者阅读需求对读者行为分析的内容,选取数据和应用对象进行调整,避免读者行为分析过程中可能会对读者服务产生的消极影响,最终实现从理解读者阅读行为到掌握读者阅读需求的转变。再次,图书馆应与第三方服务商合作,以服务协作和大数据资源共享的方式,努力拓展读者行为数据采集的广度和深度,在实现以读者为中心的读者行为数据选择、过滤、共享和互补前提下,提高数据应用分析和增强数据的可用性。
(3)保证读者行为数据的安全性和可用性。读者行为数据具有海量、全面、高价值和实时性的特点,图书馆应加强对读者行为数据的安全性和可用性管理,保证用户保密信息和隐私数据的安全。但是,移动终端工作模式和使用环境的不确定性,严重影响了图书馆大数据阅读服务的安全性,因此,必须加强阅读终端的安全性管理。首先,图书馆应依据阅读终端的安全设计标准及其移动性、开放性,以及阅读终端与读者阅读行为的关联性,为不同类型的阅读终端划分相应安全度,并通过严格限制阅读终端的使用对象、安全模式、应用环境和通信方式来保证设备安全。其次,应将读者行为数据划分为用户隐私数据、读者特征数据、行为日志数据和公开数据四个安全等级,执行相应的安全存储、管理和使用策略,并依据用户行为数据生命周期发展规律,加强数据收集、存储、使用、转移和删除五个环节的安全管理。再次,应坚持读者需求精确感知、行为关系全面挖掘、服务模式发展准确预测和读者行为科学分析的原则,实现读者行为数据的良性监控和采集,避免采集与读者阅读服务保障无关的个人隐私行为数据。
(4)重点突出读者阅读行为数据挖掘的知识关联分析。知识关联分析就是从海量数据中发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式,通过读者阅读行为数据的知识关联分析,发现读者不同行为之间的联系,以及读者的阅读习惯和服务需求,是图书馆以读者需求为中心制定服务策略的前提。图书馆应在三维空间开展读者阅读行为数据的交叉关联分析,所涉及的主要内容包括读者阅读活动频率、阅读的时间与地点、阅读内容分布规律、阅读习惯和爱好、阅读关键词关联度、阅读社会关系交集、热点内容的关注度等。同时,行为数据的选择要坚持以服务保障为中心和高价值的原则,特别加强对读者阅读活动的热点内容、主要阅读模式和个性化服务需求反馈行为数据之间的关联分析。此外,基于读者阅读行为数据挖掘的知识关联分析,应加强对读者阅读行为的跟踪和监控,在加强对读者显性行为特征数据监控的同时,还应突出利用显性行为数据挖掘,而获得隐性行为信息。对读者阅读需求、阅读热点、阅读行为关联性等进行关联分析,增强读者行为知识关联分析的广度、深度和有效性。