科技信息分析从单一维度到多维复合的演进<sup(3)
【作者】网站采编
【关键词】
【摘要】2.2 复杂的多维数据科技信息分析 事实上,情报学界对前述基于简单多维数据的科技信息分析并不陌生,只是近年来随着数据科学的兴起,越来越多的研究
2.2 复杂的多维数据科技信息分析
事实上,情报学界对前述基于简单多维数据的科技信息分析并不陌生,只是近年来随着数据科学的兴起,越来越多的研究人员开始更加重视多维复合分析在科技信息研究中的重要性。随着研究工作的深入,在多维信息的混杂性逐渐凸显的同时,不同维度间隐含的数据价值也逐渐浮现。与此同时,多维数据间跨维度的关联与扰动逐渐成为科技信息多维分析中关注的焦点。研究人员尝试通过跨维度的知识发现,挖掘和捕捉曾经被忽略或掩盖的模式与规律。一些基于不同数据源中不同维度数据的更复杂的研究工作相继开展。
基于复杂多维数据的科技信息研究的一个典型代表是Martín-Martín等[23]在2018年发表的一项关于科技信息覆盖率的研究成果。该项研究的数据来自Google Scholar、Web of Science、Scopus三大著名的科学文献数据库。研究中的数据维度涉及学科方向(252个)、文献类型(期刊论文、图书、会议论文等)、语言种类(英语、西班牙语、德语等),以及引用记录(2 448 055条)等多个方面。无独有偶,国内学术界也出现将机构库、专家库、论文库等不同数据源进行关联整合的研究成果,数据维度涉及作者、研究主题、机构等[24]。尽管这些研究都同时涉及多个数据源以及多个数据维度,但是数据源在类别上都属于科学文献数据库。不同科学文献数据库的格式标准不同的情况下,其题录信息毕竟还是自带一定程度的规范性。更为复杂的是基于学术型数据源与非学术型数据源关联整合的研究。现有的研究成果中,已经出现基于传统学术资源数据与现代社交媒体数据关联整合的相关研究,数据维度涉及期刊、所有者、出版商、推文、引文等[25]。国内2019年最新的研究成果中,更是通过学术论文(中国知网期刊论文、学位论文、会议论文)、专利搜索引擎(大为innojoy)、国家图书馆(馆藏目录)、自然科学基金(LetPub)、行业报告(中文互联网数据资讯中心)、政策(中国政府公开信息整合服务平台)、舆情(微信指数)多类数据源的关联整合,从相互关联与影响的多维信息中对新兴技术进行识别[26]。此类研究中,由于数据的性质特征和形式特征都存在较大的差异,因此跨维度关联识别的难度更大,自然语言处理以及关联分析方法也被广泛使用。显然,学术资源与非学术资源的关联整合在数据维度上跨越了更远的认知距离,进而能够将更丰富的关联信息实现整合,并从中挖掘出以往研究中容易被忽略的模式特征,能够更好地解决单一数据源的不确定性。同时,随着研究中数据维度的不断扩展,不同维度间数据关联关系识别的重要性也越发凸显,研究工作对分析技术与方法在处理多维关系上的要求也越来越高。
3 多维复合分析的数据与方法
通过上述对科技信息分析相关研究工作的梳理与分析不难发现,科技信息的多维复合研究在本质上包含研究数据的多维度和研究视角与方法的多维度两个方面。而且网络科学理论与方法凭借其在揭示结构关系方面得天独厚的优势,被较为广泛地应用于多维度的科技信息分析。通过对研究数据与方法的梳理归纳,结合相关学科领域的最新研究成果,研究工作从数据与方法的视角对科技信息多维复合分析中的相关维度进行总结,如图1所示。
图1 科技信息多维复合分析的数据与方法
图1中的中间部分为科技信息多维复合分析的相关研究任务,左侧为研究数据,右侧为研究方法。从研究数据的角度看,既包含科学论文、专利文献、基金项目等经典的科技信息载体,也包括近年来在科技信息分析中崭露头角的社交媒体、政策文件、行业报告、新闻报道等数据源。此外,近年来开放的科学数据在科技信息分析中的作用也有所体现,甚至还包括图中没有列示的用户认知行为等相关数据源。这些多源的研究数据能够为科技信息分析提供更加全面的基础信息,也蕴含着更加丰富的多维关联关系。基于上述异质异构的数据源,研究人员可以采用传统方法提取其中的形式特征,包括论文关键词、作者、引文、机构、国别、期刊、学科方向、IPC分类号、专利申请人等;也可以借助自然语言处理等技术,通过特征词抽取、主题划分、相似性比较等识别其中潜在的语义信息,建立更丰富的细粒度语义关联。
在研究方法方面,除了传统的科学计量学与统计分析方法外,以结构关系分析见长的网络分析方法占有重要的地位。从现有的研究成果看,除了一些成熟的单模网络分析方法外,2-模网络、3-模网络分析屡被应用,甚至有研究将多个2-模网络合并成一个复合的多模网络用以识别科技信息间跨维度的关联。类似的研究中,对于多维信息分析更具优势的超图、元网络、多层网络等分析方法也相继被应用于科技信息的多维复合分析中。由于网络科学在结构关系揭示方面得天独厚的优势,在学术界最新的研究成果中,研究者提出网络分析的思想与方法是科技信息分析的基础逻辑框架[27]。此外,知识图谱(Knowledge Graph)的理论与方法也对科技信息多维分析提供了支持,凭借其实体与关系的多样化及其在多维关系揭示方面的优势也被引入科技信息分析领域。需要说明的是,这里所说的知识图谱是指Google提出的知识图谱,不同于图书情报学领域更早出现的科学知识图谱(Mapping Knowledge Domain)。科学知识图谱由Morris、陈超美、Garfield等学者于2003年美国国家科学院组织的研讨会上共同提出,并于2004年在Proceedings of the National Academy of Sciences of the United States of America发表专题论文。Google的知识图谱于2012年提出,一经提出就迅速引起学术界的关注。Google提出的知识图谱可以涵盖种类繁多的实体、关系及属性,实体之间由其关系连接,并且实体与关系都可以具有各自的属性,其背后往往由图数据库作为后台。如一个简单的“作者-文献”关系在知识图谱中可以表示为作者实体与论文实体之间由创作关系连接,作者实体可以具有是否为通信作者的属性,论文实体可以有所属学科方向的属性,实体之间的创作关系有时间属性等。以往的科技信息分析中仅能获得简单的作者与文献之间的关系。但是在知识图谱的视域下,则可以在“作者-文献”关系的基础上,通过一系列的通信作者属性推测作者在科研团队中的重要性,通过创作关系的时间属性识别作者科研生涯的高产出阶段,通过一系列论文的学科方向属性分析科研人员更擅长的研究方向,甚至可以通过更多维度信息的结合推断研究人员在不同研究方向团队中的重要程度等。某种程度上讲,知识图谱与网络科学在研究思想上存在异曲同工之处,但是在包容信息内容的维度上,一个知识图谱要远远超过一个特定的知识网络。而且,从知识图谱的后台图数据库中抽取的多维复杂关系可以被应用于多类型和多任务的图挖掘分析[28],因此也将成为未来科技信息多维复合分析的重要支撑技术。
文章来源:《江苏科技信息》 网址: http://www.jskjxx.cn/qikandaodu/2020/1005/490.html