您现在所在的位置:首页>>科技创新>>创新进展
五年磨一剑 在科技情报领域披荆斩棘 ——北京市科学技术情报研究所《基于网页信息采集分析的科技情报辅助工具》
发布时间:2018-03-16 15:00

近些年,国内热播谍战片,情报是敌我争夺的关键。知己知彼,百战不殆。战争年代,情报是取得胜利的关键,和平年代,情报更是国家发展的重要保障。在经济全球化的今天,信息技术飞速发展,如何在错综复杂的海量信息中获得有价值的情报,需要更加先进的技术和手段。

北京市科学技术情报研究所科研团队经过5年的潜心研究,研发了《基于网页信息采集分析的科技情报辅助工具》,获得了富联平台2016年度优秀科技成果奖。该工具已在湖南、河北、广西等地区20多家省市级科技情报机构及首都30多家高校图书馆获得推广应用。应用单位普遍反映,情报工作效率获得大幅提高,科技决策与政府决策支撑能力明显提升。

创新驱动  情报先行

党的十八大明确提出“科技创新是提高社会生产力和综合国力的战略支撑,必须摆在国家发展全局的核心位置。”强调要坚持走中国特色自主创新道路、实施创新驱动发展战略。创新驱动,情报先行。

据美国科学基金会统计,科研人员在创新过程中,花费在查找和消化资料的时间要占全部科研时间的51%,计划思考占8%,实验研究占32%,书面总结占9%。科技情报可以帮助科研人员更好地了解全球科技发展动态,预测发展趋势,发现热点领域和空白领域,掌握竞争对手的核心技术研发动态、专利战略和市场行为,把握创新方向,优化创新决策,提高创新效率,降低创新风险。可以看出,科技情报的采集和分析工作在创新过程中非常重要。

新时期,加强我国科技情报工作,既是支撑科技创新的重要基础性工作,更是科技信息服务机构主动适应行业发展新特点、新趋势、新要求的必然之举。随着信息时代的飞速发展,以大数据、云计算为驱动的技术变革,已经在经济发展、教育、民生等各方面给整个社会带来深刻的影响,是生产力的又一次重大革命。在大数据环境下,数据是决策最为重要的参考,而科技情报能够带来新的数据共享和价值分析,有效的支撑决策和行动,全方位促进我国的城市发展和竞争力的提升。

目前,我国情报服务工作还需提升,主要表现在:缺乏高效处理电子信息的情报工具,传统情报生产速度还是以年、月为单位;情报信息的获取与加工仍以手动方式为主,缺乏处理大数据的能力。如何从大数据网络中搜集、过滤、整理并分析出所需信息,并经过专业解读生成高价值情报服务产品,对于积极推进大数据情报在我国行业的广泛应用具有非常重要的意义。

情报所根据国内需求,从解决情报界所面临方法手段、时效性、全领域覆盖能力、潜在情报点发现等能力缺乏问题出发, 自主研发以情报判读为中心的专用情报工具,意在改变中国情报界被动使用数据库系统工具的现状,提高情报界涉密数据的保密处理能力,使之成为中国情报界的通用基础工具。

持续攻关  硕果累累

《基于网页信息采集分析的科技情报辅助工具》是情报所吴晨生研究员所带领的团队长期从事情报智能分析辅助系统开发的综合成果。团队在2010-2011年间,开发了《科技词库自动生成系统》;在2012-2013年间开发了《大数据采集与筛选工具》;在2013-2014年间开发了《学术专题报告自动生成工具》;在以上这些工具开发的基础上又开发出了《面向情报决策的互联网信息采集分析工具》,还将在今后继续研发《特定实体关系抽取及数据挖掘工具》,并进一步更新完善整个情报智能分析辅助系统。

该成果是我国第一款能够实现融合分析不同来源中文网页数据的科技情报通用工具,有效解决了纯人工手段无法胜任大数据情报工作的共性问题,以及所有专业和技术领域科技词库的自动快速构建问题;突破了情报界盛行的以事实型数据为主的情报分析观点,提出了过程型数据的观点。成果使传统情报工作效率提高了十几倍,实现了情报工作负荷从以搜索为中心到以判读为中心的转变。

该成果创建了以"情报判读"为中心的情报3.0工作体系;提出一套网页信息自动抓取、结构化处理及文本实体识别与关联性分析的综合集成方法;开发了一款能够抓取不同来源中文网页数据并进行融合分析的情报通用工具。

该成果首次以多种抓取策略并行的方式开发网页信息采集系统;构建了我国首个覆盖全领域的动态更新科技词库;研究开发了第一个基于大数据的学术专题情报报告快速生成工具;按照综合集成研讨体系思想,创建了人机协作的情报工作流程;研究设计了以海量数据为基础、以情报判读为中心的分析指标及其理论支撑。整个项目获得软件著作权10项,发表学术论文10篇。

核心内容  七大模块

面向情报决策的互联网信息采集分析工具各子模块实现是整个项目的核心内容。开发了元搜索模块、网页主题内容抽取模块、主题分类模块、主题聚类模块、自动摘要模块、差异性分析模块、整站抓取七大模块。

 一是元搜索模块,提出“二次爬行”策略,借助元搜索技术、网络爬虫技术及查询拓展技术,通过一种多模块协调控制方法,对传统网络爬虫技术改进,从而实现对互联网全网络信息资源的主题精准搜索与抓取。

二是网页主题内容抽取模块,是整个系统的核心模块,主要是基于中文分词技术与命名实体识别技术,实现对所抓取网页元数据信息按照文本特征进行内容及关键词抽取,将元搜索模块抓取的无序内容信息转化为有序的结构化信息。

三是主题分类模块,分类模块可根据用户明确的实时需求,来实现对网页主题结构化信息的分类。从技术角度来讲,该模块将文本通过VSM向量空间模型转化为向量组,然后通过余弦定理的相似度分析方法实现对全部文本的归类。

四是主题聚类模块,研究成果基于OCR技术与非结构化网页文本信息聚类相关算法,开发了FTC(Fast Text Clustering)文本聚类算法,能在线性时间内完成聚类,并且能保证一定的聚类精度。,在用户不知道检索主题相关内容类别的情况下,该功能模块能够实现对主题文本信息中出现频次较高的人物、机构名称、地点等实体的识别与自动聚类分析。

五是自动摘要模块,借助现有技术,能够实现对单篇文本信息的自动摘要生成。针对主题聚类模块自动聚类的某一类文本内容信息进行手工整理和编辑归类,形成一篇整合信息,再借助自动摘要模块对该文本进行加工处理,并自动生成一个约500字的检索主题摘要。

六是差异性分析模块,基于网页信息差异性分析技术,对某一检索主题下所抓取网页的主题信息内容进行实时监测,当同一检索主题下同一网页信息出现消失或有新的网页信息出现时,系统将根据既定参数,定时对新的网页主题信息重新进行抓取、聚类,实现对某一搜索专题的跟踪,并定时自动生成简报。

七是整站抓取模块,基于网站遍历技术,特别是应用广度优先遍历算法,可实现对某一特定网站所有历史信息数据的整体抓取,将所抓取的信息作为元数据信息,其他功能模块可根据系统既定流程对数据进行后续加工与处理。