某部专网垂直搜索引擎是金盾工程的重要组成部分,实现了专网内上万个网站的搜索,解决了业务中的两大难题:信息海洋中有效资源的快速查找、网页信息资源的深度挖掘和综合利用。
项目背景
某部信息网(简称G信息网)是某部机关内部管理使用的专网,是其在全国各级分支机构内部传播和交流业务信息、队伍建设信息和办公信息的重要渠道。G信息网上具有丰富的信息资源,各机构在G信息网上已建立上万个网站,网站上发布各类网页文件已达数百万个;该部已建成全国性业务应用系统和数据库都已接入专网,各地分支机构的本地应用系统和数据库也正在逐步连入网内;G信息网上信息涵盖了部机关各事务的基本情况和动态。
近年来,G信息网的网站数量、网页数量和浏览网上信息数量呈现着迅速上升的发展趋势。但是,这些信息资源较为分散,没有统一的查询、检索入口。一方面,工作人员浏览信息时需要访问大量不同的区域性站点,而且有时要访问到站点很深的层次中寻找信息;另一方面,G信息网上的很多信息又会被相关网站分别重复刊登,产生信息垃圾。因此,如果没有一个准确、灵活、全面的搜索引擎,工作人员要在这信息海洋里查找信息,就像大海捞针一样困难。不仅工作效率低下,而且不可能充分利用现有丰富的信息资源。
为了充分发挥G信息网网上信息资源的效能,促进行业信息资源共享,提高G信息网网上信息查找、定位和分析工作水平,某部决定建设G信息网行业垂直搜索引擎。
建设目标
G信息网行业垂直搜索引擎的建设目标是对G网的海量信息资源进行高效采集和组织管理,并以搜索引擎的模式提供G网信息资源共享服务。G信息网搜索引擎的发展定位是某部信息系统应用支撑平台中请求服务系统的一个重要组成部分,其主要作用是某部及各地分支机构在网上查找各类应用系统的定位信息,并将指定搜索范围内的数据资源和应用服务等信息提供给请求服务系统,同时建立随需可用的应用资源数据库。
本系统的建设具有双重目标和重点,一是资源建设;二是应用服务。
本系统所要建设的数据库资源为两种类型,网页资源数据库和应用资源数据库。
本系统所建设的数据资源库,将成为请求服务系统的资源库,不仅为本系统的上层应用提供数据基础,同时可作为开放数据资源供其它应用使用。比如对网页信息资源进行深度挖掘和综合利用,开发请求代理服务和信息比对服务等行业应用。
解决方案
应用系统总体架构图如下:

强大的异构资源整合搜索能力
以TRS Database Server 全文数据库为核心平台的TRS搜索引擎技术不但能搜索网页内容,而且能搜索各种关系数据库的应用系统以及文件系统中的异构数据等内容,并可基于这种能力建立起行业应用资源库。在未来,在G信息网搜索引擎上扩展新的搜索应用,对多种异构资源数据进行整合搜索,为工作人员提供更全面的信息搜索应用。
系统具备分布式的数据采集能力,具有灵活的索引更新策略和采集策略,保证搜索服务的实时性、有效性。
独有的海量信息精确搜索能力
同样是面对海量信息,与采用非精确检索技术的互联网搜索引擎技术不同,TRS独有搜索引擎技术实现极其精确的全文搜索,可以确保“万无一失”。从信息搜索的全面性和准确性来讲是传统互联网搜索引擎所不能比拟的。
保障高并发、高性能的集群式负载均衡及扩展能力
系统采用TRS Database Server Cluster集群服务器技术,实现了TRS全文检索数据库集群应用。在检索应用层实现了应用服务器集群,在采集方面利用分布式采集和任务集中控制的模式可以进行大规模采集应用。通过负载均衡机制,承担大规模访问和大规模采集的并发任务。而且,将来可以通过简单增加服务器的方式,随需扩展系统的处理能力。
业界领先的内容组织和挖掘能力
本系统集成TRS业界领先的自然语言处理和文本挖掘技术。
1. 在信息采集处理方面,系统提供了垃圾/冗余信息过滤、自动分类、自动摘要、自动关键词提取、自动元数据标引等智能功能。
2. 在信息查询方面,系统应用了TRS提供的基于词典的智能扩展查询,可以按同义词、某主题词等词典进行智能扩展查询。
3. 在信息分析方面,系统提供基于语义内容的相似性检索和自动聚类技术,可实现信息自动相关、信息聚合等内容组织和挖掘智能化功能。
“安全无忧”的搜索引擎
TRS搜索引擎技术支持内容安全性控制,可对查询内容进行分级控制,限定特定的用户只能搜索和查询特定的内容。另一方面,TRS搜索引擎技术通过支持外挂安全模块的方式提供了对PKI/PMI体系的开放接口,很容易将本系统整合到组织整体的信息安全保障体系之中,TRS搜索引擎技术可充分满足特定行业和单位安全搜索的需要。
高度个性化的搜索体验
系统面向用户个性化需求,提供了任务定制查询、专栏预设查询、个性化排序、个人检索历史记录、个性化界面设置等等功能,不同的使用者可以选择适合自己的工作查询界面,以满足易用性、灵活性和使用效率方面的要求。
客户收益
建成后的某部行业垂直搜索引擎,覆盖了G信息网中的15000个网站,存储和索引了数量达千万规模的网页,每天更新的网页超过2—3万个以上。从实用效果来看,其查准率高、响应快速、界面友好、稳定性强的特点得到了用户的一致认可,而且系统的管理维护相当简便。自系统上线以来,访问量迅速提升,日均访问量很快超过30万次,列某部应用系统的首位。目前,垂直搜索日益成为广大工作人员利用专网资源提升业务水平的主要工具,也是其他业务系统的重要资源支撑平台。