TRS垂直搜索技术实现快速建立电信企业信息资源库

电信增值服务与信息资源建设

电信企业发展到今天,电信业务已不仅包括电话通讯这一单独业务,而是已经发展到包含越来越多的增值业务的综合服务形态,这就要求电信增值服务要以电话号码为核心,提供综合性的生活信息导航服务。但要实现这一目标,电信企业还需要凭借自己拥有的强大的电话号码和黄页数据量来建立全面、准确的信息资源平台。同时,在信息资源平台建设过程中,电信运营商也面临着很多困难,如:如何扩充目前以电话号码为主的信息资源;如何面对因为服务行业众多而造成的信息分类管理难题;如何在缺乏稳定的信息“补充渠道”的情况下,将新信息引入到资源平台之中;如何保证获得的信息资源的准确性等。因此电信运营商需要与E龙、携程、饭桶网等专业网站建立广泛合作,完善自身信息搜索渠道,并通过行政或购买渠道、通过垂直搜索技术实现电信自有信息的网络搜集。


互联网与垂直搜索

李晓明在《搜索引擎原理、技术与系统》中曾这样描述互联网:Web像深不见底的海洋,表面是可以看见的一小部分,在其深层水域,有着比海面广阔许多的部分。所以互联网信息并不能等同于电信增值服务信息,互联网信息需要经过采集、分析、智能挖掘等环节,最终经过人工审核后才能变为对电信增值服务有用的信息。目前,普通的搜索引擎只是满足了用户的一般性搜索需求,而垂直搜索则是一种深度挖掘、准确挖掘,它能在信息的海洋中抽取到满足用户个性化需求的信息。

TRS垂直搜索技术

TRS垂直搜索技术是聚焦、实时和可管理的网页采集技术;从非结构化内容到结构化数据的网页解析技术 ;精、准、全的全文索引和联合检索技术;高度智能化的文本挖掘技术。它在政府某部专网搜索引擎、某国际电子巨擎的行业情报服务等项目中有成功的实施应用。

网页采集技术:实现按需控制采集目标、按需支持深度采集、按需支持动态网页采集、支持用户自定义范围的信息采集、支持深度采集、内嵌基于网页内容的排重技术,确保信息采集的完整性,并支持多语言网页的采集和自动转码。

网页解析技术:利用网页结构分析的方法,剔除垃圾信息、获得正文内容,以及相关图片、表格的信息;基于模板的内容解析技术,利用模板解析网页中出现的各种元数据信息;基于智能分析的内容解析技术,利用统计学规律或匹配规则定位元数据信息。

索引和检索技术:支持全文检索、按需提供精确检索或非精确检索、按需提供多种结果排序方式、按需支持结构化和非结构化数据的集成检索。智能化处理技术:智能化处理技术的合理运用可提高信息处理的质量;行业化垂直搜索的建设由于一般有行业背景支持,可以更好地运用智能化处理技术。

垂直搜索在电信信息资源建设中的应用

在电信信息资源建设中,垂直搜索技术的应用有着重要的意义。垂直搜索可以对资源库中的数据进行深度采集,并覆盖到各种采集源,如:采集旅游、餐饮、房产、人才餐饮等专业服务性网站上信息和论坛、博客上的信息等;垂直搜索引擎通过定制行业模版和规则库,实现对餐饮、旅游、房地产等行业信息的解析;垂直搜索引擎可利用数据挖掘技术发现新的机构名以及相关电话、地址信息,不断完善素材库;利用采集数据与信息资源成品库的比对,发现相关信息的变更情况;利用排重技术过滤重复的信息内容,减轻人工审核的工作量(同样的内容可能在多个行业网站出现)、利用信息聚类技术发现相关事件的线索。

 

版权所有:2007 北京拓尔思信息技术有限公司