TRS 搜索引擎解决了垂直搜索的那些问题
提供模版技术,实现网络元数据的采集
  模板方式是事先对特定的网页进行配置模板,抽取模板中设置好的需要的信息,可以针对有限数量网站的信息进行精确的采集,特点为:简单、精确、技术难度低、方便快速部署。
  TRS InfoRadar 网络信息雷达系统目前已经采取部分模板技术对网页的标题、发布时间、信息来源等网页元数据进行采集,并借助模板技术实现了网页中被选定部分连接的采集。随着TRS对模板技术研究的深入,TRS网络信息雷达系统将实现对网页正文中元数据的采集。
中文智能信息处理技术,提供完善的信息加工手段
  TRS CKM文本挖掘基础件是国内第一个实用化文本挖掘技术,包括自动分类、自动聚类、自动文摘、相似性检索、信息抽取技术等十大功能选件,这些智能技术可以实现对信息的初加工,提高信息加工效率和信息检索的智能化、个性化。
  其中结构信息抽取技术,对垂直搜索引擎有特殊的价值:基于规则与统计相结合的TRS信息抽取技术,可以实现时间、电话号码、身份证号、护照号、Email、车牌、事件名称、地名、人名等信息的有效抽取。从非结构的文本信息中抽取有意义的事实信息,被抽取的事实信息以结构化的形式进行描述,并可以存入结构化数据库中,供人们分析和利用。
提供结构化和非结构化信息统一存储管理、检索服务
  TRS搜索引擎是以TRS Database Server 全文数据库服务器为核心的,TRS Database Server具备强大的结构化和非结构化信息的统一存储管理能力,其不但能够存储管理网页、文档等非结构化信息,而且也具备普通关系数据库的字段功能,如:日期型、字符串、数值型等。 同时,TRS Database Server的集群成倍提高系统的计算能力和扩展能力,并可轻松扩展系统规模,满足用户随需应变的需要。
  在支持分布式集群架构的基础上,提供全方位的检索手段,检索速度和准确性共达最优,允许使用文中的任意字、词、短语、句和片段进行检索,支持中英文或其它语种的混合检索以及结构化、非结构化数据的混合检索。  
版权所有:北京拓尔思信息技术有限公司