提供模板技术,实现网络元数据的采集:模板方式是事先对特定的网页进行配置模板,抽取模板中设置好的需要的信息,可以针对有限数量网站的信息进行精确的采集。TRS网络信息雷达系统将实现对网页正文中元数据的采集。
提供元数据抽取技术:TRS垂直搜索应用除模板技术采集外,还能提供元数据抽取技术。对网页信息进行结构化信息抽取,将网页的非结构化数据抽取成特定的结构化信息数据,即自动地对元数据进行重要信息的抽取,抽取的信息包括人名、组织机构名、地点以及一些相关领域的词汇等内容,无须进行人工干预。
中文智能信息处理技术,提供完善的信息加工手段:TRS CKM文本挖掘软件是国内第一个实用化文本挖掘技术
结构化和非结构化信息统一存储管理、检索服务:以TRS Database Server 全文数据库系统为核心,不但能够存储管理网页、文档等非结构化信息,而且也具备普通关系数据库的字段功能,同时,TRS Database Server的集群成倍提高系统的计算和扩展能力,并可轻松扩展系统规模。在支持分布式集群架构的基础上,提供全方位的检索手段,检索速度和准确性共达最优,允许使用文中的任意字、词和片段检索,支持中英文或其它语种的混合检索以及结构化、非结构化数据的混合检索。 |