TRS支持垂直搜索的技术及产品
TRS支持垂直搜索的相关技术

TRS网页采集技术:
        支持用户自定义范围的信息采集、支持深度采集、支持URL唯一化策略、内嵌基于网页内容的排重技术,确保信息采集的完整性、支持多语言网页的采集和自动转码(比如同一转换为UTF-8编码)。

TRS网页解析技术:
        TRS利用网页结构分析的方法,剔除垃圾信息,获得正文内容,以及相关图片、表格的信息;实现了基于模板的内容解析技术:利用链接模板,可以限定采集网页的区域,利用内容模板,可以限定正文获取的区域;实现了基于模板的BBS内容解析技术:利用模板提取BBS贴子中的标题、作者、发贴时间、发贴内容等。

TRS索引和检索技术:
        具有最优秀的中文全文检索功能、提供企业级应用的精确检索功能、提供多种结果排序方式、全文检索与数据库技术完美结合,支持结构化和非结构化数据集成检索,支持多语言检索。
        另外,分布式集群结构作为系统的存储和检索支持,通过增加“TRS数据库服务器组”来解决海量数据的分布式存储问题,实现了海量数据的无限扩展;在多用户并发检索的条件下,保证海量信息的检索的效率;通过实现信息资源的冗余存储,提供高可靠性的检索服务;通过实现不同的索引策略,满足更加个性化的检索需求。

TRS智能化处理技术:
        具有自动分类、自动聚类、自动标引(自动抽取关键词、摘要)、自动排重、褒贬倾向分析等特点。
同时,基于规则与统计相结合的TRS信息抽取技术,可以实现时间、电话号码、身份证号、护照号、Email、车牌、事件名称、地名、人名等信息的有效抽取。从非结构的文本信息中抽取有意义的事实信息,被抽取的事实信息以结构化的形式进行描述,并可以存入结构化数据库中,供人们分析和利用。

TRS支持垂直搜索的相关产品


 TRS全文检索服务器(TRS Database Server)
        实现非结构化和结构化数据统一管理、海量数据亚秒级检索、实现Native XML全功能,是企业搜索引擎和电子商务搜索引擎的基础平台。同时,TRS Database Server追求高查准率的同时提供100%查全的手段,输出结果可按字段值或相关度排序,以及多字段的联合排序,且支持检索结果的分类。

TRS网络信息雷达(TRS InfoRadar)
        采用高效的网络搜索技术,监控和采集互联网信息,支持智能分类、自动排重和灵活发布,实现海量网络信息的高效采集、组织。将采集和分析处理好的数据实时提交到全文数据库服务器中。

TRS 文本挖掘基础件(TRS CKM)
        为中文文本挖掘应用提供强有力的开发接口,集成了TRS公司最新推出的多项中文信息处理技术,具体包括:TRS文本分类系统、TRS文本相似性检索系统、TRS文本摘要系统、TRS文本信息过滤系统、TRS拼音检索系统、TRS相关短语检索系统、TRS(政治)常识校对系统、TRS文本聚类系统、TRS文本分词系统。

TRS全文检索服务器集群(TRS Cluster)

TRS论坛采集工具

TRS站内检索/网站群检索

TRS搜索引擎解决方案

 

版权所有:北京拓尔思信息技术有限公司