当前位置: 首页 > 产品中心 > TRS SiteSearch
TRS全文数据库系统

    融合互联网搜索和企业搜索于一体,具有“海量、智能、个性”特点的搜索引擎。

产品体验&产品资料
TRS全文数据库系统
产品概述

     TRS 搜索引擎由三部分构成:采集器、索引器、检索器,TRS智能化网络资源采集机器人担任网络信息或者企业内部非结构化信息的采集工作,TRS 全文数据库服务器提供海量信息的分布存储和即时索引,并提供全文检索和多种特征检索功能,和多种输出结果处理功能。

产品架构
产品架构
信息层:互联网信息、企业内部异构信息
采集层:分布式并发采集
加工层:基于内容的智能加工
数据存储中心:海量信息分布式存储和负载均衡
用户层:提供全文检索和多种特征检索、智能检索方式
产品功能
信息采集

强大异构资源整合搜索,全面的信息搜索应用
TRS搜索引擎不但能搜索网页内容,而且能搜索各种RDBMS、文件系统,以及散布在企业各个角落的邮件、图片等非结构化数据, 从而提供更加全面的信息搜索应用。

支持并发搜索和分布式集群采集技术,效率高
TRS 搜索引擎机器人采用多线程并发搜索技术,可以根据实际情况动态调节线程数目,实现多线程并发搜索。同时,可以设置多个机器人协同工作,共同完成信息采集任务,实现信息的分布式采集,从而提高采集效率,缩短采集时间。

支持多种采集策略和高效的更新策略,保证信息的准确性和实效性
支持包括广度优先,深度优先在内的多种采集策略;提供高效更新功能,对于已经采集过的网站,更新时只采集发生变化和新加入的资源,保证信息的实效性。

多种配置功能,满足用户个性化需求
允许用户进行多种配置,具体包括:采集时间配置(任务开始时间,监控周期等)、信息采集的资源类型配置(HTML文件,图片文件,各种格式化文档或者各种多媒体文件)、信息采集的网址范围配置(在限定的站点,限定的域,或无限制扩展搜索)、信息采集的数量配置(每个站点采集的资源数目,层次数)等,从而满足不同用户的不同需求。

信息加工

自动内码转换和垃圾信息过滤
系统BIG5内码网页和Unicode内码网页自动转换为GBK后,进行统一管理和存储。系统可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取目标内容主体。

智能化自动分类
采用TRS基于内容的自动分类技术,可对采集的网页进行基于内容的自动分类,不需人工干预。自动分类的准确率基本可以满足信息粗加工或大多数应用的实用要求。同时系统提供分类训练工具,允许用户自行根据自己的分类需求和数据特点设定分类结构和生成特征模板,适应不同行业的需求。

基于内容相似度计算的自动排重
TRS采用的排重技术,不是利用简单的规则判断,而是利用内容的相似性进行排重判断,准确性高,不会因为标题或内容的少许变化而产生漏判,即使把标题进行了改头换面,系统也会正确判定。同时用户可以根据具体需求调整相似阀值,实现个性化排重目标。被排除的重复网页不会被清除,可以作为主体网页的相似或者推荐网页进行显示,提供给信息用户参考。

信息存储和检索

强大的非结构化数据管理功能
系统支持包括TEXT、HTML、RTF、MS OFFICE、PDF、S2/PS2/PS、MARC等多种格式文件的存储、索引和检索。支持多媒体数据的存储管理。支持多语种、多编码管理。实现了高效的数据和索引压缩,超低空间膨胀。

支持海量信息处理的分布式体系架构
分布式体系结构,可以建立多个TRS全文数据库服务器的集群结构,并在应用层实现透明访问,TRS 全文数据库服务器的集群成倍提高系统的计算能力和扩展能力,并可轻松扩展系统规模,满足用户随需应变的需要。。

集成先进的中文自然语言处理技术,提高查全率和查准率
词典辅助:系统内置分词词典、主题词表等,且这些词典可维护;根据统计建立了大量歧义排除规则,有效提高了分词准确性;
扩展检索:可以根据主题词典进行扩展和相关检索,包括主题词典自动扩展检索、同义词/反义词自动扩展检索、全半角自动扩展检索等。
智能检索:通过独立产品知识挖掘基础件(TRS CKM),可以支持拼音/同音检索、相关短语检索和相似性检索等功能。

完善的信息检索手段,准确性和速度共优
TRS 搜索引擎的检索服务为用户提供丰富的功能,除了支持标准搜索引擎所提供的全文检索之外,TRS 搜索引擎还支持多种特征检索,比如按发布日期检索、按关键词检索、按标题检索、按URL名称检索等,支持拼音检索、相关短语检索、扩展检索、相似性检索等智能功能。TRS 搜索引擎对于检索结果还支持多种排序操作和自动聚类功能。

产品优势

海量信息采集和存储支持--分布式管理、多服务器集群和协作
从采集来看,TRS搜索引擎可以多服务器协同工作,共同完成信息采集任务,实现信息的分布式采集。在网络带宽充沛的环境下,可以设置多个机器人同时工作,提高采集效率,缩短采集时间。
从存储和检索看,为了保证海量信息的存储,保证海量信息的检索的效率、稳定性和可靠性。系统采用分布式集群结构作为系统的存储和检索支持。
通过”分布式、集群、多服务器的策略”TRS 搜索引擎在存储和检索方面实现了以下目标:通过增加“TRS数据库服务器组”来解决海量数据的分布式存储问题,实现了海量数据的无限扩展;在多用户并发检索的条件下,保证海量信息的检索的效率;通过实现信息资源的冗余存储,提供高可靠性的检索服务;通过实现不同的索引策略,满足更加个性化的检索需求。
从WEB服务来看,TRS搜索引擎Web查询工具采用Java语言开发并建立在标准的应用服务器上,因此具有很好的可扩展性,在Web请求不断增加的情况下,可以通过分离Web服务器和应用服务器,建立Web服务器集群和应用服务器集群等方式增强服务响应能力。
同时,TRS是国内唯一家成功在实际客户处部署了多服务器集群采集和检索系统,处理数千万和上亿条记录的信息,保证了海量信息处理的效率、稳定性和可靠性。

智能信息处理—基于语义理解的文本挖掘技术
TRS搜索引擎, 全面内嵌了TRS的实用文本挖掘技术,包括: 自动分类、自动聚类、自动摘要、自动标引、信息过滤、信息提取、相似性检索、短语检索、拼音检索等。使得搜索结果的处理更具智能化,相关度更强,使得用户更加迅速、准确、全面的定位目标信息,同时支持检索结果的自动分类和自动聚类。
TRS搜索引擎中构造了强大的语义规则库和词表支持,使得系统能够正确地判断与检索词有关的同义词、近似词、上位词、下位词等,从而提供智能化的概念扩展查询。

一个平台两种应用—融合了企业搜索和互联网搜索技术为一体
由于互联网搜索和企业搜索的应用目标不同,所以两者有着不同的应用特点,比如:企业搜索的对象异构和多样、安全性要求更高、检索的准确性和相关性要求更强等,传统的互联网搜索引擎不能很好的满足企业搜索的需求。TRS 搜索引擎融合了企业搜索和互联网搜索技术为一体, 在一种平台上可以实现了两种应用。

智能全文检索—查全和查准的完美结合
传统的搜索引擎采用”预估”的检索策略,保证不了检索结果的全面性, TRS 搜索引擎借助中文处理技术、文本挖掘技术、索引技术等实现了查全和查准的完美结合,在保证查全率的同时,提高了信息的查准率。
同时, 多种检索方式有机组合,使用户获得完美的检索体验。在分类检索、全文检索及高级检索等基础上,还提供检索词提示、拼音提示等智能检索方式。并依靠分布式集群结构的支持获得满意的检索速度。

运行环境
TRS网络资源采集机器人 Microsoft Windows 95/98/NT/2000SQL Server 6.5及以上
TRS全文数据库服务器(TRS Server) Unix(Solaris2.6,AIX4.3,HP-UX10.0,Tru64/Digital Unix3.2,Irix6.3及以上)Microsoft Windows 95/98/NT/2000Linux2.2及以上
用户检索模块 包含ASP和JSP两种版本。ASP版本,运行在MS IIS Web服务器,支持Microsoft Windows NT/2000操作系统。JSP版本,支持Tomcat(Apache)、WebSphere、WebLogic等应用服务器,支持多种操作系统平台。
2008 北京拓尔思信息技术股份有限公司 版权所有.保留所有权