海量信息采集和存储支持--分布式管理、多服务器集群和协作 从采集来看,TRS搜索引擎可以多服务器协同工作,共同完成信息采集任务,实现信息的分布式采集。在网络带宽充沛的环境下,可以设置多个机器人同时工作,提高采集效率,缩短采集时间。 从存储和检索看,为了保证海量信息的存储,保证海量信息的检索效率、稳定性和可靠性。系统采用分布式集群结构作为系统的存储和检索支持。 通过“分布式、集群、多服务器的策略”TRS 搜索引擎在存储和检索方面实现了以下目标:通过增加“TRS数据库服务器组”来解决海量数据的分布式存储问题,实现了海量数据的无限扩展;在多用户并发检索的条件下,保证海量信息的检索效率;通过实现信息资源的冗余存储,提供高可靠性的检索服务;通过实现不同的索引策略,满足更加个性化的检索需求。 从Web服务来看,TRS搜索引擎Web查询工具采用Java语言开发,并建立在标准的应用服务器上,因此具有很好的可扩展性。在Web请求不断增加的情况下,可以通过分离Web服务器和应用服务器,建立Web服务器集群和应用服务器集群等方式增强服务响应能力。 同时,TRS是国内唯一一家成功的在实际客户处部署了多服务器集群采集和检索的系统,处理数千万和上亿条记录信息,保证了海量信息处理的效率、稳定性和可靠性。
智能信息处理—基于语义理解的文本挖掘技术 TRS搜索引擎, 全面内嵌了TRS的实用文本挖掘技术,包括: 自动分类、自动聚类、自动摘要、自动标引、信息过滤、信息提取、相似性检索、短语检索、拼音检索等。使得搜索结果的处理更具智能化,相关度更强,使得用户更加迅速、准确、全面的定位目标信息,同时支持检索结果的自动分类和自动聚类。
一个平台两种应用—融合了企业搜索和互联网搜索技术为一体 由于互联网搜索和企业搜索的应用目标不同,所以两者有着不同的应用特点,比如:企业搜索的对象异构和多样、安全性要求更高、检索的准确性和相关性要求更强等,传统的互联网搜索引擎不能很好的满足企业搜索的需求。TRS 搜索引擎融合了企业搜索和互联网搜索技术为一体, 在一种平台上可以实现了两种应用。
智能全文检索—查全和查准的完美结合 传统的搜索引擎采用“预估”的检索策略,保证不了检索结果的全面性, TRS 搜索引擎借助中文处理技术、文本挖掘技术、索引技术等实现了查全和查准的完美结合,在保证查全率的同时,提高了信息的查准率
|