集群(Cluster)检索应用源自当前信息规模的爆炸式膨胀和信息资源共享的普遍需求,特别是对占信息资源总量80%以上的非结构化数据而言,检索要应对两方面的挑战:
第一:当数据规模达到T级时,单台服务器已经远远不能满足数据存储和管理需要,因此需要部署多台服务器进行分布式存储,但必须实现统一检索;
第二:在多用户高并发访问的情况下,海量数据规模使检索性能急剧降低,必须采用多台服务器分担检索响应,保证检索效率。
调研结果显示,当前海量数据环境下的检索服务效率已经成为专利机构、图书情报机构、媒体和政府等信息资源集中的单位提供高质量信息服务的瓶颈。
企业搜索需要实现海量数据分布存储和高并发访问负载均衡,并支持两种手段的组合运用,可保证用户系统在海量数据和高并发环境下的分布式检索的高性能。同时,通过集群也能轻松实现消除单点故障的高可用系统,满足用户的可靠性要求。
企业搜索需要采用最新优化算法,改良了缓存(CACHE)机制,并针对近年软硬件平台发展,比如64位处理器和操作系统、多处理器(SMP)体系结构等实现了相应支持和优化,淋漓尽致地发挥出最新软硬件平台的优势,令单机环境系统性能较上一版本取得了成倍的提升。 |