垂直搜索、企业搜索及互联网搜索的区别
|
|
互联网搜索 |
企业搜索 |
垂直搜索 |
|
信息采集 |
采集方式:被动方式为主
采集深度:要求不高
动态网页采集的优先级:低
结构化数据库信息采集:要求不高 |
采集方式:主动方式为主
采集深度:要求较高
动态网页采集的优先级:较高
结构化数据库信息采集:要求高 |
采集方式:被动方式和主动方式相结合
采集深度:要求高
动态网页采集的优先级别:高
结构化数据库信息采集:要求高 |
|
信息加工 |
网页元数据提取:要求不高
结构化信息提取:要求不高
排重、分类:要求不高 |
网页元数据提取:要求较高
结构化信息提取:要求不高
排重、分类:要求高 |
网页元数据提取:要求高
结构化信息提取:要求高
排重、分类:要求高 |
|
信息检索 |
检索方式:非结构化信息为主
结果排序:PageRank算法
|
检索方式:结构化信息和非结构化信息相结合
结果排序:相关度排序为主 |
检索方式:结构化信息和非结构化信息相结合
结果排序:需求多样化 |
从采集方式看,互联网搜索以被动方式为主,搜索引擎和被采集的网页没有约定的、标准的格式;企业搜索以主动方式为主,被采集的办公文档、CRM和ERP中的数据等都和企业搜索引擎有着约定好的采集接口和安全接口;垂直搜索则采用被动和主动想结合的方式,通过主动方式,有效采集网页中标引的元数据,整合上下游网页资源或者商业数据库,提供更加准确的搜索服务。如:中华人民共和国中央人民政府网站垂直搜索引擎,它通过规范副省级政府门户网站网页的表达方式,达到有效采集网页元数据的目的,为企业和个人提供更精准的政务信息搜索服务。 从采集深度、动态网页采集的优先级、结构化数据库信息采集来看,互联网搜索采用广度为先的策略,所以对采集深度要求不高,而垂直搜索和企业搜索需要挖掘出行业内所有相关的网页信息,所以往往采用深度为先的策略,同时由于行业内的一些有商业价值的信息采用动态发布的方式,如:企业数据库、供求信息等,所以垂直搜索对动态网页的采集优先级别较高。在实际应用中,垂直搜索和企业搜索都需要集成和采集关系数据库中的结构化信息,如:垂直搜索中政府需要集成法律法规库、企业搜索中需要采集ERP、CRM中的信息等。
信息加工:非结构化信息结构化是垂直搜索的特色 垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取加工,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,而垂直搜索是以结构化数据为最小单位。 垂直搜索的结构化信息提取和加工主要包括两种:网页元数据的提取,包括标题、作者、发表时间、版权所有等等;内容中结构化实体信息的提取,包括人名、地名、组织机构名、电话号码等等。这些数据存储到数据库中,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。 目前,从垂直搜索的应用情况看,大部分垂直搜索的结构化信息提取都是依靠手工、半手工的方式来完成的,面对互联网的海量信息,很难保证信息的实时性和有效性,对智能化的结构化信息提取技术的需求非常迫切。但因目前国内非结构化信息的智能提取技术取得了重大进展,在一些领域得到了有效应用,因此智能化成为了垂直搜索引擎的发展趋势。
信息检索:结构化和非结构化相结合的检索方式 从信息检索看, 垂直搜索引擎不但能够对网页信息中的结构化信息进行检索,而且能够提供结构化和非结构化信息相结合的检索方式。比如我们找工作关注的:职位信息: 软件工程师;公司名称:软件公司;地点:北京海淀。 从检索结果的排序方式看,互联网搜索主要通过PageRank算法来实现;企业搜索大多采用检索内容和检索词的相关度来实现;而垂直搜索的排序需求更加多样化,如:按时间排序、按相关度排序、按某个结构化字段排序(如:购物搜索中的按价格排序等等)。
|