垂直搜索引擎

更新时间:2023-05-17 17:06

垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是根据特定用户的特定搜索请求,对网站(页)库中的某类专门信息进行深度挖掘与整合后,再以某种形式将结果返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的、有特定用途的信息和相关服务。

简介

垂直搜索引擎(Vertical Search Engines),是与综合(或通用)搜索引擎相对的一个概念,就是有针对性地为某一特定领域、某一特定人群或某一特定需求提供有专门的信息检索服务,以满足用户个性化的信息需求。垂直搜索引擎也常常被称为专业搜索引擎(Specialty Search Engines)、专题搜索引擎(Topical Search Engines),是通过对专业特定的领域或行业的内容进行专业和深入的分析挖掘、过滤筛选,信息定位为更精准的专业搜索,实际上是搜索引擎的细分和延伸。

垂直搜索引擎的价值在于其占有的信息资源的数量,能否提供全面权威的行业信息,能否最大限度拥有行业资源是垂直搜索引擎发展的关键。从某种意义上讲,行业门户网站是垂直搜索引擎嫡亲的父母,同时也是往往不能分割的有机整体。

数据特点

(1)数据来源

垂直搜索引擎的数据来源有两个方面:

①来源于所处行业的相关站点。

②来源于自身平台:来源于自身平台的搜索常被认为是“站内搜索”。但是,当某一平台上的信息达到足够量大的时候,其实就是一种垂直搜索。况且,垂直搜索本身就是从这些行业站点提取出数据的。

(2)数据特性

垂直搜索引擎的数据倾向于结构化和格式化。例如,在某个购物类的垂直搜索引擎上输入“MP3”就会出现该产品的相关属性,如内存、尺寸、大小、电池型号、价格、生产厂家等相关技术属性,有的还提供比价服务。在某餐饮搜索引擎的高级搜索针对一家餐馆的搜索属性设置多达300个选项,把想到和没想到都列出来了,这就把搜索服务专业化、细致化、个性化了。

工作模式

就垂直搜索引擎的工作模式来说,很多垂直搜索引擎是依靠人工或者半人工的方式来提取结构化信息的,但近年智能化的非结构化信息提取技术取得了重大进展,在一些领域也得到了有效应用。

具体而言,垂直搜索引擎的Spider更加专业化和可定制化,其能够定向采集与垂直搜索范围相关的网页,对内容相关的以及适于进一步处理的网页进行优先采集。其信息采集可以通过人工设定网址和网页分析等方式共同进行,在定向分字段抽取出所需要的数据并处理后再以某种形式返回给用户。比如,购物搜索引擎的整体工作流程大致如下:在Spider抓取网页后,对网页中的商品信息进行抽取,抽取出商品名称、价格、简介等信息,然后对信息进行比较、去重、分类,最后提供给用户搜索,还可以通过分析挖掘为用户提供市场行情报告。

特点

①实时性:垂直搜索引擎需要获取的信息来自于某一特定领域,这比起通用搜索引擎漫无边际的信息抓取,有一个非常大的优势,那就是信息的实时性。由于互联网上的信息量非常巨大,通用搜索引擎的数据更新周期短则十几天,长则几个月,而垂直搜索引擎的数据更新完全可以以秒为单位。

②数据挖掘分析、BI、报表:行业的历史发展、最新动向、趋势都是行业从业人员非常关注的话题。垂直搜索引擎集中了行业海量的信息和数据,基于这些信息和数据的商务智能分析,将为行业创造非常有价值的信息增值服务。

③个性化、社会化;查询服务只是垂直搜索引擎的一部分,垂直搜索引擎在用户的个性化方向的发展非常重要。垂直搜索引擎不能只提供一个窗口,它应该是一个用户高度参与交互的社会化平台。这不光是用户粘度、忠诚度的问题,更为重要的是,垂直搜索引擎需要能够获取并且分析用户的偏好信息,从而提供更加完善而且准确的数据服务。

④智能化语义网:语义网(semantic web)将有可能成为下一代互联网,此类网络上的数据和信息将被计算机程序所理解。这将为垂直搜索引擎提供一个巨大的机会,Spider程序如果能理解网络上的数据,将对信息的收集和整理更加准确和专业,搜索服务的查全率和查准率将更高。

⑤多元化查询:目前的搜索引擎,都只局限于关键字搜索,其中主要的原因是,对用户的查询需求无法建模,无法模式化。而关键字搜索带来的问题是,搜索结果过多,并且不准确。互联网信息量越大,这种情况越严重,可以说是灾难。

与通用搜索的区别

(1)信息处理的区别

垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。举个例子来说明会更容易理解,比如购物搜索引摹,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本式计算机简介细分成品牌、型号、CPU、内存、硬盘、显示屏……然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。

在整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。

(2)信息采集的区别

垂直搜索引擎技术同信息采集技术不同的是,信息采集主要是将采集的信息导入本地数据库,而垂直搜索引擎主要是以网页的形式展现给用户。

通用搜索引擎主要是利用Spider程序到网络上搜索,一般是某个特定的周期派出一次将网页更新,垂直搜索引擎同样应有Spider程序,但该程序只在一些特定的网络上爬行,并不会对每一个链接都感兴趣。相对来说,垂直搜索引擎的收录范围大大缩小了,但并不意味着内容的缩小,通用搜索引擎对一些动态脚本是不敏感的。另外,由于目前网页中的链接形式非常多,不但有动态脚本也有Flash做链接,这些链接方式通过传统的Spider程序是很难解析出来的,在垂直搜索引擎中也应该解决。

关键技术

由于垂直搜索引擎服务具有其自身的特性,因此其技术要求特点上与通用搜索引擎有很多不同之处,主要有四大关键技术。

(1)聚焦、实时和可管理的网页采集技术

一般互联网搜索面向全网信息,采集的范围广、数量大,但往往由于更新周期的要求,采集的深度或说层级比较浅,采集动态网页优先级比较低,因而被称为水平搜索。而垂直搜索带有专业性或行业性的需求和目标,所以只对局部来源的网页进行采集,采集的网页数量适中。但其要求采集的网页全面,必须达到更深的层级,采集动态网页的优先级也相对较高。在实际应用中,垂直搜索的网页采集技术能够按需控制采集目标和范围、按需支持深度采集及按需支持复杂的动态网页采集,即采集技术要能达到更加聚焦、纵深和可管控的需求,并且网页信息更新周期也更短,获取信息更及时。

(2)从非结构化内容到结构化数据的网页解析技术

水平搜索引擎仅能对网页的标题和正文进行解析和提取,但不提供其时间、来源、作者及其他元数据的解析和提取。由于垂直搜索引擎服务的特殊性,往往要求按需提供时间、来源、作者及其他元数据解析,包括对网页中特定内容的提取。例如,在论坛搜索、生活服务、订票服务、求职服务、风险信用、竞争情报、行业供需、产品比较等特定垂直搜索服务中,要求对于作者、主题、地区、机构名称、产品名称以及特定行业用语进行提取,才能进一步提供更有价值的搜索服务。

(3)精、准、全的全文索引和联合检索技术

水平搜索引擎并不能提供精确和完整的检索结果,只是给出预估的数量和排在前面部分的结果信息(TOPN),但响应速度是水平搜索引擎所追求的最重要因素。在文本索引方面,它也仅对部分网页中特定位置的文本而不是精确的网页正文全文进行索引,因而其最终检索结果是不完全的。

垂直搜索由于在信息的专业性和使用价值方面有更高的要求,因此能够支持全文检索和精确检索,并按需提供多种结果排序方式,例如按内容相关度排序(与水平检索的page rank不同)或按时间、来源排序。另外,一些垂直搜索引擎还要求按需支持结构化和非结构化数据联合检索,如结合作者、内容、分类进行组合检索等。

(4)高度智能化的文本挖掘技术

垂直搜索与水平搜索的最大区别是,它对网页信息进行了结构化信息抽取加工,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。基于结构化数据和全文数据的结合,垂直搜索才能为用户提供更加到位、更有价值的服务。整个结构化信息提取贯穿从网页解析到网页加工处理的过程。同时,面对上述要求,垂直搜索还能够按需提供智能化处理功能,如自动分类、自动聚类、自动标引、自动排重,文本挖据等。这部分是垂直搜索乃至信息处理的前沿技术,虽然尚不够成熟,但有很大的发展潜力和空间,并且目前在一些海量信息处理的场合已经能够起到很好的应用效果。

应用价值

垂直搜索从海量的商讯中直接选出用户最需要的供求信息、买(卖)家背景资料、交易方式、服务跟踪等,它既是大量相关产品、企业信息的展示平台,又是行业网站、电子商务的聚合平台,中小企业通过它可获得传统门户网站、通用搜索无法提供的闭合式网络体验,这种附加值就是细分市场巨大的商业价值所在。总结起来,垂直搜索引擎在企业中的应用价值包括:

1.整合企业内外资源,打造企业竞争情报系统的核心引擎企业的竞争情报信息既包括外部的互联网信息、商业数据库信息等,也包括内部的办公文档资料、内部交流信息等。垂直搜索引擎是整合这些内外信息资源的有效手段之一,在资源整合的基础上,形成以情报规划、情报采集、情报加工、情报服务、评估反馈为全生命周期的、完善的、统一的企业竞争情报平台,为企业的风险预警和决策支持提供信息服务。

2.高效采集和组织管理企业内外网门户信息,使信息共享更加便捷、有序随着企业信息化的发展和深入,为了提高企业内部、企业和客户、企业和供应商之间的信息传递和共享速度,加速企业的业务进程,大部分企业(特别是分支机构较多的大型集团性企业)都建立了内外网服务门户,以便通过垂直搜索引擎高效地采集内外网门户信息,为企业职工、客户、供应商提供统一的信息检索入口,并通过权限控制实现安全的检索服务,使得信息的传递和共享更加便捷和有序。

应用领域

垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索、工作搜索、交友搜索等,几乎各行各业、各类信息都可以进一步细化成各类垂直搜索引擎。

(一)音乐搜索

除必应外,各搜索引擎都提供了音乐搜索服务,支持各种格式的音乐文件的搜索,并提供了各种榜单、音乐专题和挑歌功能。

(二)视频搜索

除了谷歌,其他的搜索引擎都有其独立的视频搜索页面,并提供了视频分类搜索。

(三)新闻搜索

各搜索引擎都提供了分类搜索,例如,百度提供了国际、国内、体育、娱乐等16个分类的新闻搜索。

(四)图书搜索

目前仅有百度与谷歌提供了图书搜索的服务,因为涉及到版权的关系,只有那些已不再受版权保护或出版商已授权搜索引擎的图书,才会提供给用户预览。只有在某些情况下,用户才可以查看全文内容,如公众领域的图书。对于那些无法预览或下载的图书,搜索引擎则提供了借阅或购买该书的渠道。

(五)地图搜索

地图搜索一般用于公交、行车路线的搜索,但大多数搜索引擎都集合了其他生活信息的搜索,如餐饮、住宿、出游、企业等信息的搜索。

(六)财经搜索

财经搜索主要提供股市报价、资讯、货币汇率等信息的搜索,目前仅有谷歌和百度提供了财经信息的垂直搜索。在谷歌财经的首页上,可以看到各个主要板块的当前行情,将鼠标移到条线图上时可以看到该板块的一些详细的涨跌信息。谷歌还提供了“股票筛选器”的服务,为用户选择投资对象提供了便利。

(七)图片搜索

各搜索引擎都提供了图片搜索服务,并提供了内容类型、图片尺寸、文件类型、图片颜色、图片版式甚至图片风格等条件的限定搜索。必应、谷歌提供的是一页式浏览结果,其他几款搜索引擎提供的则是传统的分页式浏览。

发展趋势

随着新技术的发展和门槛的降低,垂直搜素引擎将向着以下适应不同用户需求的方向不断发展。

(1)目录精细化方向发展。

由于垂直搜索引擎相对于综合搜素引擎的最大优势,是对信息进行深度的、精细化的处理。与早期的网址分类搜索引擎相似,但垂直搜素引擎只选定了某一特定行业或某一主题进行目录的细化分类,结合机器抓取行业相关站点的信息提供专业化的搜素服务。这种专业化的分类目录,很容易让用户迅速知道自己要找的是什么,并且按目录点击就能找到。未来的垂直搜素引擎将会更加精细的划分不同的行业,用户想要什么就可以得到什么。

(2)深度挖掘分析元数据。

其特点是:元数据模型再组织、再整合、深度数据挖掘、互动性。通过对元数据信息进入深度加工,该类垂直搜素引擎为用户提供综合搜素引擎无法做到的专业性、功能性、关联性,有的加入了用户信息管理以及信息发布互动功能,能很好地满足了用户对专业性、准确性、功能性、个性化的需求。

(3)向交易平台发展。

垂直搜素引擎由于自身对行业的专注,使得它可以提供行业信息深度和广度的整合提供更加细致周到的服务。对消费领域可以推出针对某一行业的搜索交易平台。搜索交易平台提供行业内商家和顾客直接沟通、咨询不再需要转到第三方平台再进行交易。

(4)本地搜索。

本地搜索的关键需求在于人们大多是在本地购物、就餐、娱乐、健身、修车、工作等。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}