检索案例:信息检索的特点和在实际应用中的区别

这次主要结合通过Web搜索引擎、电子商务和学术文献检索三个方面,来谈谈信息检索的特点和在实际应用中的区别。

先从资源提供方来看看,这三种常见的网络信息服务虽然应用领域不一样,但是从本质上说很相似,都是提供一种信息检索服务。Web搜索引擎主要提供网页信息检索,电子商务网站主要提供商品信息检索,而学术文献检索则主要面向诸如图书、论文等文献资源。

我们从目前的困境开始说起。目前信息检索的主要困境在于海量信息带来的信息过载问题,这一点从这三个领域都能看出来,这就导致在不掌握合理检索方法的时候,用户常常会面对着无法找到所需信息内容的困难。同时,我们也注意到随着商业活动的介入程度不断加强,信息检索的商业价值也不断被提升,从而使得用户检索信息的难度进一步增大。

比如在Web搜索引擎中,信息检索中网页结果排名甚至成为一种有效的广告推广方式,如Google的Adwords等关键词广告服务。

这里的困境最终表现为一个简单的问题:如何真正判断信息检索结果的优先排名次序?

为了说明和比较,这里忽略所有商业相关的影响因素,只从解决问题本身来看如何处理。

对于网页而言,目前常见的判断方法主要考虑如下一些因素:

首先是关键词的匹配,这其实是最为根本的,因此也是本课程教学的主要目标,让大家了解并学会应该使用什么样的检索词语和检索方法来进行有效检索。

其次是关键词在网页中的重要性,这个也显而易见,如果一个网页标题含有这个关键词,显然要比它正文中出现更能说明相关性。当然,除了位置外,诸如频次、色彩、大小都有可能成为区分不同关键词在同一网页中重要性的依据。

最后是网页自身的重要性。这个也受到很多因素的影响。比如重要站点和权威站点的信息资源通常在质量和可靠性方面要更好一些。再如网页的被链接数量,从更多其他网页通过链接能访问到的网页一定是个相对较受关注的网页,从而重要性更大一些。甚至网页本身的更新时间等等也是一些常见的判断标准。

那么对于对于商品检索和文献检索呢?其实差不多,也存在着这三方面的因素。

比如我们先看商品。商品的关键词设计及其在网页中重要性的体现是很多电商卖家要学习的重要内容,卖家不能只根据自己的理解来编排,而必须结合买家检索时最常见的相关关键词来有针对性的设计商品标题和描述。而卖家自身店铺的重要性也是极为重要的影响因素。当然,除此以外,电商平台在考虑商品检索排序时,还要考虑公平和效率、买家和卖家、精度和多样性等多种影响因素,如好评率、时效性等。这些特征是传统Web网页所不具备的,也可以看成是改进现有Web网页检索的有效方式。

再如学术文献。学术文献所使用的检索词通常专业性很强,这使得有效选择关键词不仅成为文献检索者需要学习的技能,也是很多学术文献作者在撰写文献时需要考虑的因素,甚至必要时还需要结合各种方法来实现关键词的准确选择。

其次在关键词与文献之间的相关性方面,和用户检索关键词进行匹配的字段内容更多,除了标题和正文外,还有摘要、关键词、主题词、来源刊物、出版社、作者等等信息,这也使得学术文献与关键词匹配的灵活性更大。

当然对于文献而言,自身的重要性也是一个很专业的评价问题,这些都是后续课程会重点介绍的内容。

最后,我们可以从本质上来看,这个问题的来源其实在于信息太多了,而用户通常不太可能看完全部的检索结果。

在国外搜索引擎界曾经有这样一句话:“如果你的网页不能被Google检索到,那么你的网页等于不存在;如果你的网页不能被Google检索排在检索结果第一页中,那么你的网页也等于不存在”。虽然有点夸张,但是道理很浅显。

所以站在检索者的角度来看,我们所能做的、所应该做的,就是不断提高自己的检索技能,在现有检索条件既定的情况下,更快更好的找到我们所需的信息资源内容。

发表评论

邮箱地址不会被公开。 必填项已用*标注