检索案例:如何利用检索来评估不同站点之间的影响力

我们来看第一个案例:如何利用检索来评估不同站点之间的网络影响力。

这种所谓的影响力,在真实的检索需求中,可以间接的表现为诸如质量、知名度等类似概念。通常对于此类问题的判断,要根据多方面的综合因素才能做出相对正确的判断。我们这里主要以此为案例来说明网络信息检索方法的应用,当然受限于网络信息资源本身检索的条件,我们也只能提供一种辅助参考的角度和思路,相关答案也仅供大家学习参考。

比如我们想了解大学的比较情况,比如曼彻斯特大学和康奈尔大学。我们以几个可以通过搜索引擎来获取的信息检索结果来进行下必要的分析。

首先,可以按照互联网上存在的相关学校的域名网址链接的数量,我们可以发现两者区别已经出现,一个为1.4亿,一个为1.1亿,康奈尔大学靠前。这里需要说明两点:一是考虑到国外用户访问的规模,我们只使用了Google搜索引擎,事实上如果要全面考虑还需结合诸如中文搜索引擎等信息;二是在关键词选择上,我们去除了www,这是因为学校域名通常这个前缀可能表现为具体的学院或者下属机构名称。

其次,可以按照两个学校自己的网页规模来间接测度。我们发现,一个为330万,一个是58万,康奈尔大学仍然靠前。

然后,我们还可以根据搜索引擎用户的搜索量,比如Google趋势就可以测度比较各个搜索词语的搜索量,我们可以看到全球在近5年内,康奈尔大学的搜索关注度仍然比曼彻斯特大学要更高。其中,可以看出考虑到用户极可能不会检索增加the,而在曼彻斯特大学前面去除了the。

事实上,如果使用完整名称,差距更大。

同时,我们还可以考虑一些搜索引擎提供的特殊功能,如专门的外链查询,即查询含有当前网站链接的网页,百度的domain字段检索可以实现这一功能。

甚至我们还可以考虑利用一些专业的网站信息检索工具,如alexa等。

这些可以基本验证吗?通过查阅泰晤士2020世界大学排名,可以发现康奈尔大学排名19,而曼彻斯特大学排名57,和网络影响力基本呈现一定的相关性。

但是我们也应该注意到这种方法只能作为一种参考,有时也未必总是正确,比如直接使用大学名称作为检索关键词却呈现完全不一样的结果。何况搜索引擎返回的结果数量也是一种估算。这些其实很正常,事实上任何一种方法都不可避免存在着误差。因此,我们应该综合比较多种方法,才能形成一种比较稳妥的决策依据。

这种利用搜索引擎检索信息的方法其实可以利用在很多其他方面,我们不妨做了扩展。比如如何测度不同主题词语之间的相关度,传统的方法都是利用一些比较复杂专业的文本分析方法,但是我们今天换个思路。

比如有“管理信息系统”,要和“Web挖掘”、“数据挖掘”、“数据库”三个主题词比较相关度,我们不妨直接利用这些词语的组合来检索试一下,我们可以明显发现“管理信息系统”与“数据库”关系更为紧密,而和其他两个词语的相关度则差很多,这基本符合专业认知。

当然,有效的测度必须要考虑更多的因素,比如综合多个搜索引擎结果,进行必要的语种综合判断,等等,这些大家有兴趣可以自己多做思考!

发表评论

邮箱地址不会被公开。 必填项已用*标注