检索案例:如何有效的利用时间信息来增强信息检索功能

这次我们来看看在信息检索时,如何有效的利用时间信息来完成一些有趣的功能。

比如查询南京财经大学新域名nufe.edu.cn开始正式启用的大致时间。

南京财经大学以前的域名是njue.edu.cn,现在改为了新的域名。那么我们该如何知道大致更换的时间呢?

这样的信息直接在网上查找可能难度很大,因为这并非一个很重要的事件

关注人未必很多,也未必有相关的网页信息是关于这个问题的答案。

当然也有人会注意,不妨检索下查询域名启用时间的方法,这个思路是可行的,比如我们在IP域名信息查询网站上直接检索该新域名的启用时间,就会发现启用时间为2017年。但是其实这并不完全准确,因为这个信息只是域名开始启用的时间,并非正式启用,一般为了老用户方便和使用的连续性,网站在更换域名前会提供一个过渡期,在过渡期结束后才能正式启用新的域名。

那么难道就没有方法了吗?

时间信息是一个非常有效的信息。我们可以想象一下,如果新域名开始正式使用,旧域名废弃,那么新域名的相关网页数量会出现较大的增长,而旧域名的相关网页数量也会停止增长。

在前面的讲解中,我们提到过搜索引擎通常提供了时间限定检索功能

如百度搜索结果的“搜索工具”中的时间限定选项。我们直接搜索新域名的结果,这里考虑域名有很多下级子域名,因此去除了前面的www。我们首先限定在2017年11月到2018年11月的结果,此时无法看到搜索引擎给出的网页结果数量。

不过,可以将页面拉到最下方,看看显示的页面数来估算。一般默认一页10个结果,这样的话,估计在30左右,这个是很少的数量,几乎可以忽略,但是确实说明2017年11月以来该域名已经存在。我们再次调整时间为2018年11月到2019年3月,说明下,因为这是练习,我也是为了了解真正的正式启用时间,故意这样,其实在真正的检索时,应该首先以年为单位查询,一旦确定年份后再以月份来精确更为合理和实用。结果好像更少了,这并非错误,因为搜索引擎也是估算,在数量级上,几十和几个都不具有区分度。

但是当我们调整到2019年4月份时,结果开始变多。当然数量依然不明显。以此类推,调整到2019年5月份时,结果再次变多。这种增长的趋势很有意义。调整到10月份时数量开始明显变多。到了12月底数量已经接近100,这明显说明新域名开始启用。所以我们可以大致判断启用时间应该在2019年夏天甚至更早一些,因为搜索引擎的结果数量存在一定的滞后性,事实上,正式启用时间为2019年4月10日。

我们也可以换个思路来试一试,利用旧域名的时间变化关系也可以做出一种判断依据。

比如检索下2019年1月到2020年2月这段时间的情况,我们发现虽然有近一年的时间跨度但是数量非常少。值得对比的是,如果检索2018年1月到2019年4月,你会发现数量非常多,这在另外一个角度也再次验证了旧域名的终止时间。大家有兴趣可以多试一下。

下面的例子通过“大鱼海棠”的时间限定检索也确认了该电影大致的公开上映时间应该为2016年。2014年到2015年数量不多,但是调整为2015到2016年,数量再次明显变多。因为准确的上映时间可以查阅的到,我们不再详细说明,大家可以自行练习。

补充说明下,Google搜索引擎也有类似的功能,同时Google在处理时间方面更为灵活些,比如检索“01/01/2020”,你会看到它很智能化的理解这个时间信息,并将其转换为各种时间格式进行检索,极大的提高了查全率。

发表评论

邮箱地址不会被公开。 必填项已用*标注