检索案例:数据资源获取

在我们日常科研活动中,数据资源是一种非常重要的科研资源,比如各种统计信息、各种实验所需的数据记录等。很多科研工作的顺利开展都离不开有效数据资源的获取。这里我们所介绍的各种数据资源获取方法主要依托于互联网信息检索方法,强调对互联网数据资源的利用。虽然肯定不能完全满足所有的科研需求,但是可以提供大家一种获取数据资源的参考。

首先,对于大部分科研数据资源,由于存在着数据使用权和是否得到正确授权的问题,往往需要和数据资源的拥有者进行联系。这也是最为简单有效的方法。因此如何找到合适的联系途径成为问题的关键。比如我们从一篇文献中了解到有一个Jianmo Ni的作者使用了Endomondo数据集,该数据集包含了很多人体运动的状态数据和外在环境信息。如果我们也想利用,那么可以考虑的方法有:

第一,可以考虑获取该作者使用该数据集的相关文献,应该有很大的概率获取到相关使用说明,比如我们直接在谷歌学术中搜索该数据集名称和该作者,很容易看到相关文献,对于其中可以打开的文献,可以通过阅读获取到所需的数据资源介绍,通常文献会在实验部分给出数据获取的链接和途径。比如通过在当前文献直接检索数据集名称将可以看到该数据集的说明。

第二,当然也未必所有文献都有明确的说明,那么可以考虑设法得到学者的个人主页,并进一步寻求可能的数据链接。比如我们在谷歌中搜索同样的数据集名称和作者名称,很快也看到作者的个人主页,和其导师的个人主页,并从中发现了有效的数据集合获取方式,其中就包含了这个数据集的下载。

第三,可以考虑搜索作者个人邮箱,主动和作者联系,询问是否可以获取数据资源。大部分学者都有意愿和兴趣分享自己的有益数据,尤其是一些已经公开和已经上网的数据资源。至于如何得到作者个人邮箱,比较简单的方法依然还是检索文献数据库,通常对于作者,文献的开头都会给出尤其是通讯作者的邮箱地址。

当然,平时科研当中,如果在阅读文献时注意收集和积累,往往很容易得到很多与自己专业相关的数据资源介绍。机会还是留给有心的人啊!

其次,对于更多的数据资源,可以考虑通过一些数据分享平台,这些网络服务非常多,比如数据堂,这次我们选择数据产品,此时可以看到很多数据资源,这里是检索到的关于短信的数据资源。

当然,通过搜索引擎来获取更多的数据分享链接也是非常有效的手段,比如这里就使用百度直接检索关于Amazon的用户评分数据集,很快就能看到各种分享链接。这里值得大家尝试的一种方法就是可以利用已知的数据集来尽可能多的获取到其他相关数据集,比如我们得到了一个Amazon的用户评分数据集下载页面,其中提供了很多数据集文件链接,可以复制其中的一个相关数据文件链接,选择其中的文件名称,并使用搜索引擎的词组检索,可以检索很多密切相关的网页信息,其中既然有这个名称对应的数据集,也极有可能含有更多相关数据集的下载。比如这里的这个博客网页就提供了很多很丰富的下载入口。

说到这个地方,也是一个很好的经验,对于需要下载的数据集合等信息而言,通常博客网页是个非常有效的数据源。因此也可以通过限定博客站点来有效获取更多数据资源,比如这里我们使用CSDN博客的字段检索,可以获取到大量有趣的数据资源访问入口。

再次,对于数据资源,还有一类非常重要的统计信息。不同于上述介绍的各种科研数据资源,统计信息通常都是由诸如国家统计局等权威机构发布的各种数据资源。比如中国国家统计局的“查数”。这里既提供了各种分类好的数据统计信息,也可以通过关键词来直接检索所需统计信息。如我们检索2016年南京市人口统计信息,很快就能看到准确的结果,进一步点击“相关报表”还可以更为详细的了解数据的详情。搜数网也是一个专门提供统计信息的互联网信息服务平台,收集了包括中国大陆统计数据库、中国港台统计数据库、中国大陆统计文献库、统计词典等各种常见统计数据资源。

除此以外,文献数据库也会提供各类统计数据资源。如CNKI的中国经济社会大数据研究平台,就是一个专业的统计信息数据库。如其中提供的统计年鉴资源,可以看到各个主题领域的常见统计数据资源,并且提供了多种版本的数据格式下载服务。还有一些专门提供统计数据资源及其统计分析服务的网络平台,如中经网统计数据库、EPS经济预测系统等。这些不同的平台功能和特点各异,希望大家平时多注意收集和练习。

最后,还是介绍下搜索引擎自身提供的大数据资源,这个资源主要是利用互联网搜索引擎用户的网页检索记录、地图导航等形成的大数据统计信息,这些信息都可以很容易从搜索引擎提供的各项服务中得以获取。因此大家要尝试利用起这个有效的资源,我们以网页检索记录大数据统计服务为例。这种搜索量其实反映了一种用户关注度,因此在市场分析和趋势预测等方面有着很大的用途。

在百度中,相应的服务为百度指数,我们以茶叶咖啡为例,对比分析下,可以发现近一个月来全国的情况,出乎我们的意料,对咖啡的关注度要大于对茶的关注度。也可以改变时间范围,形成更为全面的分析。事实上,当你区分了地区等因素,你还可以看到更为独特的数据结果,如在福建莆田,两者搜索量非常接近。点击需求图谱,可以看到更多相关搜索关键词。人群画像则更多的给出了相关搜索用户的地域、年龄、性别等分布特征信息。谷歌趋势也有类似的效果,此处不再赘述。

发表评论

邮箱地址不会被公开。 必填项已用*标注