检索案例:学术数据库和学术搜索引擎中关键词检索方法

这次我们专门介绍下学术数据库和学术搜索引擎中的各种关键词检索方法。

我们主要以CNKI讲解学术数据库,以Google学术讲解学术搜索引擎。

我们先看学术数据库中如何使用常见的几种关键词检索,我们来看看CNKI。

首页所提供的这个检索框其实只是一种简单的检索,一般用户只需将所要检索的关键词直接输入进去即可检索,不建议此时采用各种较为复杂的语法和带有特殊功能的检索符号。

如果这样做,反而有时会报错,比如使用双引号或者单引号想实现词组检索,检索时会提示不允许使用这些符号。

因此,大家如果需要使用,可以在高级检索功能中进行。点击首页检索框右边,即可打开。其中各种功能都隐含了各种前面所介绍的各种关键词检索方法。

比如布尔检索可以通过这个加号来增加条件,不同条件之间的布尔逻辑关系都可以通过提供的三种布尔关系来指定。比如我们想检索主题含有“数据”或者关键词含有“索引”,同时标题不含有“数据库”,构造的检索条件可以为。

再如词组检索,默认的第一个关键词必须是精确匹配,也就是词组检索,后面增加的可以设定为模糊,允许系统分词,类似于模糊检索。

对于字段检索,学术检索和网页检索差异比较大,此时不存在诸如站点、文件类型等搜索引擎常见的字段,相反,增加了很多与学术论文有关的新字段,这些后续课程中会专门介绍。一般默认的主题检索就能满足日常检索需求。

同时,这里还有些非常重要的其他字段,如作者及其机构,还分第一作者和通讯作者。还有发表时间、文献来源和支持基金等字段,都可以提供更为方便的专业字段检索功能。

然而,作为专业学术数据库检索系统,该系统还提供了两种更为强大的专业检索功能,都是一般网页搜索引擎所不具备的功能。

第一个是句子检索,这种检索是一种位置检索功能,以句子和段落为单位,检索关键词在全文中出现的位置,比如我们想检索在同一句中出现“专业性图书”和“个性化推荐”这两个关键词,可以看出检索效果查准率非常高,虽然数量往往很少,但是专指性非常强。这个可以看成是一种带有位置检索功能的词组检索。

第二个是专业检索,这种检索其实是一种非常古老但是最为专业的文献检索方式,允许用户通过构造一种专业的定制化检索来表达文献需求。考虑到用户可能并不会使用这些功能,因此,CNKI给出了很多案例来详细说明具体的检索方式,用户可以点击检索框右边的“检索表达式语法”就可以看到详细的语法说明。

限于时间和必要性,这里不打算全部说明下,但是可以通过一个例子来看看这种检索的效果。

我们首先以全文含有“区块链”和“大数据”两个关键词,要求按次序出现,间隔小于2句话,因此可以构造“FT=’区块链 /SEN 2 大数据’ ”检索式。中间这个SEN表示sentence句子,2表示少于两句。

大家可以注意到,你在输入前和输入期间,系统都会智能性的提示你应该输入的字段并自动生成对应的检索表达式,此时可以看出找到很多文献。继续输入条件,此时按动空格即可出现布尔连接操作符,此时增加了机构为北京邮电大学,考虑到机构名称可能为部分匹配,因此没有加单引号限定精确比较。此时结果明显变少了。但是出现了一些文献来源为北京邮电大学的学位论文,为此可以再次去除这些文献,使用NOT布尔检索。此时最终获取到了所需的结果文献。由此可以看出,这种专业检索功能最为完备,条件组配也最为灵活,大家可以平时在学习中多尝试多使用。

我们再看看学术搜索引擎,以Google学术为例。从总体来看,该学术搜索引擎和Google搜索引擎的关键词检索功能基本一致,我们前面所介绍的各种关键词检索方法都可以直接使用。用户也可以通过“高级检索”来更为简单的使用关键词检索,方法是点击左上角的菜单并选择高级检索。其中前面的四行基本涵盖了布尔检索、词组检索和模糊检索的大部分功能。

其中存在较大的差别的依然还是字段检索,这主要还是因为检索对象是学术文献。明显得字段这里有标题、作者、来源(比如期刊还是会议)以及发表时间。除了通过高级检索来表达这些字段检索,也可以直接通过书写对应的字段名称来进行。如allintitle就表示标题字段检索。再如作者检索,甚至可以直接在检索框下看到作者详细信息和Google学术的学者主页链接。再如来源检索,这里注意一个问题,由于英文期刊等名称通常会由多个单词组成,会导致Google学术在高级检索中使用来源检索默认会将每个单词拆开检索。因此,也可以使用双引号词组检索,也可以在检索框使用一个来源字段检索。

最后看下时间检索,它的实际操纵界面是放在屏幕左边。在默认情况,一旦设定了时间范围,如果你不改变,那么后期所有关键词检索都会采用这个时间段,因此要记得在必要时换成“Any time”。

我们举个例子,比如我们想了解下关于本科信息检索(Undergraduates information retrieval)的相关英文文献。我们可以使用相关的英文表述来检索。默认按照相关度排序,这个相关度综合了内容相关和被引量,因此排在前面的都比较陈旧,但是如果直接按照时间来排,太新的文献往往并不能确保质量。此时也能看到这是Google学术允许按照新文献的摘要或者全文来匹配文本相关度。因此合理的方法就是仍然采用相关度排序,然后指定时间范围,如2014年以来,你会看到一些被引量较高同时发表年代较新的文献。这些方法大家多注意摸索。

发表评论

邮箱地址不会被公开。 必填项已用*标注