科研论文写作2:文献获取

一旦确定了研究选题,那么接下来就需要全面的获取相关研究文献。这个工作其实非常重要,我们可以从两点来认识:

第一,如果没有查阅到与当前研究较为接近的其他类似研究,尤其是最近的研究,那么你的研究创新性将难以梳理,甚至无法判断你的研究是否存在类似已有研究;

第二,如果没有查阅到与当前研究相关的基础早期研究,那么通常论文在评审时,也会被懂行的专家一眼看出问题的所在,认为你缺乏对研究问题的深入了解。在文献中的“文献回顾”章节,通常是第二章,这些相关内容都是需要建立在前期论文获取的基础之上,也是撰写高质量文献回顾章节的关键。

文献获取的方法依然主要靠信息检索工具来完成,前期我们介绍的各种学术搜索引擎和文献数据库都可以提供有效的检索功能。因此,在这里我将不再把介绍重点放在工具使用说明上,相反,更侧重于对方法和策略进行说明。我们经常遇到哪些问题呢?

第一个问题:找到太多的文献。

这种问题最为常见。通常这意味着关键词的选择要做出合理的调整,比如增加相关关键词、使用更为专指的下位关键词等。如使用具体的算法来替换较为笼统的概念,如将“决策树”替代“数据挖掘”,“南京”、“苏州”替换“苏南”等。这些关键词一方面可以根据自己的研究积累做出选择,另一方面也可以根据检索系统提供的相关工具。比如CNKI中就在检索时提供了相关主题的建议,可以点击扩展箭头来获取全部内容,而且提供了可视化界面,直观的对比各个主题的权重。同时在检索结果界面的下面还直接提供了建议关键词,往往更为具体和专指。

其次,也需要对文献本身的检索结果进行限定,这里主要的问题在于如何判断文献的质量。常见的根据被引量是一个有效的指标,但是往往会呈现出过于陈旧的问题,因此最好能全面结合时间检索和被引量排序,比如在百度学术中,我们可以检索深度学习和股票的相关文献,此时为了强调股票,我们在股票前后增加了双引号,这表示必须出现。这个操作也可以在高级检索中予以表现,即“包含精确检索词”。此时的结果可以先限定年代为2015年以来,并按照被引量排序,这样可以在文献质量和时效性两方面取得一定的平衡。

第二个问题:找到太少的文献。

通常对于自己不太了解的问题,往往可能会存在这样的检索困局。造成此类问题的常见原因在于由于自己不清楚相关研究内容,往往导致检索关键词不准确。我们举个例子。比如在工厂生产流程中的过程控制中,一道完整的加工工序中会收集各个阶段大量的数据,最终还能得到每个加工产品的成品率,我们想了解究竟是什么数据会影响最终的成品率,而且我们还想了解有无好用的Python工具包解决此类问题。那么,我们该看什么文献呢?

通过分析,可以认为该研究就是准备从很多产品加工流程属性中找到最能影响产品最终质量的关键属性。这应该属于数据挖掘的一种方法。我们从“关键字段 数据挖掘”入手,这里前面所介绍的一些检索策略将派上用场,最为常见的就是检索发现方法,我们需要从检索结果中去了解更为准确的关键词。

一方面,“数据挖掘”词语过于泛指,意义不大,另一名,关键字段的表述似乎不专业,因为相关结果很少。于是我们大胆调整为“影响字段挖掘”,这个过程并非一定按照这个逻辑,但是我们一定要根据已经查阅的结果反复大胆的调整,使得结果趋近于理想。虽然没有看到合适的结果,但是我们发现更多的在该数据挖掘中“属性”表述比“字段”更为常见。

于是再次调整为“重要属性挖掘”,在结果再次发现“显著”这个关键词要比“重要”表述更为专业。检索关键词再次调整为“显著属性挖掘”。其中的第一篇文献很好的回答了类似的问题,并给出了专业的英文表述关键词,即“outlying aspects mining”。据此可以了解更多的英文专业文献。如果想继续了解相关Python库的使用,也可以继续增加诸如“Python”关键词来界定检索结果。但是效果并不理想。同样还是因为Python词语本身比较热门,极大影响了检索结果的专指性。

为此我们可以继续调整,如替换为“库”、“Python 库”等,甚至需要考虑在现有关键词中是否可以去除一些相对不重要的关键词,如“mining”,挖掘比较泛指。最终确定了“outlying aspects Python 库”这个检索词,并在首页下面的记录中看到了相关库包的介绍。

发表评论

邮箱地址不会被公开。 必填项已用*标注