检索案例:检索结果可视化-VOSViewer

大家在做各种文献检索的时候,往往需要对检索结果做必要的有效呈现,我们在前面所介绍的各种文献数据库和搜索引擎工具时,都说明了很多有效的方法,比如CNKI的关键词共现网络、SCI的会议信息树状图等等。因此,大家在平时检索练习中多积累,才能掌握各种有效的检索结果可视化工具。

不过,我们也可以使用一些专业的文献检索可视化工具,这次我们主要结合VOSViewer来做介绍。

大家可以在官网上直接访问,为了能正常使用,大家首先需要安装最新版的Java环境,大家可以直接百度搜索JRE,第一条就是,Oracle公司就提供了各种操作系统的版本。一般新版Windows用户可以选择倒数第二个下载安装即可,Oracle可能需要用户注册登录即可免费下载。

安装好JRE后,VOSViewer提供了两种打开方式:第一个是直接在浏览器中打开,但是需要浏览器支持,一般Windows自带的IE浏览器就可以;第二个是下载安装使用。两者打开后的界面一致。它自带了一些测试样本,如这个期刊地图,就可以直接点击打开装载测试,并提供了多种风格的显示效果。

我们以一个案例来说明。比如我们想了解某位学者的研究主题情况,这里以南京财经大学李树青老师近年来基金论文来做说明。为了使用VOSViewer来做分析,必须得到相关的参考文献信息,这是分析的基础内容。既可以从SCI等国外数据库中导出,也可以从CNKI等国内数据库导出。

我们这里以CNKI为例,在CNKI中检索机构为南京财经大学,作者为李树青,支持基金为国自科和国社科,选择近年来最新的10篇文献。点击导出参考文献,即可看到完整的参考文献列表。由于CNKI没有提供直接可以给VOSViewer访问的参考文献格式,因此需要通过第三方软件转换下。比如我们使用EndNote,这里导出选择EndNote格式。双击利用EndNote打开该参考文献信息,此时会要求导入到一个库中,既可以新建也可以打开已有库。选中所需的记录,比如这里的10条参考文献,选择文件菜单的导出,在输出样式中选择其他样式。在样式选择界面中,可以在中间的检索框中输入Refman并按回车键确认,即可看到上部已经出现相应的格式,点击选择按钮,可以看到输出样式中增加了Refman样式,此时即可直接导出。导出后,默认情况下EndNote只提供了txt文件扩展名,因此需要将文件扩展名更改一下,以方便VOSViewer读取。对于系统提示的确认是否,可以选择确定更改。如果看不到文件的txt扩展名,可以在文件管理器中点选文件扩展名,此时即可修改。

好了,到此为止,我们可以完成了可以供VOSViewer读取的参考文献信息了。

接下来打开VOSViewer,点击创建按钮,选择第二项,根据书目数据生成结构图,下一步,仍然选择第二项,数据源选择从参考文献管理工具的数据文件读取,接下来就可以选择RIS窗格,点击右边的按钮打开刚才保存的ris文件。接下来的信息配置过程是需要大家根据实际情况做出灵活调整的地方,这里的案例比较简单,因此我们只需修改一处,即选择分析类型为关键词共现,其他参数可以采取默认值。后期大家有了经验,可以酌情做出更多调整以得到更适合的结果。此时,就可以完整的看到该作者研究主题的关键词情况,明显看出两个主要的领域,并通过个性化推荐建立了关联。

大家也可以大胆的调整右边窗格所提供的各种参数,比如字体、颜色、大小、距离等,生成更适合自己要求的风格样式。当然,这个练习比较简单,也是考虑到未注册EndNote版本最多一次只能导入10条记录。

我们如果有EndNote注册账号,可以尝试做一些更为复杂并且更具有分析价值的案例。比如我们检索南京财经大学在2019年全年关于国社科基金论文的总体研究主题情况,这时可以在CNKI中进行相应的高级检索,并选中167篇结果文献。此时通过VOSViewer就能看到更为有趣的图样,大家可以好好的结合自己的研究兴趣和方向做出相应的分析和探索。

检索案例:数据资源获取

在我们日常科研活动中,数据资源是一种非常重要的科研资源,比如各种统计信息、各种实验所需的数据记录等。很多科研工作的顺利开展都离不开有效数据资源的获取。这里我们所介绍的各种数据资源获取方法主要依托于互联网信息检索方法,强调对互联网数据资源的利用。虽然肯定不能完全满足所有的科研需求,但是可以提供大家一种获取数据资源的参考。

首先,对于大部分科研数据资源,由于存在着数据使用权和是否得到正确授权的问题,往往需要和数据资源的拥有者进行联系。这也是最为简单有效的方法。因此如何找到合适的联系途径成为问题的关键。比如我们从一篇文献中了解到有一个Jianmo Ni的作者使用了Endomondo数据集,该数据集包含了很多人体运动的状态数据和外在环境信息。如果我们也想利用,那么可以考虑的方法有:

第一,可以考虑获取该作者使用该数据集的相关文献,应该有很大的概率获取到相关使用说明,比如我们直接在谷歌学术中搜索该数据集名称和该作者,很容易看到相关文献,对于其中可以打开的文献,可以通过阅读获取到所需的数据资源介绍,通常文献会在实验部分给出数据获取的链接和途径。比如通过在当前文献直接检索数据集名称将可以看到该数据集的说明。

第二,当然也未必所有文献都有明确的说明,那么可以考虑设法得到学者的个人主页,并进一步寻求可能的数据链接。比如我们在谷歌中搜索同样的数据集名称和作者名称,很快也看到作者的个人主页,和其导师的个人主页,并从中发现了有效的数据集合获取方式,其中就包含了这个数据集的下载。

第三,可以考虑搜索作者个人邮箱,主动和作者联系,询问是否可以获取数据资源。大部分学者都有意愿和兴趣分享自己的有益数据,尤其是一些已经公开和已经上网的数据资源。至于如何得到作者个人邮箱,比较简单的方法依然还是检索文献数据库,通常对于作者,文献的开头都会给出尤其是通讯作者的邮箱地址。

当然,平时科研当中,如果在阅读文献时注意收集和积累,往往很容易得到很多与自己专业相关的数据资源介绍。机会还是留给有心的人啊!

其次,对于更多的数据资源,可以考虑通过一些数据分享平台,这些网络服务非常多,比如数据堂,这次我们选择数据产品,此时可以看到很多数据资源,这里是检索到的关于短信的数据资源。

当然,通过搜索引擎来获取更多的数据分享链接也是非常有效的手段,比如这里就使用百度直接检索关于Amazon的用户评分数据集,很快就能看到各种分享链接。这里值得大家尝试的一种方法就是可以利用已知的数据集来尽可能多的获取到其他相关数据集,比如我们得到了一个Amazon的用户评分数据集下载页面,其中提供了很多数据集文件链接,可以复制其中的一个相关数据文件链接,选择其中的文件名称,并使用搜索引擎的词组检索,可以检索很多密切相关的网页信息,其中既然有这个名称对应的数据集,也极有可能含有更多相关数据集的下载。比如这里的这个博客网页就提供了很多很丰富的下载入口。

说到这个地方,也是一个很好的经验,对于需要下载的数据集合等信息而言,通常博客网页是个非常有效的数据源。因此也可以通过限定博客站点来有效获取更多数据资源,比如这里我们使用CSDN博客的字段检索,可以获取到大量有趣的数据资源访问入口。

再次,对于数据资源,还有一类非常重要的统计信息。不同于上述介绍的各种科研数据资源,统计信息通常都是由诸如国家统计局等权威机构发布的各种数据资源。比如中国国家统计局的“查数”。这里既提供了各种分类好的数据统计信息,也可以通过关键词来直接检索所需统计信息。如我们检索2016年南京市人口统计信息,很快就能看到准确的结果,进一步点击“相关报表”还可以更为详细的了解数据的详情。搜数网也是一个专门提供统计信息的互联网信息服务平台,收集了包括中国大陆统计数据库、中国港台统计数据库、中国大陆统计文献库、统计词典等各种常见统计数据资源。

除此以外,文献数据库也会提供各类统计数据资源。如CNKI的中国经济社会大数据研究平台,就是一个专业的统计信息数据库。如其中提供的统计年鉴资源,可以看到各个主题领域的常见统计数据资源,并且提供了多种版本的数据格式下载服务。还有一些专门提供统计数据资源及其统计分析服务的网络平台,如中经网统计数据库、EPS经济预测系统等。这些不同的平台功能和特点各异,希望大家平时多注意收集和练习。

最后,还是介绍下搜索引擎自身提供的大数据资源,这个资源主要是利用互联网搜索引擎用户的网页检索记录、地图导航等形成的大数据统计信息,这些信息都可以很容易从搜索引擎提供的各项服务中得以获取。因此大家要尝试利用起这个有效的资源,我们以网页检索记录大数据统计服务为例。这种搜索量其实反映了一种用户关注度,因此在市场分析和趋势预测等方面有着很大的用途。

在百度中,相应的服务为百度指数,我们以茶叶咖啡为例,对比分析下,可以发现近一个月来全国的情况,出乎我们的意料,对咖啡的关注度要大于对茶的关注度。也可以改变时间范围,形成更为全面的分析。事实上,当你区分了地区等因素,你还可以看到更为独特的数据结果,如在福建莆田,两者搜索量非常接近。点击需求图谱,可以看到更多相关搜索关键词。人群画像则更多的给出了相关搜索用户的地域、年龄、性别等分布特征信息。谷歌趋势也有类似的效果,此处不再赘述。

检索案例:PPT制作中的信息检索

我们经常会遇到各种事务需要准备幻灯片PPT,其实这项工作在很大程度上依赖于互联网信息检索。我们今天就来看看如何利用互联网来帮助我们完成这项工作。

第一:我们如何获取相关参考。一般而言,我们可以直接在网络上搜索所需的相关PPT文档。比如我们想查找推荐系统方面的PPT文档,可以在必应搜索引擎中使用字段检索,文件类型为PPT,检索关键词为“推荐系统”。可以看到有很多结果,而且每个结果都可以直接点击下载。

但是我们要注意几个问题:首先,关键词的选择不能太泛,究竟是推荐系统的哪一章节哪一块,越明确具体越提高检索查准率。比如我们其实想要的是协同过滤方面的内容,可以看出增加了“协同过滤”词语以后,文档摘要显示的内容已经基本符合我们的预期,极大的去除了无关结果;其次,可以综合多种前文所述检索方法来不断调整结果。比如增加site字段限定教育网资源。

第二:PPT中除了文字以外,还有图片这种非常重要的素材。图片资源不同于文字资源,通常缺乏较为准确的文字描述,因此不论是查全率还是查准率都相对较低。

这里谈几种可能的辅助方法:

一是可以利用基于图片特征的一些检索方法,如根据图片颜色、尺寸等指标,这些可以帮助我们限定检索范围。同时有些平台工具还可以提供基于图片特征的更为强大的检索功能,如TinEye,它就提供了一种利用颜色及其搭配效果的图片检索方式,用户可以从右边选择需要的颜色,并且设定不同颜色的比例。这是三等分情况下的检索结果图片。进一步调大深红色比重,可以看到更为明显的图片色彩区别。

二是根据已有的一张图片可以进一步查找其他相关图片,比如我们看到了一篇觉得感兴趣的图片,在必应中点击图片的标题,即可打开这张图片的来源网页,从中可以看到更多的相关图片内容。还有很多以图搜图的搜索工具也可以使用,比如俄罗斯著名搜索引擎yandex,就以很好的根据用户自己选择的图片来检索类似图片,这里我们看到针对我们自己绘制的一个颜色示意图的检索结果。duososo提供了更多的图片检索链接。

三是对于图片资源,建议大家多使用一些图片素材资源站点,这类资源站点通常会有较为完善的图片标注,因此可以提供更为方便的检索途径。比如flickr图片就是雅虎提供的图片分享网站。比如我想检索蓝色为主的月亮图片,以“moon”为检索关键词,同时选择蓝色,此时可以看到很多相关图片。同时,用户还可以根据风格、方向、时间等多种特征筛选结果。

第三:音效的使用。音效是相对最难检索的一种素材,不仅因为数量相对较少,而且相对缺乏关注度,获取途径很有限。

直接利用搜索引擎可以根据所需的音效名称来检索,通常可以获取到下一步获取音效的入口链接。也可以考虑一些不错的音效素材网站,如爱给网就提供很多免费的下载资源,同时还提供了较为完备的音效类目组织,以便用户检索。

我们看一个案例:这里学生需要检索咕咚声音,这些音效完全可以通过刚才说过的方法直接检索。不过学生的问题是他已经找到一个,只是不知如何下载。这些问题主要来自于浏览器,比如Chrome就直接打开播放,而没有下载。可以使用前面我们介绍过的各种多媒体资源下载方法来尝试。最为简单的方法就是使用下其他浏览器,如将当前URL复制后直接拷贝到IE浏览器中回车即可提示下载保存。甚至可以使用迅雷等下载工具来完成。

第四:模板的使用。这里可以利用一些PPT模板网站。比如微软的OfficePLUS、金山的稻壳儿等,有些网站还专门提供PPT模板交易,上面也可以获取到所需PPT模板,如国内的PPTStore、国外的presentationload等。

检索案例:使用文献数据库来了解专业会议情况

这次我们我通过案例练习来深入了解一些如何使用文献数据库来了解专业会议情况。

前面已经介绍过会议信息对于科研工作来看非常重要。通常对于初学者和刚进入科研领域的同学来说,最为常见的问题包括自己研究方向有哪些重要会议?了解即将召开的会议有哪些等等?

CNKI就提供了检索途径。点击首页的出版物检索,在打开的出版来源导航界面中,选择会议导航,即可看到各个学科的会议情况说明。由于会议不仅包含学科研究为主要内容的学术会议,而且还有很多来自于行业和政府的会议,这些都可以通过该界面来统一检索。

比如我们想了解计算机方向国际会议相关信息。可以选择会议查询,然后在学科导航中选择信息科技,选择计算机软件和计算应用。选择国际会议,按照被引次数排序,即可看到较为全面的会议信息。具体点击某一会议,还可以看到会议详细介绍和论文集下载,如果对该系列会议有兴趣,还可以点击系列论文集,来进一步了解往届会议的情况。同时,该界面还提供了进一步检索会议论文集的方便入口。

当然更为方便的还是直接通过检索关键词来查询会议信息,比如检索数据挖掘国际会议,为此使用Data Mining数据挖掘的英文表述来检索,再次按照被引次数排序,即可看到很多著名的数据挖掘国际会议。

另外,CNKI的会议录检索也有类似的功能,在中国重要会议论文全文数据库中,选择论文集导航,也可以按照学科选择检索,此时能看到以列表方式汇总显示的会议论文集信息,每种会议论文集都对应着一个会议。此处不再赘述。

CNKI还提供了会议预告信息,可以查看各个即将召开的会议信息。

当然,对于国际会议,其实最为有效的数据库可以使用ISI的CPCI,原名为ISTP,即国际科技会议录索引,它是文摘索引型数据库,汇集了世界上最著名的会议,座谈会,研讨会及其它各种专题研讨会的会议资料。CPCI分为面向自然科学的CPCI-SCI(简称CPCI-S)和面向社会科学的CPCI-SSCI两个专辑。

比如仍然查询数据挖掘国际会议,在Web of Science网站中,选择基本检索,输入Data Mining,并选择会议检索字段,即可看到检索结果。但是默认的排序方式日期排序方式并不十分有效,选择被引频次排序,看到的结果又过于陈旧。再次使用结合时间和被引的方法,在界面中选择时间为2019年,并点击精炼,此时按照被引频次排在前面的若干会议论文及其相关会议信息都非常有参考性。

要想全面了解会议信息,可以点击分析检索结果,打开的界面中,选择会议名称,即可看到不同会议的罗列信息,明显能看出来不同会议的区别。直接悬浮鼠标到指定会议信息上,即可看到被收录论文数量,进一步点击,可以看到该会议的详细收录文献。

虽然刚才这个检索不错,但是很难看到会议文献的被引信息,从而缺乏一种据此判断的依据,单纯靠文献收录数量并不十分有效。为此,我们还是主要要靠按照时间和被引量的检索结果来判断。

这次可以根据引文报告来查看会议信息,该功能不能对超过1万条以上的太多记录进行分析,因此可以选择必要的年份,如选择2015年到2019年,并点击精炼确认,此时的结果就已经很能反映问题,排在前面的几篇高被引会议论文和相关会议都是该领域的顶级国际会议。也可以通过引文报告来看更为详细的结果,点击创建引文报告,打开界面显示各种统计信息。在页面的下方,可以看到按照被引量倒序的统计结果,其中甚至给出了被引量在不同年份中的具体数值,从而提供了很多的判断依据。

除此以外,还可以通过我国国家科技图书文献中心NSTL来检索会议信息,选择会议文献,输入Data Mining,并点击搜索会议录,此时即可看到结果。这里也提供了会议汇总,按照收录会议录数量给出不同会议名称,同时还可以点击“展示更多”后,看到主编信息,从而了解该领域著名学者。

不同的数据库有各自的特点,比如这个会议数据库,可以提供关键词建议,点击关键词即可看到更多的相关关键词,有助于用户确定最为准确的关键词,同时还有关键词主题限定,点击关键词旁边的向下箭头,即可打开主题提示,可以看到不同主题下的概念,用户可以进一步确定主题类型来限定特定研究领域的相关会议信息。还有可视化统计分析功能,打开任何一个会议录详情页面,可以在页面下部看到统计分析,其中提供了多种维度的可视化展示,如作者年度发文统计等。

检索案例:利用文献数据库了解学科专业研究情况

这次我们我通过一个案例练习来深入了解一些如何使用文献数据库来了解学科专业研究情况。

通常大家来接触某个学科专业前和初步学习某个学科专业的时候,都会想尽可能深入了解一些学科专业的情况,比如学科专业研究情况,具体包括这个学科专业主要研究什么问题?所在的学校相关学科专业又在哪方面有自己的特色?我们不妨通过文献数据库来看看如何回答这些问题。

首先,我们来看看学科专业情况。

学科专业分为两个层次,第一个层次是本科层次,我们可以从教育部2019年出台的《普通高等学校本科专业目录》来详细了解下各个专业情况。其中,我们可以利用搜索引擎的字段检索直接获取到教育部网站的相关说明。这里的site字段限定了教育部网站,其中的第一条记录就是详细说明。

第二个层次是研究生层次,称之为学科,通常一个学科会根据不同应用结合方向对应多个本科专业,在学术研究中,我们更经常使用学科来表达研究方向和范围,可以从教育部学位与研究生教育发展中心,即中国学位与研究生教育信息网,2011年出台的《授予博士、硕士学位和培养研究生的学科、专业目录》来详细了解下各个学科情况。我们可以从搜索引擎中检索学科目录信息。这里的site字段限定了中国学位与研究生教育信息网,其中能看到2011年的版本说明。

除了这种专业的方式外,其实文献数据库也提供了非常方便集成的访问方式。我们以CNKI为例。在首页中,点击出版物检索,可以打开出版来源导航页面,这是所有CNKI收录期刊的汇总检索界面。其中左边就较为概括的给出一些学科目录分类,点击后即可看到每个分类都含有相关的下级具体学科名称。同时,甚至可以查询到诸如半月刊之类的期刊集合等。大家可以自己选择条件来看下。

接下来,我们来看看每个专业的期刊情况。前面我们已经说明,期刊文献是一种常见的学术研究文献资源,因此也是了解专业学科研究内容的重要参考。对于不同的学科,CNKI提供了每个学科下面的期刊信息。比如我们选择了“图书情报与数字图书馆”,系统给出了近50种不同的期刊。很多期刊都给出了详细的影响因子、被引次数和下载次数等重要指标,以方便读者了解期刊的特点。但是没有给出排序的途径,这个留到后面的期刊导航功能再做说明。

具体点击每个期刊,系统会给出更为详细的期刊介绍说明。每种期刊名称后面都跟有最为重要的一些指标,如这里说明该期刊为核心期刊、JST、CSSCI期刊。其中,JST为日本著名期刊索引数据库。点击更多介绍,我们可以看到更多指标参数说明。为了更好的了解期刊情况,还可以点击“统计与评价”,看到更多与时间有关系的一些期刊发展统计数据,比如期刊年度出版概况,其中的年度总文献量可以看出该期刊出版论文文献的数量变化趋势。年度总文献量的多少其实和期刊学术质量关系并不密切,并非越多越好,相反,如果一本期刊发文量太高,反而在一定程序上说明该期刊评审条件过于宽松。这里比较有参考价值的有年度基金资助文献量等。

要想更好的了解期刊情况,可以详细了解下CNKI的期刊导航。方法是选择出版来源导航下的期刊导航,该功能十分完整,提供了多种了解学科期刊的途径。点击“学术期刊”,可以看到各个学科下的期刊排序结果。比如我们想了解图书情报与数字图书馆,先在左边学科导航中选中学科,即可看到该学科的不同期刊排序结果。比如选中核心期刊,同时选择按被引次数排序,即可得到一种常见的期刊排序输出结果,默认为从大到小的次序,点击这个选择框中的箭头可以切换从小到大的排序结果,从中可以方便用户决定阅读期刊的来源。

再如我们想了解CSSCI收录期刊情况,这时可以点击“数据库刊源导航”,选择CSSCI,可以看到明确的期刊收录情况,

第三,我们来看看自己所在学校相关学科专业研究情况。CNKI并没有提供以机构为单位的检索入口,这个可以在期刊检索界面中来限定表达。

比如我们以南京财经大学为例,了解该学校在近年来的学术研究情况。我们可以在CNKI高级检索中的“作者发文检索”中检索作者单位为“南京财经大学”,条件建议使用模糊,为保证含有南京财经大学具体学院的作者单位也能被命中。我们看到了2万多篇文献结果。其中展开研究主题,可以详细的了解该校主要的研究内容,展开作者信息,可以详细看到科研产出相对较高的作者信息。这些都有助于了解机构单位的整体科研情况。

比如我们选择“劳动者”主题,并以每页50个结果显示,快速全部选择全部文献检索,由于有三页,需要点击下一页再次全部选中,直至全部选中。我们限定了时间范围,只选择了2010年及以后的共计85篇文献。

此时可以利用CNKI提供的各种分析功能来进一步探索机构研究情况,比如点击分析已选文献,可以打开计量可视化结果。由于加载内容很多,大家需要等待一段处理时间,同时还要使用支持Flash的浏览器才能看到更多可视化结果。比如可以看出从2009年以后引证文献开始变多,说明该方向研究从2009年开始逐渐受到广泛学术关注。同时,我们在过滤掉被引次数1次的文献后,可以看到相关研究中最为重要的一些参考文献,这些也有助于我们进一步了解相关研究选题和内容。在关键词共现网络中,我们还看到了该校相关学者最为关注的几个与劳动力有关的研究点。在作者合作网络中,我们还可以设定2014年作者合作关系。这些都非常有助于我们全面了解该校学者研究整体情况。

其中我们还可以利用这个方法来得到更为具体的一些检索结果。比如我们想得到南京财经大学张为付老师的文章都被哪些文献所引用,我们可以在CNKI的专业检索中,检索被引文献含有张为付并且含有南京财经大学的文献,为了防止因为文章本身是作者为张为付或者作者机构为南京财经大学,因此我们还去除了作者为张为付和机构为南京财经大学的相关文献,直接在专业检索框中输入上述检索式,最终我们获得了183篇文献。事实上,如果去除后面这两个NOT条件,再次在专业检索框中输入上述检索式,可以获取到186篇文献,显然这个结果包含了张为付老师自引自己文献的3篇文献。

当然我们也可以使用CSSCI等引文数据库来进行类似的检索。但是此类数据库检索只能检索到数据库所收录期刊的文献信息,同时不同数据库检索功能也各不一样。比如在CSSCI中,我们检索张为付老师的被引文献,去除自引,被引年份可以限定在2010年以来,文献类型选择期刊论文,由此我们也看出了很多文献结果,其中给出了具体的文献信息。由于CSSCI只是引文索引,因此它提供了基于百度学术的文献全文检索服务,大家可以点击去检索下载全文。如果要详细分析结果,可以点击具体的每条记录。如点击第四条记录,能看到具体的9篇被引文献,也就是CNKI的引证文献。进一步点击这些被引文献,还能看到详细信息,其实包括了最初点击的张为付老师那篇文献,因此这些文献可以看成是同被引文献文献。

由于CSSCI只有社科文献信息,我们再试了下CSCD引文数据库。该数据库提供了限定被引作者机构的条件,考虑到该数据库为自科引文,因此我们检索南京财经大学胡秋辉老师于2010年到2020年的被引情况。

因此,大家要多练习,以掌握不同文献数据库的使用差别。

Python大数据分析1:数据的建立

今天我们开始学习Python的数据处理,主要结合非常常见的Pandas工具包来完成。我们主要通过案例的方式来不断练习,讲讲如何利用Python进行数据的各种处理,包括数据的读写、表达、计算、可视化等等内容。

这里我假设大家会基本使用Python,即使比较复杂的程序逻辑还不能掌握也没关系,只需了解Python如何编程即可,比如知道怎么打开一个你熟悉的编辑器编写并运行Python程序

比如可以运行这个程序:

print(‘Hello World!’)

能看到一个熟悉的输出那就可以了!

当然,如果有时间和条件,建议大家对Python不妨简单了解一下。

在进行正式的数据处理之前,我们先进行下必要的准备工作。这里包括几个步骤:

第一,你需要先导入Pandas工具包到你的项目中,比如在Pycharm中选择文件菜单中的设置,在当前项目的项目解释器中,点击右边的那个加号按钮,即可打开添加工具包的窗体。这时一定要保证网络是畅通的,因为接下来就需要在线查询和下载安装工具包。

直接输入pandas,就可以查询到,并点击左下角的“安装包”按钮,等待一会,就可以看到安装完毕的提示信息。

第二,你需要在代码中填下一些基本的代码,这些代码以后都无需更改,每次都写上就行了。

# coding:utf-8

import pandas as pd

from pandas import DataFrame

这个语句看起来很多,但是其实正如我们接下来介绍的各种方法,都是一条一条的语句,数据处理的过程就是按序一条一条的执行,逻辑并不复杂。

那么我们来逐条看看什么意思。

第一条是个编码申请,如果你的程序中有中文,你应该加上去,否则默认会无法识别中文字符而会运行报错。我们这里有汉字学生名称,因此需要使用。这个语句通常不用改,直接复制粘贴上去即可。

第二行表示我们要导入pandas,虽然我们已经导入了这个工具包,但是由于这个包并不属于Python本来自带的内容,因此需要额外的导入声明才能使用。其实对于任何外来的工具包,在Python都是这样两步处理,先设置中安装,再代码中声明导入。

那个as我们先不看,马上就可以知道具体用途。

第三行表示我们要导入pandas中的哪些类,所谓类,可以看成是一个个功能模块,每个类功能各不一样,一般可以根据所需导入必要的类。

这时你不妨运行下,看看有无错误,如果没有,恭喜你,可以开始了!

我们想进行数据处理,我们以一个学生的例子完成很多次课程的讲解,这个学生数据是这样的:

IDnamegenderageheight
000001黎明161.88
000002赵怡春201.78
000003张富平181.81
000004白丽181.86
000005牛玉德171.74
000006姚华181.75
000007李南161.76

其中有5个字段,所谓字段是指列,分别是学号、姓名、性别、年龄和身高。有7条记录,所谓记录是指行,每行代表一个学生。

我们要做的第一件事情就是要把这个数据表达出来,只有这样,才能进行后续的任何处理。

这是个二维的网格,在Pandas中,可以通过DataFrame(数据框架)来表示。我们来定义下:

# coding:utf-8
import pandas as pd
from pandas import DataFrame

data = {'ID': ['000001', '000002', '000003', '000004', '000005', '000006', '000007'],
        'name': ['黎明', '赵怡春', '张富平', '白丽', '牛玉德', '姚华', '李南'],
        'gender': [True, False, True, False, True, False, True],
        'age': [16, 20, 18, 18, 17, 18, 16],
        'height': [1.88, 1.78, 1.81, 1.86, 1.74, 1.75, 1.76]
        }
frame = pd.DataFrame(data)
print(frame)

这里增加了三行代码,其中第一行最长。不过细心的同学应该能看出来,它的结构其实很清楚,首先我看等于号右边,是个花括号括起来的整体,里面有5个组成部分,分别通过逗号来分隔,每个组成部分都是一个通过冒号分隔的两部分组成。

我想我在讲解这个的时候,大家已经看明白了,是的,这里的5个组成部分就是5个字段。每个冒号前的名称就是字段的名称,请注意,在Python中这些名称都是字符,因此需要通过单引号或者双引号括起来。每个冒号后都是一个方括号,里面有几个逗号分隔的字符,就有一个记录对应的字段值。这里我们故意使用了不同的数据类型,ID和姓名都是字符,性别采用了布尔型,比如真表示男生,假表示女生,一般对于这种二值表示,布尔型最为方便,年龄是整数型,身高是小数型。看的出来,我们几乎使用了各种常见数据类型。

建议大家没有经验的话,一定要自己书写这个代码,你既能了解编辑器是如何帮助你完成代码功能,也能熟悉编写代码的过程。虽然简单,但是一次能全部写对也并不容易。

全部定义好的这个就是一个称之为字典的东西,于是我们把它保存到一个叫data的变量中。由此可以看的出来,变量名称不加引号,字符要加引号,这就区别开了。

接下来就以通过pandas包中的DataFrame(数据框架)类来创建一个Frame框架。大家能看到,这里的pd就是刚才我们前面导入pandas时as后面的名称,可以理解为as后面表示给这个工具包起个别名,所以你能看到后面的代码中就直接使用pd来表示pandas,否则你就必须写出全部的名称,就是pandas。

在这里,有些常见的写法还是可以再次说明下。

第一,包中的各个类都是通过这个句号点来表示,你可以大胆的输入观察下,pandas中还有很多很多其他的类。

第二,类后的这个括号可以理解为参数,即表示根据什么数据来生成DataFrame。其实,我们完全可以直接把刚才那个字典放进来,也可以!

第三,这次还是像刚才一样,把创建的DataFrame保存在一个变量中,后续就可以根据frame变量来获取它所存储的数据。

为了测试,我们可以最简单的输出下这个DataFrame看看是不是一个二维表格的样子。

这个显示的结果和我们一开始准备好的数据非常像,也请大家一定要检查下。有几个值得注意的问题:

第一,可能大家会发现有些错误,常见的错误就是在刚才输入那个字典时,这里或者那里遗漏些数据。比如你把这个18遗漏的话,系统就会提示你一个错误,意思是数组必须是同一个长度。这个很好理解!毕竟是一个二维表格嘛。

第二,你可能还会发现这个DataFrame会自动在每行记录前增加一个序号,这个被称为索引号(Index),默认就是从0开始的整数。不过,你也可以自己来改变这个定义,比如,我们在DataFrame变量创建的时候,再增加一个参数,给这个index参数强行设定为6到0,那么结果就会改变。

frame = pd.DataFrame(data, index=[6, 5, 4, 3, 2, 1, 0])

好了,这次就说这么多。

科研论文写作8:外文翻译

不论是中文论文还是外文论文,翻译工作是论文写作中必不可少的一个重要环节。比如在中文投稿中,几乎所有期刊出版社和会议组织方都要求提供英文标题、英文摘要和英文关键词。

如何实现有效合格的翻译呢?当然,掌握良好的英语语言,是进行论文外文翻译的基础。但是对于大多数国内学者和广大同学而言,英语都不是母语,因此在没有长期经验积累的情况下,很难写出非常地道的形式。而恰恰一些诸如北美地区的期刊,往往对语言本身有着及其高的标准,常常会回复评审意见为要求“Language editing”和“Proof-reading”,即语言润色和语言纠错。

随着人工智能技术的不断发展,今天我们已经可以看到很多专业的论文翻译工具,尤其各种搜索引擎提供的翻译服务,而且效果越来越人觉得满意。这里主要因为科研论文不同于一般文学写作,具有较为固定的格式、中性的语气和严谨的表述等特点,相对比较容易进行翻译。

比如百度翻译和Google翻译,其中Google甚至可以支持世界上几乎任何两种常见语言之间互译。从目前实际情况来看,一般情况的科研论文都可以实现较为准确的翻译。如直接利用百度翻译,在复制过去文本内容后,即可看到翻译好的英文内容。点击复制按钮或者按下Ctrl+C即可复制。

这里重点说明几个注意事项:

第一,不建议大段大段翻译,即使是大段内容,如果选择其中部分语句,通常这些翻译工具还能提供多种选择,以方便用户比较判断。如Google翻译常常可以根据选择的语句,给出更多的不同翻译。

第二,要注意专业词语的准确性,任何一种翻译工具,都不可能保证完全正确,尤其是一些专业词语,必须要结合自己判断才能使用。有时可能会存在分词不当产生的错误翻译,因此可以通过选择专业词语以单独确认翻译正确是否。

比如这个项目并不正确,那么还有哪些翻译形式呢?选中后即可看到很多。另外,CNKI也有专业术语翻译助手,其中能给出根据现有文献整理出来的各种翻译形式,并以数据告知相关文献数量,以帮助用户自行决定判断。

第三,翻译内容的准确性还需建立在中文表述的准确性。正是因为我们的母语是中文,所以很多情况下,我们写出的文字其实口语化特征很明显,甚至于语法都存在问题,此时直接使用翻译工具往往会导致效果不理想。

比如看这个例子,这里的翻译是存在语法错误的,但是究其原因在于中文表述其实就不正确,如缺乏主语。如果能写出非常规范、哪怕语言特色很平淡的文字,反而有助于翻译工具的正确翻译。

如我们改进下文本内容,将“通过提取项目有效稠密子序列来提高基于用户兴趣的协同过滤算法有效性,同时研究二值数据方法在表达用户兴趣上的有效性”换成“本文设计的方法通过提取项目中存在的有效稠密子序列来提高基于用户兴趣的协同过滤算法有效性,同时本文研究了二值数据方法在表达用户兴趣上的有效性问题”,此时的结果就几乎可以直接使用了。

第四,很多工具还更为智能,甚至可以识别图片中的文字,如百度翻译可以直接对图片文字进行翻译,用户此时只需将复制的图片直接粘贴到翻译栏中即可看到识别的结果,和翻译的结果。

第五,对于语法细节修饰问题,可以尝试使用一些更为专业和智能化的工具,如COCA 美国当代英语语料库可以基于大数据来提供词语搭配建议。如我们查询“in this paper we”后面常见的搭配语句。结果显示命中了133条记录,进一步点击可以看到详细的结果。类似的还有BNC英国国家语料库等。

科研论文写作7:Endnotes使用说明

下面我们按照一个完整的操作流程介绍结合Google学术搜索和EndNote的基本使用方法和技巧。

Endnote可以从官网直接下载安装,点击Downloads,即可打开下载界面,在下载页面的下部有iPad、更新和安装三种选项,我们选择最后一个下载安装。此时即可根据操作系统和所需的版本选择下载。安装过程比较简单,由于它可能要修改系统信息,尤其是需要在Office中添加插件,因此安装期间的任何修改请求,请不要取消和拒绝。

试用版在每次启动时都会弹出界面让用户选择激活,建议大家操作本案例期间无需关闭Endnote。

使用的第一步是需要建立库,这就需要我们首先建立一个存储自己参考文献的库,点击文件菜单选择新建。确认好文件存储路径和名称后,即打开了这个新建库。以后可以在此库中存放指定的参考文献目录信息。所以,用户可以根据需要建立多个不同的EndNote库,分别存放不同主题的参考文献目录信息。此时可以看到完整的界面,目前所有的参考文献(All References)为空。

第二步是需要导入参考文献,大家可以自行手工添加。方法是点击工具栏上的新建参考文献,此时需要自己输入所有的参考文献元素。显然这并不方便。更为方便的方法是在其他工具中直接获取Endnote参考文献资源。

比如我们在Google学术搜索引擎就可以获取,方法是在Google学术搜索中设置EndNote作为默认的文献管理软件,在“学术搜索设置”页面中将“文献管理软件”设置为“EndNote”,选择“保存设置”。这样,在Google学术搜索检索所需的文献资源时,会发现每条文献记录的下边都有“导入EndNote”这样的超链。直接点击“导入EndNote”即可保存文件。双击打开此文件,会启动EndNote,并询问用户“选择要引用的库(Select a Reference Library)”,此时选择第一步时创建的EndNote库,即可将此文献的参考文献信息导入到此库中。随后,用户就可以在EndNote中方便的检索和管理各种参考文献信息。

第三步需要设定参考文献的格式,即各种不同版本的参考文献定义格式。Endnote网站本身就提供了很多,在下载网页中,“输出格式(Output styles)”中就提供了两种导入方式:

第一种是直接单个导入,点击“添加输出格式(Add output styles)”,可以根据关键词、引用样式示例、出版社等信息来检索,比如我们检索“中国”相关期刊的参考文献格式,直接在关键词搜索栏中输入“Chinese”。此时即可在对应结果中点击下载超链下载。双击打开Endnote后,可以选择另存为,给当前格式起个名称,选择文件菜单中的关闭格式来关闭。此时已经导入。

第二种是整体导入,在控制面板中选择“程序”中的“卸载程序”,选中Endnote并点击“更改”,在配置中选择默认的“修改(modify)”,并将额外格式设定为整体格式全体安装。

第四步,我们可以在写作论文期间可以利用EndNote来辅助参考文献的插入和格式排版。如在Office Word中,定位到需要插入参考文献的位置处,点击“EndNote”工具栏中的“插入引文(Insert Citation)”,会启动EndNote并询问用户“选择要引用的库(Select a Reference Library)”,选择含有所需参考文献信息的库后,即可打开EndNote的检索界面,此时可以根据关键词进行全字段检索,检索到所需参考文献后,点击“Insert”按钮即可完成插入操作。

默认的参考文献格式可能不符合要求,点击当前参考文献节点,可以点击“EndNote”工具栏中的“格式(Style)”选择框,选择所需的输出格式即可,如选择常见的“Numbered(数字序号)”格式,即可自动插入数字标注并且在文后插入相应的参考文献信息,“APA”输出APA标准格式等等。可以发现参考文献标注和条目格式都可以根据要求自动修改。如果这些默认格式不够的话,可以选择其他格式,即可在打开的界面选择以前导入的各种格式。

希望大家多练习!

科研论文写作6:参考文献管理

参考文献是科研论文写作的重要部分。前面已经介绍了如何查找检索参考文献的一般方法,这里我们着重对写作论文过程中处理参考文献的一些常见问题做出说明。通常我们会遇到如下一些问题,如参考文献各个组成部分的含义是什么?怎么获取不同的参考文献格式?如何核实参考文献?

下面我们分别予以说明。先看看参考文献各个组成部分。

我们以国内中文的参考文献标准格式来说明。我国在2015年更新了中文文献参考文献书写标准,标准号为GB/T7714。标准规定的非常细致,一般分为作者、文献名称、来源、年代、卷期、页码等。不同的部分通常使用英文半角的句号点来分隔。

我们介绍一些常见的写法,如期刊论文的参考文献格式。这里首先出现的是作者,如有多位作者,需要逗号分隔。接下来是文献名称,可以是论文标题、图书名称、网页标题等。区分不同文献类型的方式就是跟在这个文献名称后方括号中的大写英文字母,J表示期刊文献,M表示图书文献,C表示会议录文献,EB/OL表示网络电子文献等。然后是期刊名称、发表年代和卷期,其中卷写在圆括号左边,而期写在圆括号中间。最后是页码,通过冒号和前面内容分隔。最后还有一个结束的点。

再如图书参考文献格式,基本内容和论文差不多,其中M替换了J,出版社替换了期刊名称,这里需要在出版社前增加出版社所在地,最后无需卷期,页码表示参考内容起止位置。

其他格式大家可以自行了解下。

这里的问题在于刚才介绍的国家标准格式并非是绝对标准,不同期刊可能会对参考文献格式有着不同的要求,因此大家在投稿前务必要看下期刊真正的要求。

对于外文期刊,常见的标准格式有两个MLA和APA,前者为美国现代语言协会制定的论文指导格式,主要被应用在人文学科论文中,后者为美国心理协会制定的标准,主要应用于自然学科领域。

除此以外,参考文献在文中一般也需显式的标注引用位置。同样,也有很多不同的标注方式,比如常见的有采用数字序号方法,即在正文中以阿拉伯数字给出标注引用位置,文末按标注数字顺序罗列所有参考文献,通常这种方式在自然学科中较为常见。还有一种方式是在正文中给出作者和文献年代,而文末参考文献采用作者名称排序,通常在社会学科中较为常见。

两者的差异比较明显,但是只要理解了参考文献的基本组成,大家应该不会陌生,完全可以根据要求将任何两个参考文献格式进行转换。这里就产生一个问题,虽然手工可以进行,但是如何更为方便的快速进行呢?

一个简单的办法就是使用学术搜索引擎和学术数据库。如在百度学术中,直接查询相关论文,点击“引用”按钮即可看到三种不同格式的参考文献,在Google学术中,点击图标为空心双引号,显示的参考文献格式更多。此时只需直接点击即可选中,按下Ctrl+C即可复制。同时,在文献数据库中一般也有类似功能。如在文献显示界面中点击“导出参考文献”,即可看到完整的参考文献格式,点击“复制到剪贴板”按钮即可直接复制。万方也有类似的功能,这里不再一一说明。

另外一种方法是需要使用一些软件根据帮助我们来完成,比如EndNote、Refworks等。这些都是收费软件,也提供试用功能,它们可以提供更为方便的操作功能。如EndNote可以提供参考文献条目管理,还可以在撰写文稿的同时,实现即时插入参考文献并同步生成规范的、符合出版要求的文后参考文献。EndNote后续会专门讲解。

最后一个问题,如何核实参考文献是否正确?这个问题其实非常重要,很多期刊在投稿时都会自动检查参考文献的准确度。因此,建议大家两个方面:第一不要轻易采用一个来源的参考文献,尤其是在参考文献存在缺失内容的时候,此时可以再次根据需要在其他数据库中再次检索确认下,比如前面介绍的CNKI提供的参考文献一般更为全面准确,万方提供的文献信息往往还包含卷期和原始英文翻译等内容。IEEE数据库还能提供对自己会议的收录文献最为准确格式内容。这些都需要大家平时多积累经验。

但是有时依然还会存在找不到准确格式的问题。此时不妨采取另外一种方法,即查询引用当前文献的其他文献,从其他文献中去摘取当前文献的参考文献,这有时也是一种极其有效的便捷方法。

比如这篇文献参考文献格式无法获取,原因有多方面,有时可能不完整。点击当前文献显示页面的被引量,打开引用当前文献的更新文献。选择一篇文献,建议选择被引量较高或者来源更为优秀的文献,以确保文献质量。百度学术提供了很多文献的免费获取途径,选择一篇可以打开的文献。还是检索,按下Ctrl+F,在当前文献中检索刚才那篇需要查找参考文献格式的文献名称,很快我们就看到了结果。通常这些已出版文献的参考文献格式更有保证。

科研论文写作5:科研论文写作

前面几节主要介绍了科研文献检索的相关内容,这些是从事科研工作前需要完成的工作。通过了解这些已有文献,最终可以确定研究选题和研究思路。本节主要讲解一般科研论文的写作,同时强调说明检索方法在其中的应用。

科研论文写作不同于一般文学性题材文章写作,从根本上看,论文写作只是科研工作的最后一步,即总结科研成果,因此,要进行科研论文写作,首先需要完成科研工作本身,比如对于理工科而言,就需要完成相应的实验,数据分析和结果都应该证实有效,方法具有合理性和创新性。其中创新性非常重要,并非所有的科研工作过程都具有创新性,因此就需要学者在进行科研活动前,先了解科研方向。科研工作开始思路与方法。对于文科而言,就需要完成理论研究分析、模型设计和必要实验数据分析。总而言之,只有建立在有效科研工作基础之上的科研论文,才具有真正的学术价值。只有一类综述性论文情况比较特殊,通常需要在广泛查阅文献的同时就要进行论文的整理,但是即使如此,综述性论文也需要在通读所有相关论文的基础上,才能形成整体的框架体系,才能做出有价值的分析结论。

有了前期研究成果后,就可以开展论文写作了。毕竟每个人有每个人的具体写作方法,这里我介绍下我自己的一些经验,供大家参考。

一篇科研论文通常由以下几个主要部分组成,标题、作者信息、摘要、关键词、第一章引言、第二章文献回顾、第三第四等研究方法说明,然后是实验说明和数据分析,最后一章通常是结语,参考文献附在最后。

我通常会首先根据前期研究实验的内容将实验说明和数据分析工作来做出完整详细的阐述,大家可以注意到,这部分内容有时可以占到文章整体篇幅的一半左右,也是最能体现科研成果最终效果和价值的内容。

然后我会将上述实验方法所采用的思路和相关研究内容做出详细的理论解释,并适当采取综合、抽象、凝练的表达方式,系统化的对相关研究思路做出说明,这一步其实也是对自己科研工作过程的一个反思。

等文章主体内容全部完成以后,我会接来下补齐其他必要的模块内容。

比如引言,引言部分主要是介绍相关研究背景和意义,不建议过多的使用参考文献。

文献回顾环节是论文的一个重点内容,可能很多同学,尤其是一些刚刚学习科研论文写作的同学,会觉得这一块好像没有太大意义。事实上,恰恰相反。评审专家在评阅科研论文时,往往非常关注这一块内容。通常他会注意以下几个问题,如该研究的前期相关研究有哪些?他们的特点是什么?你的研究相比创新点在于什么?你有无研究基础或者前期相关研究?因此,我们需要将前期文献调研和查阅的内容做出全面的梳理,将以前形成科研方向和思路的想法予以文字化的表达。切忌文献堆砌,而要围绕着刚才提到的那几个问题来展开陈述。同时,这一块也是参考文献最为集中的地方。后面会专门讲解参考文献写作的一些问题。

最后补齐结语,结语主要阐述下目前研究存在的不足和未来的打算。

我通常会在论文写作的最后才去考虑文章标题和摘要等内容。主要原因在于有了这些论文已有的内容,我将更清楚研究方法的核心和特色,更易于凝练出表现研究方法和研究内容的标题。

摘要的写作也非常重要。我们要明白摘要的主要目的是告诉别人自己研究的主要内容,因此要和引言做出区分。一个很好的建议就是,可以将整个文章现有的各级标题拿出来,使用文字连贯起来,以更好的涵盖文章主体内容和特色。

关键词是很多作者不太注意的一个地方,甚至很多作者直接使用标题中的一些词语来形成关键词。这样做其实就失去了关键词的意义。关键词和标题、摘要通常都是将来其他学者检索时的重要依据,因此,你应该站在其他学者的角度来思考,当他们需要哪些检索主题时你的文章最为适合,此时关键词就可以提供标题和摘要所不能反映的一些概念和主题。

作者和机构本身根据实际情况填写即可,值得注意的是,一般而言,由于有多位作者,可能也会有多个机构,因此要根据科研成果和论文撰写的贡献,给出合理的排序。其中第一作者通常是最为主要的作者,在国外期刊论文中,通讯作者的作用也非常大,甚至有时比第一作者作用更大。

论文书写是一个经验积累的过程,需要大家在平时的书写积累经验和方法,同时还需注意语言文字的表达,避免口语化和低级文字错误,尤其在国外论文投稿中,常常也会语言润色不足而导致无法录用。