Python大数据分析1:关于数据分析

大家好,今天开始我们一起来学习Python大数据处理这门课。我想大家一定都是冲着课程介绍中的两个重要关键词来的。一个肯定是Python,另一个就是大数据,把这两个热词搅到一起,会产生什么曼妙的风景呢?不错,确实能产生非常有意思的结果。

但是真正应该引起你注意的却是数据分析。工具和技术都会过时,但是应用需求却往往呈现历史发展的高度相似性。今天是第一次课,所以我想谈谈我对数据分析及其Python在其中应用的理解。

我想大家一定在各种场合中看到类似的宣传,某某企业大数据分析产生什么结论,社交大数据产生什么有趣的观点等等。但是这些其实都只是一种数据分析方法,我想各位在自己的专业学习中也一定会遇到。

比如经济管理类的学生常常需要处理各种财经数据,新闻专业学生也需要分析网络信息,甚至连艺术专业有时都需要通过更为漂亮的可视化效果来展示艺术发展的轨迹。这些都属于数据分析的范畴。只是随着互联网的出现,现在人们进行的数据分析往往呈现出数据量更大的特点,你可以理解为这就是最简单的大数据含义。因此传统的一些数据分析方法逐渐暴露出一些问题,尤其在处理较大规模数据的时候,往往操作的复杂度很大。

比如Excel,大家很都熟悉,你不妨打开它,按下Ctrl+向下箭头组合键,你会发现当前版本支持的最大行数,比如2016专业版最大支持100万行多一些。这种规模的数据其实非常小,我们在这门课的第一个章节的案例练习都已经达到10万条记录。而且这些工具只能处理一些常见的数据分析任务,对于略微复杂灵活一些的,往往无法实现,甚至连可视化图表的功能也较为固化,想自由设计和组装合适的外观并不容易。

大家所看到的这个图其实是利用不到20行Python代码写出来了可视化效果,展示了花朵分类的结果,大家感觉到了这种方便了吗?

这里我们提到了Python,是的,这就是一门非常有用的工具,你可以认为它是一种编程语言,不过大家可能听到名称就会觉得似乎太难了吧,还要编程?其实,你倒不如理解它为一个软件工具,可以非常简单轻松的实现各种常见的数据分析任务,因此,我们今天所讲的大数据分析就利用这个工具来讲,它就是专门解决这个问题的,而且在易用性方面,你学习过就会知道它的魅力和特点了。

说句实话,对于计算机编程学习较好的同学,往往在刚学习这门语言的时候,反而比那些没学过任何计算机编程的同学有时觉得更别扭。主要原因在于这个工具采用的是一种非常接近所谓小白的思维设计方式,以尽可能和最直观理解的方式来提供设计功能,而不是强迫大家按照传统计算机编程的习惯来进行。大家可以在学习中多体会!

那么我们来进一步思考下,如果不考虑数据规模,不考虑大数据,也不考虑什么工具,不管你是Python还是Excel,那么什么是数据分析?同学可能也了解一些其他的专业数据分析工具,比如SPSS、R、SAS等,数据分析这个含义很广,一般而言,人们要进行数据分析,常常有这几类人员。

比如懂数学的,往往借助于数学推导进行数据分析,虽然是纸上谈兵,但是却能给出解决问题的最好方式和最优途径,这门课我们需要知道吗?不用,我们不必了解,我们课程的目标是让大家学会数据分析,但是无需了解这背后的原理,正如会开车并不需要懂得发动机是如何工作的。

再如懂统计的,这一类人员是传统意义上最为常见的数据分析人员,他们借助于各种统计数据资源和统计分析方法,完成一些常见的统计操作,这些数据量通常有限,甚至采取抽样的方法,在指标方面也较为固定,比如平均数、标准差等等。当然,对它们的学习也需要数学的计算,但是更多的是强调这些计算出来的结果有什么意义?我们如何去理解这些数据?

再如懂计算机的,这一类人员是出现最晚的一类数据分析人员,他们甚至没有统计学的背景知识,只是使用各种计算机计算工具来自己编程实现各种数据分析,由于方法完全自己定义,确实效果千奇百怪,有时还很惊人,但是对计算机的能力要求太高了。

那么大家有没有看出来,这几个方面的数据分析人才,其实存在一个需要融合的需要,而且似乎存在一个缺口,那就是随着数字经济的不断发展,数据分析工作变得越来越普遍,如果我们想去做数据分析,那么该选择哪一个?有没有这样的一个组合:第一无需了解背后的计算原理;第二功能上更为自由和可以自行扩展;第三对于不会计算机编程的人来说,也能掌握。

我想大家看出来了,这就是今年这门课程的主要教授目标,它可以看成是一种数据科学,而Python就是这门科学中最为常见的一种工具。

发表评论

邮箱地址不会被公开。 必填项已用*标注