数据分析这个技能，到底能不能速成？

发布时间:[2017-10-18] 来源:中国统计网点击量:

进入》主数据管理 企业数据治理 信息资源规划 数据安全管理

没有任何牛逼的事情是能够速成的，越是像数据分析这种收益周期长的技能，越是这样。

　　但这并不代表，我们不能用一些有意思的方式，把学习的过程变得高效而有趣。这篇文章是要给所有正在学习数据分析，甚至还没入门的同学一个高效的学习路径，让更多人可以平滑地、高效地成为专业数据分析师。

　　学习一门技术之前，你应该知道，你想要达成的目标是什么样的，也就是说，你想通过这门技术来解决哪些问题。有了这个目标，你就可以知道要达成这样的目标，它的知识体系是怎么样的。只有明确的目标导向，学习最有用的那部分知识，才能避免无效信息降低学习效率。

　　如果你要成为数据分析师，那么你可以去招聘网站看看，对应的职位的需求是什么，一般来说你就会对知识体系有初步的了解。企业对技能需求可总结如下：

　　SQL数据库的基本操作，会基本的数据管理

　　会用Excel/SQL做基本的数据提取、分析和展示

　　会用脚本语言进行数据分析，Python or R

　　有获取外部数据的能力加分，如爬虫或熟悉公开数据集

　　会基本的数据可视化技能，能撰写数据报告

　　熟悉常用的数据挖掘算法：回归分析、决策树、分类、聚类方法

　　其次是数据分析的流程，一般可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据可视化”这样的步骤来实施一个数据分析项目。按照这个流程，每个部分需要掌握的细分知识点如下：

　　高效的学习路径是什么?就是数据分析的这个流程。按这样的顺序循序渐进，你会知道每个部分需要完成的目标是什么，需要学习哪些知识点，哪些知识是暂时不必要的。

　　每学习一个部分，你就能够有一些实际的成果输出，有正向的反馈，你才会愿意花更多的时间投入进去。以解决问题为目标，效率自然不会低。

　　按照上面的流程，我们总结学习路径如下：

　　python基础知识

　　python爬虫

　　SQL语言

　　python科学计算包：pandas、numpy、scikit-learn

　　统计学基础

　　回归分析方法

　　数据挖掘基本算法：分类、聚类

　　模型优化：特征提取

　　数据可视化：seaborn、matplotlib

　　接下来我们分别从每一个部分讲讲具体应该学什么、怎么学。

　　1、数据获取：公开数据、Python爬虫

　　如果接触的只是企业数据库里的数据，不需要要获取外部数据的，这个部分可以忽略。但还是建议每一个数据分析师，都兼备外部数据获取的能力。

　　外部数据的获取方式主要有以下两种。

　　第一种是获取外部的公开数据集，一些科研机构、企业、政府会开放一些数据，你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。给大家推荐一些常用的可以获取数据集的网站：

　　UCI：加州大学欧文分校开放的经典数据集，被很多数据挖掘实验室采用。

　　http://archive.ics.uci.edu/ml/datasets.html

　　国家数据：数据来源于中国国家统计局，包含了我国经济民生等多个方面的数据。

　　http://data.stats.gov.cn/

　　CEIC：超过128个国家的经济数据，能精确查找GDP、进出口零售，销售等深度数据。

　　http://www.ceicdata.com/zh-hans

　　中国统计信息网：国家统计局官方网站，汇集了国民经济和社会发展统计信息。

　　http://www.tjcn.org/

　　优易数据：由国家信息中心发起，国内领先的数据交易平台，很多免费数据。

　　http://www.youedata.com/

　　数据堂：同为数据交易平台，包含语音识别、医疗健康、交通地理、电子商务、社交网络、图像识别等方面的数据。

　　http://www.datatang.com/

　　另一种获取外部数据费的方式就是爬虫。

　　比如你可以通过爬虫获取招聘网站某一职位的招聘信息，爬取租房网站上某城市的租房信息，爬取豆瓣评分评分最高的电影列表，获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据，你可以对某个行业、某种人群进行分析。

　　在爬虫之前你需要先了解一些 Python 的基础知识：元素(列表、字典、元组等)、变量、循环、函数………