经常有刚进入职场的刚从事数据分析的新人,问我做数据分析需要学什么,如何规划自己的学习路径 。我会告诉他:如果你不会用 Excel,就先学 Excel,到时候你可以用 Excel 处理和分析一些小数据集没有问题(具体表现是:常用函数公式、数据透视表,你熟练过滤、排序和图表),您可以学习 SQL 语言,然后使用 BI 来分析和熟悉业务 。然后在某个阶段,您可以开始使用 R 或 。以后如果能走得更远,可以学习一些大数据框架,比如Spark 。
为什么要学习 Excel?
首先,Excel是我们最常用的数据分析和处理工具 。Excel的功能非常丰富,基本可以涵盖我们以后在其他软件(SQL、BI、R)中学习的那些功能 。
可能有人会问,既然 Excel 这么强大,为什么还要学习其他工具呢?这是因为Excel以菜单的形式运行,难以实现自动化和功能复用 。当然也可以通过VBA来实现 。使用VBA也是编程,但是因为VBA是一种语言,基本上只能在软件中使用,学习的投入成本与产出收益不成比例,不推荐学习 。这是客观原因之一;另一个是Excel性能较差,在处理比较大的数据集时经常崩溃 。(虽然上面的版本号称能容纳100万+条记录,但上万条数据开始冻结) 。
为什么在 Excel 之后还需要学习 SQL?
客观原因是大多数数据分析工作都需要 SQL 技能 。为了保证数据的安全性和管理的方便性,将数据统一存储在数据库中,需要使用SQL语言从数据库中提取和查询数据 。有些公司甚至使用 SQL 语言进行数据分析 。
另外一个原因是,即使你先学了其他工具,比如R,甚至是Spark等大数据框架,你会发现最后还是要学SQL 。如果先学 SQL,在学习 R、Spark 等更复杂的工具之前,可以先弄清楚很多概念,对以后的学习很有帮助 。这就好比盖房子,先打地基,再一层一层的盖起来 。
SQL 语言的学习排在 Excel 之后,其他工具之前 。另一个重要的原因是SQL可以在一定程度上帮助Excel解决大数据集的问题,同时也为其他工具搭建了一座桥梁 。
数据库和SQL的学习也分为两部分 。第一部分讲数据库和表的概念 。二是对SQL语句和数据库操作的掌握 。
一、数据库基础
先说一下我对数据库的理解 。数据库,顾名思义,就是数据的集合,由数据表组成 。
放置在一个物理实体上,它是一堆写在磁盘上的文件,其中包含数据 。这些最基本的数据组成一个表格,我们把它想象成一个Excel表格,如下图:
文章插图
每个表都有一个唯一标识符、主键或 ID 。ID是数据库中的一个重要概念,称为唯一标识符/主键,用来表示数据的唯一性 。相当于我们的身份证,是唯一的 。有了身份证,我们就知道数据在哪里 。
ID 通常没有商业意义,是唯一的标识 。每个表只能有一个主键,主键通常是整数 。主键一旦建立,通常不允许修改其值 。
数据库是表的集合 。一个数据库中可以有多个表,我们给每个表命名,表之间可以相互关联 。连接意味着可以对数据进行相应的匹配 。正式名称叫做join,对应的操作叫做join,我们想象成Excel中的样子 。
文章插图
比如上面两张图,左图是学生信息表,右图是老师信息表 。左图中的主键是学生证,右图的主键是教师证 。细心的读者可能会发现,右图中还有一张学生证 。这里的学生证是专门用来加入用户表的,不是主键 。只是这两张表是通过学生证的唯一信息关联起来的 。
但是两个表的关系并不是信息之间的一一对应关系,也会有空缺,比如:
- 教你几招调理身体 额头长痘痘是什么原因
- 和无症状感染者说话会被感染吗 无症状感染者是什么意思算确诊吗
- aux接口是什么意思(车上的USB、AUX插口有哪些作
- 三重一大是什么?着力强化“三重一大”决策事项监督
- 午夜凶铃诠释贞子含义 贞子是什么啊
- 平菇好养活不 平菇菌棒生长缓慢是什么原因
- 招商银行u盾步骤是什么 招商银行u盾怎么用
- 汽车黄色感叹号是什么意思?史上最全故障灯解读 别让你的爱车处于危
- 黄码是什么原因造成的 发现黄码人员怎么处理
- 秋葵黏黏的是什么 秋葵粘液怎么处理