经常有刚从事数据分析的职场萌新,问我做数据分析工作要学些什么,应该怎样规划学习路径 。我会告诉他:如果你Excel还用的不溜的话,就先学学Excel,当你用Excel处理和分析一些小数据集没有问题的时候(具体表现就是:常用函数公式信手拈来,数据透视表,筛选,排序,图表绘制操作熟练),你就去学习SQL语言,然后用BI去分析去熟悉业务 。然后到了一定阶段,你可以上手R或者Python 。后面如果你能更进一步,可以去了解一些Spark等大数据框架 。
为什么要学习Excel?
首先Excel是我们最常用的数据分析和处理工具,Excel的功能非常丰富,基本可以涵盖我们在之后在其它软件(SQL、BI、Python、R)中要学到的那些功能 。
有的人可能会问,既然Excel这么强大,为什么还要学其它的工具?这是因为Excel是通过菜单的形式来进行操作的,很难实现自动化和功能复用,当然你也可以通过VBA来实现,用VBA也就是编程了,不过因为VBA这种语言学会了基本只能在office软件中使用,学习的投入成本和产出收益不成比例,不推荐学习,这是客观原因之一;另外就是Excel在处理比较大的数据集的时候,性能很差,并且经常崩溃 。(虽然Excel2013及以上版本宣称可以容纳100+万条记录,但几万条数据就开始卡顿了) 。
为什么Excel学完要学SQL?
客观原因是绝大部分数据分析岗都有SQL技能的要求 。企业里面为了保证数据的安全性和管理的方便,数据都是统一存放在数据库中,从数据库中提取和查询数据需要使用SQL语言,甚至有的公司就是用SQL语言来做数据分析 。
另外一个原因就是即使你先学了其它的工具,比如R,Python,甚至Spark等大数据框架,你会发现最后你还是得学习SQL 。如果你先学习SQL,那么很多概念你都能在学习R,Python,Spark等更加复杂的工具之前弄清楚 。对于后面的学习会有帮助 。这就好比建房子,都是先打地基,然后一层一层的盖 。
SQL语言的学习排在Excel之后,其它工具之前,还有一个很重要的原因就是,SQL可以在一定程度上帮Excel解决大数据集的问题,同时架起一个通往其它工具的桥梁 。
关于数据库和SQL的学习,也是分为两篇,第一篇讲数据库以及表的概念 。第二篇是SQL语句的掌握和数据库的操作 。
一、数据库基础知识 先谈一下我对数据库的理解 。数据库顾名思义就是数据的集合,是由一张张数据表组成的 。
放在物理实体上,是一堆写在磁盘上的文件,文件中有数据 。这些最基础的数据组成了表(table),我们把它想象成一张Excel的sheet,如下图:
文章插图
每一张表都有一个唯一标识,即主键,也就是ID 。ID是数据库中重要的概念,叫做唯一标识符/主键,用来表示数据的唯一性 。就相当于我们的身份证,是唯一的,有了身份证,就知道数据在哪了 。
ID通常没有业务含义,就是一种唯一标识,每张表只能有一个主键,且主键通常是整数,主键一旦设立,值通常不允许修改 。
数据库是表的集合 。一个数据库中可以放多张表,我们给每张表命名,表与表之间能互相联系 。联系就是数据能够对应匹配,正式名称叫联接,对应的操作叫做Join,我们想象成Excel中的vlookup 。
文章插图
比如上面两张图,左图是学生信息表,右图是老师信息表 。左图的主键是学生ID,右图的主键是老师ID 。细心的读者可能发现右图还有一个学生ID,这里的学生ID是专门用来联接用户表的,它并不是主键 。只不过两张表通过学生ID这个唯一信息来关联 。
以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!
「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助:- 鲅鱼丸子汤的家常做法窍门 鲅鱼丸子汤的家常做法优质
- 新手怎么使用万用表
- 新鲜蘑菇怎么保存
- 新鲜核桃怎么吃最好
- 新手如何注册域名—建立网站,从域名注册开始 如何注册网站域名
- 新手小白如何通过互联网创业,弄懂步骤和流程真不难! 如何利用网络创业
- 新冠变异株奥密克戎蔓延多少个国家? 传播性快速
- 单店销量高于周边友商 王腾:小米一直在寻求用一种新模式做线下
- 今年282位基金经理离职创新高 A股波动加剧:新能源、半导体等受追捧
- 全球新冠肺炎确诊病例超3000万例 死亡病例超94万例