刚面完阿里蚂蚁金服的大数据工程师,有话说

//蚂蚁金服//
蚂蚁金服,嗯,996 的岗位 。
老读者可能很吃惊,小编不是纯做 SQL 吗,跑蚂蚁去做什么大数据工程师呢,SQL 能管用吗!很负责的告诉你,管用 。Hive 与 SQL 本是同根生,语法相似,捧上 10 天半月的 《 Hive 》,边看边练,你也可以,前提是受得了 996. 我是受不了的,因为我有很多可爱的读者,想读我的文章啊,996 了哪有时间 。
用 10 万块换自由,咱不干!
其实那是一年多前的事情了 。还记得我有个团,里面都是级别的人物嘛 。老朋友约谈,必须赴约啊 。技术人在一起,三句离不开老本行,不是数据,就是性能 。单机,主从,副本,分布式,嗨了天的吹 。但不可不说,大数据已经进入下半场了,有些朋友可能还以为是个噱头 。该出去看看了!
谁知道,约谈,本是面基,结果变成了现场面试 。
//大数据入门//
之前我写过 L 参加拉斯维加斯的 GIIS ()峰会系列小说 。其实那时我正在操练着以及 Spark, 写的就是自己 。
在朋友的指引下,对着岗位要求一路买书看了下来 。前两天有读者问我是不是有大数据入门的书可以推荐,这里总结整理出来,算是有个交代 。当然这些书都是我看过的,或者正在看的,给大家一份参考 。
我们先来看看大数据技术栈,有哪些构成 。
以上图来自 李智慧 老师的极客专栏《从0开始学大数据》 。
(BTW,专栏已经写完了,现有拼团价 79,需要的入手,请勿冲动消费)
大数据真正火起来,是在 2013 年,该年被称为 “大数据元年” 。
此前其实大数据已经真真实实的存在了,而那时还没有大数据(Big Data)这一说辞 。2004年先后发表了三篇论文,著名的“三驾马车”:
分布式文件系统 GFS
分布式计算框架
NoSQL 数据库
建议从头看这三篇论文,了解大数据的前史 。
而是谁把大数据这门技术带到了世人面前呢,Doug,全文搜索项目创始人 。此人阅读完的三驾马车后,用纯 Java 实现了 HDFS 和 . 此后,Yahoo, 阿里, 等先后部署了大数据集群,继而发明了 Pig, Hive 等基于的生态组件 。
到此为止,要读的资料就开始多起来了:
《Guide》

刚面完阿里蚂蚁金服的大数据工程师,有话说

文章插图
《HiveGuide》
《 Hive》
但前提至少, Java 你要通吧!
《Java 核心技术》
《Java 并发编程实践》
《深入理解 Java 虚拟机》
《 In Java》
从上面的历史知道,大数据其实是率先提出来的, 是搜索公司,自然造就这么大的一个轮子是为了搜索用的 。所以大数据的第一个应用就是为了搜索 。此时外界对于大数据技术,还尚属于吃瓜群众系列,除了 Yahoo, Doug , 以及 ,等一小众公司痴迷之外,大家都很保守 。
但平静之下暗流涌动,直到做出了 Hive , 将数据仓库项目的 90% 任务都推向 Hive 的时候,大家才幡然醒悟,原来巨兽已经屹立很久了 。纷纷跟进 。这个阶段,大数据被应用最多的地方在数据仓库技术上 。而且 Hive 对于 SQL 工程师特别友好,这也促使了 SQL 技术人员对于大数据的热忱 。
说起数仓项目,大家耳熟能详的是和 Inmon. 他俩的书必看:
《The Data: TheGuide to》(《数据仓库工具箱》)
《DataAfor the Data :Big Data,Dataand Data Vault》(《数据架构 大数据、数据仓库以及 Data Vault》)
至此为止,开发人员的作用是帮助企业完成一些大规模数据的统计,核算工作,提高了效率 。但还仅仅是公司的“成本中心”,与“利润中心”格格不入 。作为有追求的技术人肯定不愿意,既然数据在自己手里,为什么不能发挥他们的价值呢 。所以数据应用进入了数据挖掘时代 。此时的挖掘因有了大数据技术,与以往的抽样挖掘完全不一样,基本可以做到全量数据挖掘 。所以有关挖掘的技术栈,也可以了解下 。