# hadoop帝国的瓦解过程

我们来聊一个曾经无比辉煌的技术帝国，它的名字叫 Hadoop。这是一个关于它如何从一个孩子的玩具中获得灵感，建立起一个庞大的数据帝国，又为什么会在巅峰时期急转直下。最终分崩离析的故事。咱把时间拨回到21世纪初，谁能想到呢？一个孩子的玩具大象竟然启发了一项技术，而这项技术后来建立了一个全球性的数据帝国，然后又几乎是在所有人的注视下轰然倒塌。这听起来是不是有点像传奇故事？但它却是真实发生过的。那么这个帝国的故事到底是怎么展开的呢？咱们一步步来讲。

# 帝国崛起前的问题(一个被数据淹没的世界)

首先，我们会回到一切的起点，看看那个被数据淹没的世界到底是什么样子。然后我们将一起见证这头大象的诞生，以及它如何开创了属于自己的黄金时代。当然了，盛极必衰，我们也会深入分析帝国根基上那些致命的裂痕。以及外部的云巨头是如何崛起的，给了他致命一击。

最后，我们会探讨一下，这个陨落的帝国又为我们今天这个世界留下了怎样一份不朽的遗产。让我们正式进入故事的第一章。一个被数据淹没的世界。这么说吧，在hadoop这个帝国崛起之前，整个互联网就像一个正在疯狂膨胀的宇宙，而我们人类手里的工具却还相当原始。你想象一下2003年那会，当时最顶级的个人电脑配置也就是奔腾的 CPU，512MB 内存，再加个80GB 的硬盘。但同时呢，互联网上的数据量正在以一种爆炸性的方式增长。像谷歌这样的公司，他们的目标可是要索引整个互联网，处理的数据都是 PB 级别的，那可是百万 GB 啊！这种体量上的差距，简直就像是想用一辆小推车去搬走一整座喜马拉雅山。单台机器的能力已经彻彻底底的不够用了。面对这个几乎无解的难题，革命的火花就这样被点燃了。这就是我们故事讲的“大象的诞生”。有意思的是，他的灵感来源恰恰就是那个一手制造出这个数据难题的巨头谷歌。

# 大象的诞生(源于谷歌的革命)

说起来，Hadoop 这个名字听着挺特别的，它到底怎么来的呢？其实啊，故事特别简单，也特别温馨。它的创造者道格科顶，就是用了他儿子心爱的一个玩具黄象的名字，给这个项目命了名。一个即将改变世界的技术，名字却源于生活中的小细节，是不是挺有意思的？hadoop帝国的第一个基石叫做 HDFS，全称是hadoop分布式文件系统。它的里面可以说非常巧妙。咱们打个比方说，这就好比你有一本厚到天际的书，任何一个书架都放不下。

怎么存？

那 HDFS 是怎么做的呢？很简单，他把这本书啊，一页一页的拆开，然后分散的放到成百上千个普普通通的小书架上。而且为了防止某个书架不小心坏掉，导致内容丢失，他还会把每一页都复印好几份，放到不同的书架上。你看，这样一来，再大的数据啊也能存得下，而且还特别安全。解决了怎么存，那接下来就是怎么算。

怎么算？

Hadoop 的第二个法宝就是 MapReduce。他的核心思想可以说彻底颠覆了当时的想法，那就是计算移动，数据不动。什么意思呢？就是说，与其费劲的把海量的数据搬到一台超级计算机上来处理，还不如把计算任务给拆分了。发到成千上万台存着数据的普通电脑上，让他们各算各的，并行工作。这一下子就把处理效率给提上去了。

这也是 Hadoop 能成功的关键。有了 HDFS 和 MapReduce 这两大支柱，Hadoop 的帝国可以说是迎来了它的黄金时代。一个看起来锐不可当的生态系统开始围绕着它建立起来。你看这个时间线，Hadoop 的崛起速度简直是坐了火箭。

# hadoop的黄金时代(建立一个强大的生态系统)

从 2006年刚刚诞生，到2008年，基本上所有你能想到的硅谷巨头，Facebook、雅虎。都成了它的忠实用户，还围绕它贡献了像 Hive 和 Pig 这些关键的项目。

紧接着，第一家商业公司，Claude 也成立了。就这么短短几年，到2013年，全球财富500强公司里超过一半都成了hadoop帝国的臣民。这已经不单单是一项技术的成功了，更是一个开放协作的生态系统的伟大胜利。

为了让你更直观的感受一下这个帝国当时有多庞大，咱们来看一个数字，42000。这可不是员工数哦，这是到2012年的时候，仅仅雅虎这一家公司，它最大的那个海度集群里服务器的数量。你想象一下，42000台计算机像一个庞大的军团一样协同工作，处理着天文数字般的数据。这就是 Hadoop 在巅峰时期的那种绝对的统治力。但是就像历史上所有伟大的帝国一样，辉煌的背后往往也藏着致命的危机。hadoop看似坚固的根基也开始出现了裂痕。

# 根基上的裂痕(帝国隐藏的弱点)

Hadoop 帝国最核心的弱点，可以说就写在它的基因里。在传统的 Hadoop 架构中，计算和储存是死死地捆绑在同一台物理服务器上的，就像连体婴一样。你想增加储存空间，对不起，必须连着计算能力一起买。这就导致了巨大的资源浪费。而当时正在兴起的云服务，就彻底把它们给解绑了。储存就是储存，计算就是计算。你可以像拧水龙头一样按需使用，只为自己用的那部分费用。这种灵活性和成本上的优势，对 Hadoop 来说简直就是降维打击。

除了这个致命的架构问题，帝国的其他短板也一个个暴露出来了。首先 hadoop太复杂了，普通的数据分析师根本玩不转，得要专业的 Java 工程师才行。其次它太僵化了，天生就是为本地数据中心设计的，根本适用不了云时代那种弹性的伸缩。而且它的核心引擎 MapReduce，说实话太慢了。对于需要实时反馈的业务来说简直是噩梦。最要命的是维护成千上万台物理服务器的成本和人力就像一个无底洞，每一条都成了后来压垮帝国的稻草。

# 云的崛起(全新的世界秩序)

内忧还没解决，外患就来了。就在这个时候，外部的挑战者出现了，他们带来了一套全新的世界秩序，这就是云的崛起。面对像 AWS Asia 这些云巨头的强大攻势， hadoop帝国明显感到了寒气。hadoop帝国崩塌只是时间问题。

2018年发生了一件标志性的大事，hadoop生态里最大的两家商业公司，也是多年的竞争对手。Cloudera 和 Hortonworks 竟然宣布合并了。这可不是什么强项联合准备大干一场，说白了更像是一种抱团取暖的防御策略，目的就是在被云服务重塑的世界里努力生存下去。帝国最终还是瓦解了。但是他的灵魂却留了下来。

在最后一部分，咱们就来看看他到底留下了什么，一个已经深深融入现代数据架构的不朽的遗产。所以，Hadoop 到底给我们留下了什么？他留下的不是具体的某一行代码，而是一整套颠覆性的思想。是他第一次向世界证明，我们可以在一堆廉价的普通电脑上实现超越超级计算机的分式性计算能力。是他确立了计算向数据移动这个核心范式，直到今天，这仍然是大数据处理的黄金法则。

还有我们今天耳熟能详的数据湖架构，以及 Spark、Hive 这些工具。甚至可以说，现在所有的云数据平台，本质上都是站在 Hadoop 这个巨人的肩膀上。

帝国虽然已经逝去，但他的思想早已经成为现代数据世界里像空气和水一样不可或缺的存在。hadoop的实体帝国是倒下了，但他的思想却统治了现在的世界。这就留下一个很有意思的问题，值得我们所有人去思考。在今天的科技世界里，哪一个看起来坚不可摧的巨头，其实也正建立在一个未来某一天可能会同样崩塌的地基之上呢？

# Hadoop的兴衰与遗产

主要讲述Hadoop从诞生、辉煌到衰落的历程，以及它为现代数据架构留下的思想遗产。

诞生背景：

21世纪初，互联网数据量爆炸式增长，单台机器处理能力不足，Hadoop应运而生。

名称由来：

源于创造者道格·科顶儿子心爱的玩具黄象。

核心技术：

HDFS：将大数据拆分成小块存储在多个普通服务器，并备份防止数据丢失。

MapReduce：计算移动、数据不动，拆分计算任务到多台普通电脑并行处理。

黄金时代：

2006 - 2013年快速崛起，众多硅谷巨头采用并贡献项目，形成庞大生态系统。

衰落原因：

架构缺陷：
- 计算与储存捆绑，资源浪费。
- 云服务的灵活性和成本优势形成降维打击。
其他短板：
- 复杂难用
- 僵化不适应云时代
- 核心引擎慢
- 维护成本高。
留下的遗产：
- 提供颠覆性思想
- 确立计算向数据移动范式
- 影响数据湖架构及相关工具

MapReduce是什么 →