数据浪潮：大数据技术演进之路mobi电子书提取码

计算机与互联网吴垚编著

简介：本书结合大数据和数据库系统，从技术历史的角度介绍了数据管理系统的发展。

附录

A. 工业与学术

数据管理系统最早用于解决工业界产生的问题，因此有了Charles Bechman这样没有博士学位的工程人员的数据库领域的图灵奖得主。然而后续的图灵奖得主EF Codd恰恰相反，从数据角度提出了可证明的关系模型数据库。由此可见，数据库不仅是工程技术问题，也是科学研究问题。最为典型的就是Ston-ebraker，他游走在工业界和学术界。围绕着“One Size Fits All or Not”这个主题，学术界和工业界在关键系统和技术上不断发展，两者相辅相成，共同促进。

学术到工业比较经典的例子就是Spark。我们先看下Spark的发展历程。以时间为角度，看下早期几个重要的事件。

2009年，Spark在UCB的AMPLab诞生。

2010年，Spark开源。

2013 年，Spark捐献给Apache基金会。

2014年2月，Spark孵化成功，成为Apache顶级项目，开始得到大量使用。

2014年11月，Spark的创始人成立商业公司Databricks，提供以Spark为核心的商业服务。同年，Spark打破了由Hadoop MapReduce保持的DaytonaGraySort 100TB数据排序记录。

Spark从学校诞生，后来通过开源应用到各产业公司，同时自己也成立了Databricks公司。类似的例子还有Flink，其发展历程与Spark如出一辙。以下是Flink的发展历程。

2010年，Stratosphere项目启动，这个项目受德国研究基金（German Research Foundation）资助，由柏林工业大学（Technical University ofBerlin）、柏林洪堡大学（Humboldt University of Berlin）和哈索·普拉特纳研究所（Hasso Plattner Institute）联合推进。

2014年3月，Stratosphere进入Apache Incubator孵化器孵化并改名为Flink，同年孵化成功，成为Apache顶级项目，开始得到广泛关注和应用。

2014年，Flink的创始人成立了公司Data Artisans，提供基于Flink的商业服务。

2015年，阿里巴巴开始调研Flink，逐渐开始将其应用在业务中，并做了大量的改进，形成了自己的内部分支，甚至取了个名字叫Blink。

2019年1月，阿里巴巴收购Data Artisans（已更名为Ververica），并开始推进Blink向Flink主分支的合并。

Spark和Flink走的都是从学术到工业，从开源到商业之路。学术界向来是偏向理论研究的，尤其各大高校的博士和各种实验室研究人员，经常是解决前沿难题的主力。解决一个难题带来的成就感是很难替代的。这种成就感，他们是不缺的。但如果自己的成果能在工业界产生巨大的经济价值和社会价值，那这种成就感会被无限放大。这也就促使学术界越来越关注工业界，和工业界一起站在了解决实际技术难题的前线。

那为什么总是大公司、大机构或者世界名校在引领这些项目呢？Hadoop从Google公开的论文演化而来，在Yahoo大放异彩；Yahoo默默退去，Facebo-ok又扛起了大旗，Hive就是Facebook研发出来的。AMPLab除了推出了Spark，还围绕Spark孵化了Alluxio、Mesos等“明星”项目，每一个都可以说是“光芒万丈”。最后项目开源出来，也很自然地进入了Apache基金会这样的非营利机构，来组织和协调社区资源，推动项目发展。而工业界其他的公司和学术界的其他学校、机构，更多是跟进和受益的角色。这很正常，就像我们常说的，历史的进程是不以个人意志为转移的，但英雄人物在其中的作用也是至关重要的。

版权：人民邮电出版社

意见反馈

我的书架

公众号

关注微信公众号