数据浪潮:大数据技术演进之路mobi电子书提取码

计算机与互联网 吴垚 编著
简介: 本书结合大数据和数据库系统,从技术历史的角度介绍了数据管理系统的发展。

附录

A. 工业与学术

数据管理系统最早用于解决工业界产生的问题,因此有了Charles Bechman这样没有博士学位的工程人员的数据库领域的图灵奖得主。然而后续的图灵奖得主EF Codd恰恰相反,从数据角度提出了可证明的关系模型数据库。由此可见,数据库不仅是工程技术问题,也是科学研究问题。最为典型的就是Ston-ebraker,他游走在工业界和学术界。围绕着“One Size Fits All or Not”这个主题,学术界和工业界在关键系统和技术上不断发展,两者相辅相成,共同促进。

学术到工业比较经典的例子就是Spark。我们先看下Spark的发展历程。以时间为角度,看下早期几个重要的事件。

2009年,Spark在UCB的AMPLab诞生。

2010年,Spark开源。

2013 年,Spark捐献给Apache基金会。

2014年2月,Spark孵化成功,成为Apache顶级项目,开始得到大量使用。

2014年11月,Spark的创始人成立商业公司Databricks,提供以Spark为核心的商业服务。同年,Spark打破了由Hadoop MapReduce保持的DaytonaGraySort 100TB数据排序记录。

Spark从学校诞生,后来通过开源应用到各产业公司,同时自己也成立了Databricks公司。类似的例子还有Flink,其发展历程与Spark如出一辙。以下是Flink的发展历程。

2010年,Stratosphere项目启动,这个项目受德国研究基金(German Research Foundation)资助,由柏林工业大学(Technical University ofBerlin)、柏林洪堡大学(Humboldt University of Berlin)和哈索·普拉特纳研究所(Hasso Plattner Institute)联合推进。

2014年3月,Stratosphere进入Apache Incubator孵化器孵化并改名为Flink,同年孵化成功,成为Apache顶级项目,开始得到广泛关注和应用。

2014年,Flink的创始人成立了公司Data Artisans,提供基于Flink的商业服务。

2015年,阿里巴巴开始调研Flink,逐渐开始将其应用在业务中,并做了大量的改进,形成了自己的内部分支,甚至取了个名字叫Blink。

2019年1月,阿里巴巴收购Data Artisans(已更名为Ververica),并开始推进Blink向Flink主分支的合并。

Spark和Flink走的都是从学术到工业,从开源到商业之路。学术界向来是偏向理论研究的,尤其各大高校的博士和各种实验室研究人员,经常是解决前沿难题的主力。解决一个难题带来的成就感是很难替代的。这种成就感,他们是不缺的。但如果自己的成果能在工业界产生巨大的经济价值和社会价值,那这种成就感会被无限放大。这也就促使学术界越来越关注工业界,和工业界一起站在了解决实际技术难题的前线。

那为什么总是大公司、大机构或者世界名校在引领这些项目呢?Hadoop从Google公开的论文演化而来,在Yahoo大放异彩;Yahoo默默退去,Facebo-ok又扛起了大旗,Hive就是Facebook研发出来的。AMPLab除了推出了Spark,还围绕Spark孵化了Alluxio、Mesos等“明星”项目,每一个都可以说是“光芒万丈”。最后项目开源出来,也很自然地进入了Apache基金会这样的非营利机构,来组织和协调社区资源,推动项目发展。而工业界其他的公司和学术界的其他学校、机构,更多是跟进和受益的角色。这很正常,就像我们常说的,历史的进程是不以个人意志为转移的,但英雄人物在其中的作用也是至关重要的。

版权:人民邮电出版社