弗林克简介
近年来,随着大数据的快速发展,出现了许多流行的开源社区。其中有Hadoop、Storm,以及后来的Spark等社区,都有各自聚焦的应用场景。 Spark是内存计算的先驱,以内存为赌注,赢得了内存计算的快速发展。 Spark的流行或多或少掩盖了其他分布式计算系统的存在。和Flink 一样,它此时也正在悄然开发中。
在国外的一些社区,有人将大数据计算引擎分为四代。当然,很多人对此并不认同。让我们思考一下并讨论一下。
第一代——Hadoop MapReduce
首先,第一代计算引擎肯定是Hadoop托管的MapReduce。计算分为两个阶段:Map和Reduce。对于上层应用来说,需要找到一种方法来对算法进行划分,同时还需要在上层应用中实现一系列的多个作业来完成完整的算法,比如迭代计算。
Batch Mapper、Reducer 第二代——DAG 框架(Tez) + MapReduce
这些缺点催生了DAG 框架的出现。因此,支持DAG 的框架被分为第二代计算引擎。比如上面的Tez和Uzi。这里我不会深究各种DAG实现之间的差异,但是对于当时的Tez和Oozie来说,大部分都是批处理任务。
1 Tez=MR(1) + MR(2) + . + MR(n) 的批处理现在比MR 第三代——Spark 更高效
接下来是以Spark为代表的第三代计算引擎。第三代计算引擎的主要特点是作业内(而不是作业之间)的DAG支持以及对实时计算的强调。现在,很多人会认为第三代计算引擎也可以很好地运行批处理作业。
批处理、流处理和SQL高级API支持内置DAG内存迭代计算,与之前的第4代——Flink相比,性能显着提升。
第三代计算引擎的引入促进了上层应用的快速发展,包括提高各种重复计算的性能以及对流计算和SQL的支持。据说弗林克的诞生已经是第四代了。这主要应该体现在Flink对流计算的支持以及进一步的实时性能上。当然,Flink还可以支持批处理任务和DAG操作。
批处理、流处理、SQL高层API支持内置DAG流式计算,具有更高的性能和可靠性。什么是弗林克?
弗林克诞生的背景
Flink 源于Stratosphere 项目,这是柏林大学和其他几所欧洲大学在2010 年至2014 年间联合开展的研究项目。
2014年4月捐赠给Apache软件基金会
2014年12月成为Apache软件基金会顶级项目。
标志介绍
在德语中,“Flink”一词的意思是“快速”或“灵巧”。该项目使用彩色松鼠图案作为标志。换句话说,Flink 松鼠尾巴的颜色反映了Apache 软件基金会徽标的颜色。风格松鼠。
官网地址: https://flink.apache.org/
Flink 概述
在Flink 主页的顶部,该项目展示了“Apache Flink 是一个为分布式、高性能、交钥匙、精确的流处理应用程序而构建的开源流处理框架”的理念。
Flink是一个分布式计算引擎,可以用于流处理,也可以用于批处理。
哪些公司使用Flink?
富二代Flink
https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/86117374
随着人工智能时代的到来和数据量的爆炸,典型的大数据业务场景中最常见的数据业务方式是采用批处理技术来处理全量数据,并采用流式计算来处理。实际数据。时间增量数据。
在大多数业务场景中,批处理和流处理的业务逻辑通常是相同的。但用户用于批处理和流处理的两套计算引擎是不同的。因此,用户通常必须编写两套代码。
这无疑会造成额外的负担和成本。
由于阿里巴巴的产品数据处理往往要面临增量和全量两种不同的业务流程问题,所以阿里巴巴开发了一个一体化的大数据引擎,用户只需要按照自己的一套业务逻辑来开发就可以了。使这项技术成为现实。这种能够支持全量数据、增量数据、实时处理等多种场景的一体化解决方案,正是阿里巴巴选择Flink的初衷。
阿里巴巴于2015 年开始使用Flink,并持续为社区做出贡献(阿里巴巴内部也基于Flink 构建了Blink 套件)。阿里巴巴于2019 年1 月8 日以9000 万欧元(7 亿元人民币)收购了初创公司Data Artisans。自此,弗林克开始了新一轮的乘风破浪。
版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。