chaoz的杂货铺

生命有息、学无止境、折腾不止

0%

java-大数据-flink

存在的问题

从架构设计、代码质量、开发的角度来看
·不同的DAG表示形式和翻译路径
·不同的算子实现:StreamOperator,Driver
·不同的Task执行:StreamTask,BatchTask
·DataSet 有自己的小型优化器与SQL优化器打架
·基于DataSet 开发的语义很难和标准SQL保持一致
·算子在流批之间无法共享
·两套完全独立的connector集合
·潜在问题:两条独立的技术栈->需要更多的人力

功能开发变慢、性能提升变难,bug变多

mark

Runtime 改动???
·JobGraph 需要加强,携带上有界性等信息
·FLINK-11875:基于push模型的可选边的Operator
·JobGraph 需要加强,节点携带上有界性等信息
·FLINK-11875:基于push横型的可选边的Operator
·N:插件化调度机制
·FLINK-10288:高效的批处理作业恢复
·FLINK-10653;插件化Shuffle Service

Table API&SQL改动?
mark

Flink SQL

mark

改进的基础数据结构—BinaryRow
mark

mark

mark

mark

mark

mark

大量流处理性能优化
·MiniBatch
·Local聚合
·Distinct Agg自动热点打散
·Distinct State共享
·细分场景,特定算子实现
·100+优化规则

Hive集成
·统一的Catalog接口
·提供基于内存和可持久化的Catalog实现
·提供Hive Catalog,支持与Hive的互操作
·支持在Flink中运行Hive UDF

总结
·Flink1.9将是具有里程碑意义的一个版本
·Flink有史以来改动最大的一个版本,所有模块都在迎接变化
·改造之后,Flink将具备比较完善流批一体的技术架构
·用户将有一个较好的流批统一的体验·希望能有更多人加入到社区一起努力

mark

喜欢这篇文章?打赏一下作者吧!

欢迎关注我的其它发布渠道