首页 > 资讯 > 内容页

大数据Flink进阶（七）：Flink批和流案例总结

2023-03-30 14:41:14 来源：腾讯云

Flink批和流案例总结

关于Flink 批数据处理和流式数据处理案例有以下几个点需要注意：

一、Flink程序编写流程总结

编写Flink代码要符合一定的流程，Flink代码编写流程如下：

(资料图片)

a. 获取flink的执行环境，批和流不同，Execution Environment。b. 加载数据数据-- soure。c. 对加载的数据进行转换-- transformation。d. 对结果进行保存或者打印-- sink。e. 触发flink程序的执行 --env.execute()

在Flink批处理过程中不需要执行execute触发执行，在流式处理过程中需要执行env.execute触发程序执行。

二、关于Flink的批处理和流处理上下文环境

创建Flink批和流上下文环境有以下三种方式，批处理上下文创建环境如下：

//设置Flink运行环境，如果在本地启动则创建本地环境，如果是在集群中启动，则创建集群环境ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();//指定并行度创建本地环境LocalEnvironment localEnv = ExecutionEnvironment.createLocalEnvironment(10);//指定远程JobManagerIp 和RPC 端口以及运行程序所在Jar包及其依赖包ExecutionEnvironment remoteEnv = ExecutionEnvironment.createRemoteEnvironment("JobManagerHost", 6021, 5, "application.jar");

流处理上下文创建环境如下：

//设置Flink运行环境，如果在本地启动则创建本地环境，如果是在集群中启动，则创建集群环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();//指定并行度创建本地环境LocalStreamEnvironment localEnv = StreamExecutionEnvironment.createLocalEnvironment(5);//指定远程JobManagerIp 和RPC 端口以及运行程序所在Jar包及其依赖包StreamExecutionEnvironment remoteEnv = StreamExecutionEnvironment.createRemoteEnvironment("JobManagerHost", 6021, 5, "application.jar");

同样在Scala api 中批和流创建Flink 上下文环境也有以上三种方式，在实际开发中建议批处理使用"ExecutionEnvironment.getExecutionEnvironment()"方式创建。流处理使用"StreamExecutionEnvironment.getExecution-Environment()"方式创建。

三、Flink批和流 Java 和Scala导入包不同

在编写Flink Java api代码和Flink Scala api代码处理批或者流数据时，引入的ExecutionEnvironment或StreamExecutionEnvironment包不同，在编写代码时导入错误的包会导致编程有问题。

批处理不同API引入ExecutionEnvironment如下：

//Flink Java api 引入的包import org.apache.flink.api.java.ExecutionEnvironment;//Flink Scala api 引入的包import org.apache.flink.api.scala.ExecutionEnvironment

流处理不同API引入StreamExecutionEnvironment如下：

//Flink Java api 引入的包import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;//Flink Scala api 引入的包import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment

四、Flink Java Api中创建 Tuple方式

在Flink Java api中创建Tuple2时，可以通过new Tuple2方式也可以通过Tuple2.of方式，两者本质一样。

五、Flink Scala api需要导入隐式转换

在Flink Scala api中批处理和流处理代码编写过程中需要导入对应的隐式转换来推断函数操作后的类型，在批和流中导入隐式转换不同，具体如下：

//Scala 批处理导入隐式转换，使用Scala API 时需要隐式转换来推断函数操作后的类型import org.apache.flink.api.scala._//Scala 流处理导入隐式转换，使用Scala API 时需要隐式转换来推断函数操作后的类型import org.apache.flink.streaming.api.scala._

六、关于Flink Java api 中的returns 方法

Flink Java api中可以使用Lambda表达式，当涉及到使用泛型Java会擦除泛型类型信息，需要最后调用returns方法指定类型，明确声明类型，告诉系统函数生成的数据集或者数据流的类型。

七、批和流对数据进行分组方法不同

批和流处理中都是通过readTextFile来读取数据文件，对数据进行转换处理后，Flink批处理过程中通过groupBy指定按照什么规则进行数据分组,groupBy中可以根据字段位置指定key（例如：groupBy(0)），如果数据是POJO自定义类型也可以根据字段名称指定key(例如：groupBy("name"))，对于复杂的数据类型也可以通过定义key的选择器KeySelector来实现分组的key。

Flink流处理过程中通过keyBy指定按照什么规则进行数据分组，keyBy中也有以上三种方式指定分组key，建议使用通过KeySelector来选择key，其他方式已经过时。

八、关于DataSet Api(Legacy)软弃用

Flink架构可以处理批和流，Flink 批处理数据需要使用到Flink中的DataSet API，此API 主要是支持Flink针对批数据进行操作，本质上Flink处理批数据也是看成一种特殊的流处理（有界流），所以没有必要分成批和流两套API，从Flink1.12版本往后，Dataset API 已经标记为Legacy(已过时)，已被官方软弃用，官方建议使用Table API 或者SQL 来处理批数据，我们也可以使用带有Batch执行模式的DataStream API来处理批数据，在未来Flink版本中DataSet API 将会被删除。关于这些API 具体使用后续文章会进行讲解。

关于Flink集群提交任务及Flink flink-conf.yaml配置文件在下个章节集群搭建会进行介绍。

标签：

大数据Flink进阶（七）：Flink批和流案例总结

Flink批和流案例总结

一、Flink程序编写流程总结

二、关于Flink的批处理和流处理上下文环境

三、Flink批和流 Java 和Scala导入包不同

四、Flink Java Api中创建 Tuple方式

五、Flink Scala api需要导入隐式转换

六、关于Flink Java api 中的returns 方法

七、批和流对数据进行分组方法不同

八、关于DataSet Api(Legacy)软弃用

大数据Flink进阶（七）：Flink批和流案例总结

在Flink批处理过程中不需要执行execute触发执行，在流式处理过程中...

每日热门：【原创】深铁熙府1001套两房人才房售罄，助力人才高质量发展

读创 深圳商报记者李秀瑜见习记者张洁 人才是高质量发展的核心...

天天热点！瞿时尹：REITs扩容消费基建 有望带动房企估值的提升丨就市论市

REITs扩容至消费商业地产，短期能带动房企估值的提升，中长期有利于...

环球快资讯丨今日国内pp装置动态一览新闻速递（3月30日）

期货整理|今日国内装置动态一览（3月30日）1 扬子石化一聚A线YR-50...

徽州古城旅游持续升温-微资讯

连日来，歙县徽州古城景区，春游热度持续攀升。期盼前来已久的游客...

三种跨境电商出口模式落地港珠澳大桥口岸|环球新视野

三种跨境电商出口模式落地港珠澳大桥口岸

浙江义乌：国际商贸城 客商采购忙|环球热文

在浙江义乌国际商贸城，外商（右）正在选购小商品。人民网章勇涛摄...

在平凡的岗位上做出不平凡的事的名言警句是谁说的（在平凡的岗位上做出不平凡的事的名言警句）

1、平凡的岗位不平凡的坚守谁说的吴斌说的。2、吴斌叔叔在严重受伤...

视点！能力圈内做均衡配置 避免净值大起大落

市场风格多变，随着去年不少以投资主题赛道为主的基金大幅回撤，在...

约翰·雅各布·巴耳末_关于约翰·雅各布·巴耳末介绍_资讯推荐

1、约翰·雅各布·巴耳末（JohannJakobBalmer）瑞士数学家、物理学...

河南省林州市人民法院_河南省林州市 环球要闻

今天小编肥嘟来为大家解答以上的问题。河南省林州市人民法院，河南...

环球今热点：BMS软件开发高薪必备 SOC估计simulink模型知识星球有源码

SOC基本定义：SOC的安时积分计算公式Qmax-电池最大允许充放电容量，...

怎么挑选冲锋衣（怎么挑选冲锋衣三合一）

1、看面料：面料是决定冲锋衣品质的关键。从材质上基本可以分为两类...

【环球新要闻】面对抖音，美团的沉默与反攻

“面对短视频形态的冲击，美团表现得很淡定。为何没有在抖音擅长的...

那些历劫又难舍难分的星座组合： 世界微资讯

风象星座+射手的组合可以玩的很开心，但很容易被现实打败2，土象星...

拒回曼联！不理滕哈格召唤，加薪500万也要走，改投联赛对手

作为球队元老，每周37 5万英镑让德赫亚成为俱乐部薪资最高的球员，...

刚出生的婴儿送什么礼物好,最重要的是很有创意_每日速递

送礼品这件事，我们讲求的就是投其所爱。高颜值与有趣共存，很值得...

郑东新区党工委第二巡察组到豫兴路办事处调研指导项目建设

中原网讯(记者刘梦琳通讯员丁冬)3月29日上午，郑东新区党工委第二巡...

金地年内首次拿地，董事长凌克：经营就像踩单车，不前行就会跌落 当前要闻

金地年内首次拿地，董事长凌克：经营就像踩单车，不前行就会跌落,凌...

聚焦：打造棉花产业新优势 产业链供应链韧性进一步提升

打造棉花产业新优势产业链供应链韧性进一步提升打造棉花产业新优势...

快资讯丨贝壳单日大额回购持续，累计金额近2.1亿美金

3月28日贝壳公告显示，公司于3月27日回购约28 3万股ADS（美国存托...

三河公安破获一起盗窃案

三河公安破获一起盗窃案

天天快播：没睡醒？勇士上半场出现14次失误 送给鹈鹕11分

勇士今日在主场迎战鹈鹕，上半场，勇士46-63落后鹈鹕17分。上半场比...

尼康认识到视频市场潜力和机会 计划增加在视频市场的影响力

【ITBEAR科技资讯】3月29日消息，尼康近日在其官网上发布了一则关于...

内含报酬率越大越好吗

内含报酬率越大越好。所说内含报酬率，又被称为内部收益率，是指可...

焦点滚动:广东中山报告1例H3N8病例：发病前有活禽暴露史

3月29日消息，据“广东省疾病预防控制中心”消息，中山市报告1例H3N...

强信心·开新局丨新职业新业态拓宽就业空间——就业大省扩就业观察 世界信息

“我给大家看一下厂里的环境”“简历投完，等我们给您打电话就好”...

美股异动 | 获巴菲特再度加仓 西方石油(OXY.US)涨超3%

智通财经APP获悉，周二，截至发稿，西方石油(OXY US)涨超3%，报61...

2005beyond告别演唱会_beyonce北京演唱会-环球热门

1、2009李宇春北京“阿么”演唱会，让她成为继国际巨星碧昂斯和艾薇...

全球新动态：疫苗概念股震荡走弱，华兰疫苗跌超12%，华兰生物跌停

10月31日上午，疫苗概念股震荡走弱，华兰疫苗跌超12%，华兰生物跌停...

大数据Flink进阶（七）：Flink批和流案例总结

在Flink批处理过程中不需要执行execute触发执行，在流式处理过程中...

北京一网吧私自营业致疫情传播扩散 老板被刑事立案调查

中新网5月24日电 北京市公安局通州分局24日在其官方微信发布针...

读创深圳商报记者李秀瑜见习记者张洁　　人才是高质量发展的核心...

天天热点！瞿时尹：REITs扩容消费基建有望带动房企估值的提升丨就市论市

浙江义乌：国际商贸城客商采购忙|环球热文

视点！能力圈内做均衡配置避免净值大起大落

河南省林州市人民法院_河南省林州市环球要闻

那些历劫又难舍难分的星座组合：世界微资讯

金地年内首次拿地，董事长凌克：经营就像踩单车，不前行就会跌落当前要闻

聚焦：打造棉花产业新优势产业链供应链韧性进一步提升

天天快播：没睡醒？勇士上半场出现14次失误送给鹈鹕11分

尼康认识到视频市场潜力和机会计划增加在视频市场的影响力

强信心·开新局丨新职业新业态拓宽就业空间——就业大省扩就业观察世界信息

美股异动 | 获巴菲特再度加仓西方石油(OXY.US)涨超3%

北京一网吧私自营业致疫情传播扩散老板被刑事立案调查

　　中新网5月24日电北京市公安局通州分局24日在其官方微信发布针...