【Flink实战】Flink中的分流

Flink中的分流

在Flink中将数据流切分为多个子数据流，子数据流称为”旁路输出数据流“。

拆分流数据的方式

Split，已经废弃，不推荐使用
Fliter
SideOut，推荐使用

Fliter分流的Java实现

    public static void main(String[] args) throws Exception {
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 指标明细
        DataStream<String> detailMessage = KafkaConfigUtil.buildSource(env)
                .map((MapFunction<String, String>) kafkaMessage -> {
                    JSONObject jsonobject = null;
                    try {
                        jsonobject = JSONObject.parseObject(kafkaMessage);
                    } catch (Exception e) {
                        LOG.warn("报文格式错误:{}", kafkaMessage);
                    }
                    if (null == jsonobject || jsonobject.isEmpty()) {
                        LOG.warn("报文内容不合法:{}", JSONObject.toJSONString(jsonobject));
                    } else {
                        if (!EventsServiceEnum.MapReduce.getValue().equals(jsonobject.get("service"))
                                && !EventsServiceEnum.Spark.getValue().equals(jsonobject.get("service"))) {
                            LOG.warn("报文所属服务不存在:{}", JSONObject.toJSONString(jsonobject));
                        }
                    }
                    return JSONObject.toJSONString(jsonobject);
                });
        // 将原始流中包含demo的数据筛选出来
        DataStream<String> diagnosisMessages = detailMessage
                .filter((FilterFunction<String>) kafkaMessage -> (kafkaMessage.contains("demo")))
                .map((MapFunction<String, String>) sparkMessage -> {
                    // 为达到实验效果，进行日志输出
                    LOG.info("[is demo message]:{}", sparkMessage);
                    return sparkMessage;
                });

        env.execute("Flink Streaming Java API Skeleton");
    }

SideOut分流的Java实现

    public static void main(String[] args) throws Exception {
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        System.out.println("【SideOutputDemo】");
        
        // 指标明细
        DataStream<String> mainMessage = KafkaConfigUtil.buildSource(env)
                .map((MapFunction<String, String>) kafkaMessage -> {
                    JSONObject jsonobject = null;
                    try {
                        jsonobject = JSONObject.parseObject(kafkaMessage);
                    } catch (Exception e) {
                        LOG.warn("报文格式错误:{}", kafkaMessage);
                    }
                    if (null == jsonobject || jsonobject.isEmpty()) {
                        LOG.warn("报文内容不合法:{}", JSONObject.toJSONString(jsonobject));
                    } else {
                        if (!EventsServiceEnum.MapReduce.getValue().equals(jsonobject.get("service"))
                                && !EventsServiceEnum.Spark.getValue().equals(jsonobject.get("service"))) {
                            LOG.warn("报文所属服务不存在:{}", JSONObject.toJSONString(jsonobject));
                        }
                    }
                    return JSONObject.toJSONString(jsonobject);
                });

        // 定义一个切分(旁路输出)
        final OutputTag<String> outputTag = new OutputTag<String>("Spark_END") {
        };

        SingleOutputStreamOperator<String> sp = mainMessage
                .process(new ProcessFunction<String, String>() {
                    @Override
                    public void processElement(
                            String s
                            , Context context
                            , Collector<String> collector) throws Exception {
                        // 向常规流（主流）中添加数据
                        collector.collect(s);
                        // 向旁路输出流中添加数据
                        if (s.contains(AppPhaseEnum.Spark_APP_End.getValue())) {
                            context.output(outputTag, s);
                        }
                    }
                });
        sp.map((MapFunction<String, String>) sparkMessage -> {
            LOG.info("主流的数据: {}", sparkMessage);
            return sparkMessage;
        });

        DataStream<String> tag = sp.getSideOutput(outputTag);
        tag.map((MapFunction<String, String>) sparkMessage -> {
            LOG.info("旁路[{}]的数据: {}", outputTag.getId(), sparkMessage);
            return sparkMessage;
        });

        env.execute("Flink Streaming Java API Skeleton");
    }

SideOutPut 是 Flink 框架推荐的分流方法，在使用 SideOutPut 时，需要按照以下步骤进行：

为每个分支流定义一个 SideOutPut。
为定义好的 SideOutPut发出数据。只有以下特定的函数才能通过Context上下文对象，向旁路输出的SideOutPut发送数据。
1. ProcessFunction：处理函数，单流输入函数
2. KeyedProcessFunction：处理函数，单流输入函数
3. CoProcessFunction：处理函数，双流流输入函数
4. KeyedCoProcessFunction：处理函数，双流流输入函数
5. ProcessWindowFunction：窗口函数，全量计算函数
6. ProcessAllWindowFunction：窗口函数，全量计算函数，它与 ProcessWindowFunction 类似，但是它会对窗口中的所有数据进行处理，而不是仅处理触发窗口计算的数据。
例子中使用ProcessFunction实现流拆分。
根据SideOutPut 的ID标识获取旁路输出流，进行数据继续处理。

拆分方式	对比
Split	不支持链式拆分，切分得到的流，是不能进行再次切分的
Fliter	多分支流，需要多次遍历原始流进行筛选。浪费集群的资源
SideOut	以多次进行拆分的，支持链式拆分。

css多行文字溢出省略号显示

<style> div

springBoot项目打war包部署

因为springboot嵌入了tomcat，且默认是打jar包，所以直接打war包会有很多错误，今天就分享下springBoot项目将默认打jar包方式改成war包。环境：jdk1.8，tomcat8.5

C-MAPSS涡扇发动机仿真数据（PHM2008）

1、数据集介绍在开始介绍数据集之前，冷漠先帮大家理清一下涡扇发动机的数据（NASA提供，本文中称为数据集A）和PHM2008竞赛数据（本文称为数据集B）的关系。之所以将数据集A和数据集B放在一篇

USB3.0移动硬盘启动Win7的方法（AHCI/AMD USB3.0/Win7）

古董电脑(intel处理器，无USB3.0接口)突然坏了，已经没有维修价值了，硬盘还是完好的。欲把硬盘拆下来，装到USB3.0硬盘盒上，然后在新电脑(AMD R5-4650G/A520)上从USB3.0硬盘盒上启动。一、需要工具

linux程序释放内存,Linux释放内存方法

最近工作中出现一个问题就是在软件服务运行20多天左右就会将内存耗尽，导致软件无法起来，服务无法进行，只能将软件关闭一段时间后，或者将系统重启，才能运行，而这也不是最终的解决方法，因为运行20多天后，内存会又继续耗尽。目前还在寻找解决思路中，目前的方法是定时清除缓存。因此有了这篇文

【云原生 • Prometheus】Prometheus 注册中心Eureka服务发现原理

【区块链杂谈】区块链的前世今生（今生）

转向技术驱动在前面，我们回顾了区块链技术自诞生到野蛮生长的三个阶段，自某些不可抗因素主动干预之后，整个市场因为比特币价格的腰斩而萎靡不振，热衷于赚取热钱快钱的投机者逐渐退出，只留下了一片狼藉。在这样的背景下，区块链的发展

Swift 周报第三十四期

【Kubernetes部署篇】K8s图形化管理工具Dasboard部署及使用

文章目录

Vue.js

1.初识Vue,Hello Vue! <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title&g