news 2026/4/2 6:41:45

Hadoop Formats 在 Flink 里复用 Hadoop InputFormat(flink-hadoop-compatibility)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Hadoop Formats 在 Flink 里复用 Hadoop InputFormat(flink-hadoop-compatibility)

1、项目依赖配置

核心依赖是 Flink 的兼容模块:

<dependency><groupId>org.apache.flink</groupId><artifactId>flink-hadoop-compatibility</artifactId><version>2.2.0</version></dependency>

如果你要在本地(IDE / MiniCluster)跑起来,通常还需要带上一个 Hadoop 客户端依赖(本地有 class 才能初始化 Hadoop 相关类):

<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>2.10.2</version><scope>provided</scope></dependency>

实战建议:

  • 集群环境里 Hadoop 依赖往往由平台(YARN/HDFS)提供,你本地为了能跑通需要加hadoop-client
  • 如果你是打 fat jar 跑 standalone/K8s,就要更谨慎处理 Hadoop 依赖冲突(常见是guavajacksonnetty版本冲突)。

2、两种包法:readHadoopFile vs createHadoopInput

Flink 通过HadoopInputs提供两种方式把 Hadoop InputFormat 包装成 Flink InputFormat:

  • readHadoopFile(...):用于继承自 Hadoop 的 FileInputFormat的场景(典型:读 HDFS 文件类格式)
  • createHadoopInput(...):用于通用 InputFormat(不一定是文件类,例如某些外部系统的 InputFormat)

包装后的 Source 输出类型是一个二元组:Tuple2<K, V>

  • f0:key
  • f1:value

这点非常重要:你后续处理 DataStream 的时候,要把 key/value 拆开理解。

3、示例:使用 Hadoop 的 KeyValueTextInputFormat

下面示例演示如何把 Hadoop 的KeyValueTextInputFormat作为 Flink Source:

importorg.apache.flink.api.java.tuple.Tuple2;importorg.apache.flink.streaming.api.datastream.DataStream;importorg.apache.flink.streaming.api.environment.StreamExecutionEnvironment;importorg.apache.flink.hadoopcompatibility.HadoopInputs;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapred.KeyValueTextInputFormat;publicclassHadoopInputFormatDemo{publicstaticvoidmain(String[]args)throwsException{StreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();StringtextPath="hdfs:///path/to/input";KeyValueTextInputFormattextInputFormat=newKeyValueTextInputFormat();DataStream<Tuple2<Text,Text>>input=env.createInput(HadoopInputs.readHadoopFile(textInputFormat,Text.class,Text.class,textPath));// 业务处理:把 Text 转成 StringDataStream<String>lines=input.map(kv->"key="+kv.f0.toString()+", value="+kv.f1.toString());lines.print();env.execute("hadoop-inputformat-demo");}}

4、典型使用场景与坑位

常见适配场景:

  • 你要读一个历史遗留的 Hadoop InputFormat(比如某个自研存储、HBase/Hive 的某些格式、云厂商的 InputFormat)
  • 已经有成熟的 MR InputFormat + 配置参数(账号、表名、列族、分区等),直接复用最省时间

容易踩的坑:

  • 依赖冲突:Hadoop 生态依赖链很长,尤其本地 IDE 跑最容易爆 classpath 冲突
  • Key/Value 语义:输出一定是Tuple2<K,V>,不要直接当成一行文本
  • 配置注入:很多 InputFormat 依赖 Hadoop Configuration(账号、endpoint、table 等),你需要在创建 InputFormat 或 Job/Configuration 时把参数设全
  • 批/流差异:很多 Hadoop InputFormat 本质是“批式读取”,更适合 BATCH runtime;如果你硬塞进 streaming job,它也只是周期性读一遍(不是增量监控)、
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/28 15:04:02

永磁同步电机反步控制实战手记

永磁同步电机反步(backstepping)控制 1.采用非线性控制策略反步控制法&#xff0c;实现永磁同步电机系统的完全解耦&#xff0c;相比PI控制减少了系统调节参数&#xff0c;抗负载扰动能力明显提高&#xff1b; 2.提供算法对应的参考文献和仿真模型 购买赠送PMSM控制相关电子资料…

作者头像 李华
网站建设 2026/3/28 16:46:39

使用安全版数据库开启ssl加密后jdbc写法

文章目录文档用途详细信息文档用途 本文用于指导使用安全版数据库开启ssl加密后jdbc连接串写法。 默认写法会提示拒绝ssl连接&#xff0c;虽然可以通过关闭ssl等方法解决&#xff0c;但是在等保测评和数据库安全上会有隐患。 详细信息 jdbc写法如下&#xff1a; jdbc.urlj…

作者头像 李华
网站建设 2026/4/3 4:25:59

基于STM32F407设计的汽车仪表系统

摘 要 当前&#xff0c;随着科技的发展&#xff0c;汽车功能的日益增多&#xff0c;汽车仪表系统也变得愈发多元化。传统的机械式指针仪表因为其繁琐的布线方式和点对点的通信方式&#xff0c;已不能满足当前行业的需求。因此&#xff0c;研究一款功能多样&#xff0c;结构简单…

作者头像 李华
网站建设 2026/4/1 1:41:28

手把手AI论文工具全攻略:9款神器精准控率无压力操作指南

同学们&#xff0c;还在为论文发愁吗&#xff1f;从开题报告到文献综述&#xff0c;从数据分析到格式排版&#xff0c;每一步都感觉压力山大&#xff1f;别担心&#xff0c;AI时代已经为我们送来了强大的“学术神器”。今天&#xff0c;我将化身你的专属论文助教&#xff0c;为…

作者头像 李华
网站建设 2026/4/3 1:24:09

2026 年计算机圈赚钱技能:必学技术盘点,高薪赛道认准这些!

别再迷茫了&#xff0c;这些技能才是就业和财富的硬通货 经常有同学问&#xff1a;“现在学计算机&#xff0c;哪些技能最值得投入时间&#xff1f;学这些东西真的能赚钱吗&#xff1f;” 答案是肯定的&#xff0c;但选对方向很重要。计算机领域正在快速分化&#xff0c;有些…

作者头像 李华