Flink基础

  • JobManager ( 作业管理器 )
  • TaskManager ( 任务管理器 )
  • ResourceManager ( 资源管理器 )
  • Dispacher ( 分发器 )

flink抽象数据集

  • DataSet -> 批处理抽象数据集
  • DataStream -> 流式抽象数据集

​source 负责数据读取
​transformation 负责对数据进行转换操作 ( 类似于spark中的转化算子 )
​sink 负责对最后的结果进行

source

  • source分为单并行的source和多并行的source

    单并行的source:

    通过实现 sourceFunction 接口

    • socketTextStream
    • fromCollection
    • fromElements

    多并行的source

    通过实现 ParallelSourceFunction 接口

    • fromCollection