Flink实现词频统计

概述: Flink是由软件基金会开发的开源流处理框架 , 其核心是用Java和Scala编写的分布式流数据流引擎 。Flink以数据并行和流水线方式执行任意流数据程序 , Flink的流水线运行时系统可以执行批处理和流处理程序 。本文主要介绍Flink下使用Java和Scala程序分别实现塞缪尔·厄尔曼《青春》的词频统计 。
1、使用mvn命令创建Flink工程
【Flink实现词频统计】

Flink实现词频统计

文章插图
(1) Java模板
mvn archetype:generate -DarchetypeGroupId=org.apache.flink -DarchetypeArtifactId=flink-quickstart-java -DarchetypeVersion=1.8.0 -DarchetypeCatalog=local
Flink实现词频统计

文章插图
说明:需要自定义、和 , 如图
进入flink--java目录 , 查看生成的目录树