-
这一篇文章我要分享的是flink实时计算框架,我先解释一下flink的基本概念:一个分布式的、有状态的实时流式处理系统(编程框架)。那么就会有人问:之前不是学习过spark streaming吗,也能做实时流式处理,为什么还要学习flink?其实答案...
-
hive在离线数据仓库中十分常用,那么hive是什么呢?有什么用?它是怎么工作的?怎么使用它?下面这篇文章将一一解答你的问题!
第1章 hive入门1.1 什么是hivehive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表...
-
第一个项目:离线数仓(hadoop+flume+kafka+hive)数据仓库
image-20230426233540128
系统数据流程图
image-20230426233006098
开始就是安装需要用到的软件:hadoopzookeeper...
-
第一个项目:离线数仓(hadoop+flume+kafka+hive)第二个项目:flink实时数仓(flink+kafka+hbase+clickhouse)
问题1:使用Maxwell实现业务数据增量同步时,Maxwell无法启动,日志报错:无法...
-
Kafka是一项非常重要的消息队列技术,在大数据场景中被主要采用。
第1章 Kafka概述1.1 Kafka的定义Kafka传统定义:Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处...
-
关于”WEB前端“基础知识的学习 你也许会问为什么我会学习前端呢?难道是想成为一个全栈程序员,成为别人眼中的大佬?NO NO NO. 虽然我也想成为一个全栈程序员,更想成为大佬,但是目前–2023年4月18日21点37分42秒,学习前端只是为...