第1章 数据仓库概述1.1 数据仓库概念(Data Warehouse)数据仓库是一个为数据分析而设计的企业级数据管理系统。是面向主题的、集成的、稳定的和时变的数据集合。输入数据:业务数据,用户行为数据、爬虫数据。数据仓库,将各个异构的数据源数据...
一 什么是Hadoop?Hadoop是一个开源的分布式计算平台,可以处理大规模数据集。它由两个核心组件组成:HDFS文件系统 和 MapReduce计算框架。
二 Hadoop的优点是什么? 可以处理大规模数据集,支持PB级别的数据存储和处理
...
第6章 SQL快速掌握6.1 sql的运算模型 – 逐行运算模型逐行运算:select后的运算表达式,是对每一行独立运算
表:一个数据的集合(集合中每一行就是一条数据:记录)
select:
对一条数据的运算逻辑
-- 常量 :&qu...
第1章 Flume概述1.1 Flume定义Flume是一个高可用,高可靠的,分布式的海量日志采集、聚合和传输的系统Flume基于流式架构,灵活简单Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS
1.2 Flume基础...