CCA Spark and Hadoop Developer (CCA175) 公开课

2017年06月27日 - 06月30日
上海
¥7360 起

会议介绍

【会议内容】

课时:28h/4天


课程介绍

Hadoop 及生态系统介绍    

•  传统大规模系统的问题   

•  Hadoop !   

•  Hadoop 生态系统

Hadoop 体系结构及 HDFS   

•  机群环境下的分布式处理   

•  存储:HDFS 体系结构   

•  存储:使用 HDFS   

•  资源管理:YARN 体系结构   

•  资源管理:使用 YARN

使用 Apache Sqoop 导入关系数据   

•  Sqoop 简介   

•  数据的基本导入导出   

•  减少传输的数据量   

•  改善 Sqoop 性能   

•  Sqoop 2

Impala 及 Hive 介绍   

•  简介   

•  为什么使用 Impala 及 Hive   

•  Hive 和传统数据库的比较   

•  Hive 应用场景

使用 Impala 及 Hive 管理数据及建模   

•  数据存储   

•  创建数据库及表   

•  表数据导入   

•  HCatalog   

•  Impala 元数据缓存

数据格式   

•  选择文件格式   

• 支持不同文件格式的工具   

• Avro 数据格式定义模式   

• 在 Hive 及 Sqoop 里使用 Avro   

• Avro 格式数据模式变更   

• 压缩 数据分区   

• 分区概述   

• Impala 及 Hive 里的数据分区

Apache Flume 实时数据采集   

•  什么是 Apache Flume   

•  Flume 基本体系结构   

•  Flume 源   

•  Flume 槽   

•   Flume 通道   

•  Flume 配置

Spark 基础   

•  什么是 Apache Spark   

•  使用 Spark Shell   

•  RDDs( 可恢复的分布式数据集)   

•  Spark 里的函数式编程 Spark RDD   

•  RDD   

•  键值对 RDD   

•  MapReduce   

•  其他键值对 RDD 操作

编写和部署 Spark 应用   

•  Spark 应用对比 Spark Shell   

•  创建 SparkContext   

•  创建 Spark 应用(Scala 和 Java)   

•  运行 Spark 应用   

•  Spark 应用 WebUI   

•  配置 Spark 属性   

•  运行日志

Spark 的并行处理   

•  回顾:机群环境里的 Spark   

•  RDD 分区   

•  基于文件 RDD 的分区   

•  HDFS 和本地化数据   

•  执行并行操作   

•  执行阶段及任务

Spark 缓存和持久化   

•  RDD 演变   

•  缓存   

•  分布式持久化

Spark 数据处理的常见模式   

•  常见 Spark 应用案例   

•  迭代式算法   

•  图处理及分析   

•  机器学习   

•  例子:K-Means 预览:Spark SQL   

•  Spark SQL 和 SQL Context   

•  创建 DataFrames   

•  变更及查询 DataFrames   

•  保存 DataFrames   

•  Spark SQL 对比 Impala

【会议日程】

线上:长期开课

线下北京、上海定期开课

(最近一次培训时间:北京6月22-25日Cloudera Developer training for Spark and Hadoop(CCA-175) ,上海6月27-30日Cloudera Developer training for Spark and Hadoop(CCA-175))

【会议嘉宾】

Cloudera认证讲师

【会议门票】

参会费:¥7360

拟邀嘉宾

猜你喜欢