首页>商务会议>IT互联网> Cloudera Developer training for Spark and Hadoop(CCA-175) 发布时间:2017-07-17 16:30:23

  • 参会报名
  • 会议介绍
  • 会议日程
  • 参会指南
  • 用户留言
  • 邀请函下载

Cloudera Developer training for Spark and Hadoop(CCA-175)

会议时间:2017-08-17 08:00:00至 2017-08-20 18:00:00结束
会议地点:上海  
会议规模:暂无
收藏
分享到:

门票名称单价截止时间数量
仅参加培训 1、费用包含:教材、实验手册、虚拟机、税票费用 2、教室设施:投影、WiFi、排插、饮水(三餐及住宿请自理) PS:上课时需携带笔记本电脑,虚拟机及课件由讲师发放 ¥6500.0 2017-08-16 17:00
培训+考试 1、费用包含:教材、实验手册、虚拟机、税票费用、考试 2、教室设施:投影、WiFi、排插、饮水(三餐及住宿请自理) PS:上课时需携带笔记本电脑,虚拟机及课件由讲师发放 ¥8500.0 2017-08-16 17:00

参会人信息







会议介绍 会议内容 主办方介绍


Cloudera Developer training for Spark and Hadoop(CCA-175)

Cloudera Developer training for Spark and Hadoop(CCA-175)宣传图

Spark 及 Hadoop 开发员培训

学习如何将数据导入到 Apache Hadoop 机群并使用 Spark、Hive、Flume、Sqoop、Impala 及其他 Hadoop 生态系统工具对数据进行各种操作和处理分析

 

在为期四天的培训中,学员将学习关键概念和掌握使用最新技术和工具将数据采集到 Hadoop 机群并进行处理。通过学习掌握诸如 Spark、Hive、Flume、Sqoop 和 Impala 这样的 Hadoop 生态系统工具和技术,Hadoop 开发员将具备解决实际大数据问题和挑战的能力。本课程包含了大量的实操及编程练习来帮助学员熟悉并掌握各种工具,并最终获得在实际工作中针对特定的问题或场景来选取最佳解决工具或技术的能力。

 

“通过 Cloudera 的培训,让我们在使用大数据核心平台 Hadoop 方面,能把握现在、更能信心百倍地在未来面对和赢得更多的大数据挑战。”

——Persado

 

培训内容

通过讲师在课堂上的讲解,以及实操练习,学员将学习 Apache Spark 及如何将其集成到整个 Hadoop 生态系统中去,包括以下内容:

  • 数据是如何在 Hadoop 机群里进行分布式存储及处理的

  • 如何使用 Sqoop 和 Flume 导入数据

  • 如何使用 Apache Spark 处理分布式数据

  • 如何使用 Impala 及 Hive 将结构化数据建模成表并进行分析查询

  • 如何根据数据使用场景来确定最佳存储格式

  • 数据存储最佳实践

 

培训对象及学员基础

本课程适合准备报考 CCA Spark 及 Hadoop 开发员认证考试的技术人员。虽然通过该认证考试,考生仍然需要做进一步的学习和准备,但是本课程涵盖了在该认证考试中考核的很多主题和知识点。

在参加完本培训后,我们建议学员参加此课程的一个后继课程:“设计和创建大数据应用”。

cloudera cloudera

由于Hadoop深受客户欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop开发产品。在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。Cloudera由来自Facebook、谷歌和雅虎的前工程师杰夫·哈默巴切(Jeff Hammerbacher)、克里斯托弗·比塞格利亚(Christophe Bisciglia)、埃姆·阿瓦达拉(Amr Awadallah)以及现任CEO、甲骨文前高管迈克·奥尔森(Mike Olson)在2008年创建。

会议日程


课程介绍

Hadoop 及生态系统介绍

  • 传统大规模系统的问题

  • Hadoop !

  • Hadoop 生态系统

 

Hadoop 体系结构及 HDFS

  • 机群环境下的分布式处理

  • 存储:HDFS 体系结构

  • 存储:使用 HDFS

  • 资源管理:YARN 体系结构

  • 资源管理:使用 YARN

 

使用 Apache Sqoop 导入关系数据

  • Sqoop 简介

  • 数据的基本导入导出

  • 减少传输的数据量

  • 改善 Sqoop 性能

  • Sqoop 2

 

Impala 及 Hive 介绍

  • 简介

  • 为什么使用 Impala 及 Hive

  • Hive 和传统数据库的比较

  • Hive 应用场景

 

使用 Impala 及 Hive 管理数据及建模

  • 数据存储

  • 创建数据库及表

  • 表数据导入

  • HCatalog

  • Impala 元数据缓存

 

数据格式

  • 选择文件格式

  • 支持不同文件格式的工具

  • Avro 数据格式定义模式

  • 在 Hive 及 Sqoop 里使用 Avro

  • Avro 格式数据模式变更

  • 压缩

 

数据分区

  • 分区概述

  • Impala 及 Hive 里的数据分区

 

Apache Flume 实时数据采集

  • 什么是 Apache Flume

  • Flume 基本体系结构

  • Flume 源

  • Flume 槽

  • Flume 通道

  • Flume 配置

 

Spark 基础

  • 什么是 Apache Spark

  • 使用 Spark Shell

  • RDDs( 可恢复的分布式数据集)

  • Spark 里的函数式编程

 

Spark RDD

  • RDD

  • 键值对 RDD

  • MapReduce

  • 其他键值对 RDD 操作

 

编写和部署 Spark 应用

  • Spark 应用对比 Spark Shell

  • 创建 SparkContext

  • 创建 Spark 应用(Scala 和 Java)

  • 运行 Spark 应用

  • Spark 应用 WebUI

  • 配置 Spark 属性

  • 运行日志

 

Spark 的并行处理

  • 回顾:机群环境里的Spark

  • RDD 分区

  • 基于文件RDD 的分区

  • HDFS 和本地化数据

  • 执行并行操作

  • 执行阶段及任务

 

Spark 缓存和持久化

  • RDD 演变

  • 缓存

  • 分布式持久化

 

Spark 数据处理的常见模式

  • 常见 Spark 应用案例

  • 迭代式算法

  • 图处理及分析

  • 机器学习

  • 例子:K -Means

 

预览:Spark SQL

  • Spark SQL 和 SQL Context

  • 创建 DataFrames

  • 变更及查询 DataFrames

  • 保存 DataFrames

  • Spark SQL 对比 Impala

 

总结

参会指南 会议门票


8500元/人次,包含一次对应的考试(如果来参加培训的人不考试,仅参加培训的价格为6500/人次)

费用包含:教材、实验手册、虚拟机、税票费用(8500是含考试的)

教室设施:投影、WiFi、排插、饮水(三餐及住宿请自理)

PS:上课时需携带笔记本电脑,虚拟机及课件由讲师发放


CCA Spark and Hadoop Developer (CCA175) 开发者认证  

认证准备建议:Spark and Hadoop开发者培训

考试形式:120分钟;70%通过;解决10~12基于CDH5机群上需通过实际操作的问题

标签: 大数据 运维 架构 IT技术

用户留言



CheckCode

全部留言(0)


部分参会单位

主办方没有公开参会单位

邮件提醒通知

扫一扫立即购票

扫一扫立即购票
安全·方便·快捷

活动家app下载 活动家微信公众号 活动家客服微信 回到顶部
活动家app下载下载活动家app
随时随地查看国内商务会议
了解行业动态
活动家微信公众号关注活动家公众号
了解更多会议资讯
活动家客服微信更多会议问题
请联系活动家客服

分享到微信 ×

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。

请先登录

免注册,使用合作网站登录

QQ 微信 微博