88 优惠券
2020年3月1日到期。满 200 元可用
立即使用
立即使用
  • 参会报名
  • 会议介绍
  • 会议日程
  • 会议嘉宾
  • 参会指南
  • 手机下单 手机扫码下单

首页 > 商务会议 > IT互联网会议 > 2019Spark及Hadoop开发员培训(5月北京班) 更新时间:2019-03-19T10:22:45

大会站点分布:
(点击可切换)
2019Spark及Hadoop开发员培训(5月北京班)
收藏3人
分享到
官方合作

2019Spark及Hadoop开发员培训(5月北京班) 已截止报名

会议时间: 2019-05-16 08:00至 2019-05-19 18:00结束

会议地点: 北京  详细地址会前通知   周边酒店预订

主办单位: 上海碧茂信息科技有限公司

行业热销热门关注看了又看 换一换

        会议介绍

        会议内容 主办方介绍


        2019Spark及Hadoop开发员培训(5月北京班)

        2019Spark及Hadoop开发员培训(5月北京班)宣传图

        课程描述:
        学习关键概念和掌握使用最新技术和工具将数据采集到Hadoop机群并进行处理。通过学习掌握诸如Spark、Hive、Flume、Sqoop 和Impala这样的Hadoop生态系统工具和技术,Hadoop开发员将具备解决实际大数据问题和挑战的能力。本课程包含了大量的实操及编程练习来帮助学员熟悉并掌握各种工具,并最终获得在实际工作中针对特定的问题或场景来选取最佳解决工具或技术的能力。


        认证编号:

        CCA175。


        培训内容:
        通过讲师在课堂上的讲解以及实操练习,学员将学习Apache Spark及如何将其集成到整个Hadoop 生态系统中去,包括以下内容:
        > 数据是如何在Hadoop 机群里进行分布式存储及处理的。
        > 如何使用Sqoop 和Flume 导入数据。
        > 如何使用Apache Spark 处理分布式数据。
        > 如何使用Impala 及Hive 将结构化数据建模成表并进行分析查询。
        > 如何根据数据使用场景来确定最佳存储格式。
        > 数据存储最佳实践。


        培训对象及学员基础:
        本课程适合准备报考CCA Spark 及Hadoop开发员认证考试的技术人员。虽然通过该认证考试,考生仍然需要做进一步的学习和准备,但是本课程涵盖了在该认证考试中考核的主题和知识点。
        在参加完本培训后,我们建议学员参加此课程的一个后继课程:设计和创建大数据应用


        客户评价:

        “通过Cloudera的培训,让我们在使用大数据核心平台Hadoop方面信心百倍地面对未来和赢得更多的挑战。”
        —— Persado


        查看更多

        上海碧茂信息科技有限公司 上海碧茂信息科技有限公司

        上海碧茂信息科技有限公司,是中国科学院上海计算技术研究所孵化企业,全球顶级大数据科技公司Cloudera中国区合作伙伴,专业大数据解决方案服务商。 公司成立于2011年,肩负推进中国科学院上海计算技术研究所项目成果产业化的使命,致力于中国企业,尤其是金融、政府、电信等行业的数字化转型战略。总部位于上海,并在北京、广州、长沙等地设有分支机构,形成了覆盖全国的服务体系。2015年成为Cloudera合作伙伴,提供基于Cloudera CDH、Hortonworks HDP、华为FusionInsight、星环 TDH等大数据平台的一体化技术支持,包括集群搭建、架构梳理、数据迁移、计算监测、系统改造、应用开发、数据治理、技术培训。 代表项目:黑龙江移动Hadoop平台第三方维护、中信证券上交所运维、武汉大学大数据实验室建设等。 累计培训大数据企业上百家、工程师逾千人。包括中国人民银行、上海市公安系统、中国移动、思科、浪潮、中兴通讯、东方国信、上海大数据联盟等。

        会议日程 (最终日程以会议现场为准)


        课程大纲:

        Hadoop及生态系统介绍
        ·Apache Hadoop概述
        ·数据存储和摄取
        ·数据处理
        ·数据分析和探索
        ·其他生态系统工具
        练习环境及分析应用场景介绍
        编写和运行Apache Spark应用
        ·Spark 应用对比Spark Shell
        ·创建 SparkContext
        ·创建 Spark应用(Scala和Java)
        ·运行Spark应用
        ·Spark应用WebUl
        Apache Kafka
        ·什么是Apache Kafka
        ·Apache Kafka概述
        ·如何扩展 Apache Kafka
        ·Apache Kafka机群架构
        ·Apache Kafka命令行工具

        Apache Hadoop文件存储
        ·传统大规模系统的问题
        ·HDFS体系结构
        ·使用HDFS
        ·Apache Hadoop文件格式

        配置Apache Spark应用
        ·配置Spark属性
        ·运行日志

        使用Apache Flume采集实时数据
        ·什么是Apache Flume
        ·Flume基本体系结构
        ·Flume源
        ·Flume槽
        ·Flume通道
        ·Flume配置
        Apache Hadoop机群上的数据处理
        ·YARN体系结构
        ·使用YARN

        Apache Spark的并行处理
        ·回顾:机群环境里的Spark
        ·RDD分区
        ·基于文件RDD的分区
        ·HDFS和本地化数据
        ·执行并行操作
        ·执行阶段及任务
        集成Apache Flume和Apache Kafka
        ·概要
        ·应用案例
        ·配置
        使用Apache Sqoop导入关系数据
        ·Sqoop简介
        ·数据导入
        ·导入的文件选项
        ·数据导出
        Spark持久化
        ·RDD演变族谱
        ·RDD持久化简介
        ·分布式持久化
        Apache Spark Streaming:DStreams介绍
        ·Apache Spark Streaming 概述
        ·例子:Streaming访问计数
        ·DStreams
        ·开发Streaming应用

        Apache Spark基础
        ·什么是Apache Spark
        ·使用Spark Shell
        ·RDDs(可恢复的分布式数据集)
        ·Spark里的函数式编程

        Apache Spark数据处理的常见模式
        ·常见Spark应用案例
        ·迭代式算法
        ·机器学习
        ·例子:K-Means

        Apache Spark Streaming:批处理
        ·批处理操作
        ·时间分片
        ·状态操作
        ·滑动窗口操作
        Spark RDD
        ·创建RDD
        ·其他一般性RDD操作

        DataFrames和Spark SQL
        ·Apache Spark SQL 和SQL Context
        ·创建 DataFrames
        ·变更及查询DataFrames
        ·保存DataFrames
        ·DataFrames和RDD
        ·Spark sQL 对比Impala和Hive-on-Spark
        ·Spark 2.x版本上的Apache Spark SQL
         

        Apache Spark Streaming:数据源
        ·Streaming 数据源概述
        ·Apache Flume 和Apache Kafka 数据源
        ·例子:使用Direct模式连接Kafka数据源
        结论

        使用键值对RDD
        ·键值对RDD
        ·MapReduce
        ·其他键值对RDD操作

        查看更多

        会议嘉宾


        即将更新,敬请期待

        参会指南

        会议门票


        会务费:7360元/人,包含4天参会,住宿交通与餐饮自理。

        推荐5月上海班

        查看更多

        温馨提示
        酒店与住宿: 为防止极端情况下活动延期或取消,建议“异地客户”与活动家客服确认参会信息后,再安排出行与住宿。
        退款规则: 活动各项资源需提前采购,购票后不支持退款,可以换人参加。

        还有若干场即将举行的 Spark大会

        猜你喜欢

        部分参会单位

        主办方没有公开参会单位
        活动家_小程序快捷下单

        微信扫一扫
        分享给朋友

        邮件提醒通知

        分享到微信 ×

        打开微信,点击底部的“发现”,
        使用“扫一扫”即可将网页分享至朋友圈。

        录入信息

        请录入信息,方便生成邀请函