88 优惠券
2020年3月1日到期。满 200 元可用
立即使用
立即使用
  • 参会报名
  • 会议介绍
  • 会议日程
  • 会议嘉宾
  • 参会指南
  • 手机下单 手机扫码下单

首页 > 商务会议 > IT互联网会议 > 2019大数据平台搭建高性能计算最佳实战(10月北京班) 更新时间:2019-10-15T17:34:27

2019大数据平台搭建高性能计算最佳实战(10月北京班)
收藏4人
分享到
官方合作

2019大数据平台搭建高性能计算最佳实战(10月北京班) 已截止报名

会议时间: 2019-10-21 08:00至 2019-10-24 18:00结束

会议地点: 北京  详细地址会前通知   周边酒店预订

主办单位: 北京中培伟业管理咨询有限公司

行业热销热门关注看了又看 换一换

        会议介绍

        会议内容 主办方介绍


        2019大数据平台搭建高性能计算最佳实战(10月北京班)

        2019大数据平台搭建高性能计算最佳实战(10月北京班)宣传图

        培训收益

        通过此次课程培训,可使学习者获得如下收益:

        1.深刻理解在“互联网+”时代下大数据的产生背景、发展历程和演化趋势;

        2.了解业界市场需求和国内外最新的大数据技术潮流,洞察大数据的潜在价值;

        3.理解大数据项目解决方案及业界大数据应用案例,从而为企业在大数据项目中的技术选型及技术架构设计提供决策参考;

        4.掌握业界最流行的Hadoop与Spark大数据技术体系;

        5.掌握大数据采集技术;

        6.掌握大数据分布式存储技术;

        7.掌握NoSQL与NewSQL分布式数据库技术;

        8.掌握大数据仓库与统计机器学习技术;

        9.掌握大数据分析挖掘与商业智能(BI)技术;

        10.掌握大数据离线处理技术;

        11.掌握Storm流式大数据处理技术;

        12.掌握基于内存计算的大数据实时处理技术;

        13.掌握大数据管理技术的原理知识和应用实战;

        14.深入理解大数据平台技术架构和使用场景;

        15.娴熟运用Hadoop与Spark大数据技术体系规划解决方案满足实际项目需求;

        16.熟练地掌握基于Hadoop与Spark大数据平台进行应用程序开发、集群运维管理和性能调优技巧。

        培训特色

        1.课程培训业界最流行、应用最广泛的Hadoop与Spark大数据技术体系。强化大数据平台的分布式集群架构和核心关键技术实现、大数据应用项目开发和大数据集群运维实践、以及Hadoop与Spark大数据项目应用开发与调优的全过程沙盘模拟实战。

        2.通过一个完整的大数据开发项目及一组实际项目训练案例,完全覆盖Hadoop与Spark生态系统平台的应用开发与运维实践。课堂实践项目以项目小组的形式进行沙盘实操练习,重点强化理解Hadoop与Spark大数据项目各个阶段的工作重点,同时掌握作为大数据项目管理者的基本技术与业务素养。

        3.本课程的授课师资都是有着多年在一线从事Hadoop与Spark大数据项目的资深讲师,采用原理技术剖析和实战案例相结合的方式开展互动教学、强化以建立大数据项目解决方案为主体的应用开发、技术讨论与交流咨询,在学习的同时促进讲师学员之间的交流,让每个学员都能在课程培训过程中学到实实在在的大数据技术知识体系,以及大数据技术应用实战技能,具备实际大数据应用项目的动手开发实践与运维管理部署能力。授课过程中,根据学员需求,增设交流环节,可将具体工作中遇到的实际问题展开讨论,讲师会根据学员的实际情况微调授课内容,由讲师带着全部学员积极讨论,并给出一定的时间让学员上台发言,现场剖析问题的症结,规划出可行的解决方案。

        查看更多

        北京中培伟业管理咨询有限公司 北京中培伟业管理咨询有限公司

        北京中培伟业管理咨询有限公司(以下简称“中培”)成立于2006年,其主营业务面向大中型企业的IT规划咨询业务和面向高端IT人才的培训类业务,其中咨询业务涉及大型集团化企业的IT战略规划、IT架构规划、IT综合管控等领域,培训业务涉及线上线下各种高级IT技术和管理类课程体系。借助于其优质的专家资源池和互联网平台,中培已经为众多的世界500强企业、国有大中型集团化企业、国际知名互联网企业提供过高质量的信息化战略规划、组织架构规划、科技人才管理、信息技术架构规划、信息系统开发和运维管理、信息化能力评测的相关培训与咨询服务。

        会议日程 (最终日程以会议现场为准)


        日程

        培训模块

        培训内容

        第一天

        上午

        大数据技术基础

        大数据的产生背景与发展历程

        大数据的4V特征,以及与云计算的关系

        大数据应用需求以及潜在价值分析

        业界最新的大数据技术发展态势与应用趋势

        大数据思维的转变

        大数据项目的系统与技术选型,及落地实施的挑战

        “互联网+”时代下的电子商务、制造业、交通行业、电信运营商、银行金融业、电子政务、移动互联网、教育信息化等行业应用实践与应用案例介绍

         

        业界主流的大数据技术方案

        大数据软硬件系统全栈与关键技术介绍

        大数据生态系统全景图

        主流的大数据解决方案介绍

        Apache大数据平台方案剖析

        CDH大数据平台方案剖析

        HDP大数据平台方案剖析

        基于云的大数据平台方案剖析

        大数据解决方案与传统数据库方案比较

        国内外大数据平台方案与厂商对比

         

        大数据计算模型(一)——批处理MapReduce

        MapReduce产生背景与适用场景

        MapReduce计算模型的基本原理

        MapReduce作业执行流程

        MapReduce编程模型: Map处理和Reduce处理

        MapReduce处理流程:数据读取collect、中间数据sort、中间数据spill、中间数据shuffle、聚合分析reduce

        MapReduce开发高级应用:Combiner技术与应用场景、Partitioner技术与应用场景、多Reducers应用

        MapReduce开发与应用实战:Hadoop平台搭建与运行;MapReduce安装与部署;

        应用案例:基于HDFS+MapReduce集成的服务器日志分析采集、存储与分析MapReduce程序实例开发与运行

        MapReduce参数调优与性能优化技巧

        第一天

        下午

        大数据存储系统与应用实践

        分布式文件系统HDFS产生背景与适用场景

        HDFS master-slave系统架构与读写工作原理

        HDFS核心组件技术讲解,NameNode与fsimage、editslog,DataNode与数据块

        HDFS Federation机制,viewfs机制,使用场景讲解

        HDFS高可用保证机制,SecondaryNameNode,NFS冷备份,基于zookeeper的HA方案

        HDFS参数调优与性能优化

         

        大数据实战练习一

        1. Hadoop平台搭建、部署与应用实践,包含HDFS分布式文件系统,YARN资源管理软件,MapReduce计算框架软件

        2. HDFS 文件、目录创建、上传、下载等命令操作,HDFS合并、归档操作,HDFS监控平台使用

        3. MapReduce程序在YARN上运行,YARN监控平台使用

        第二天

        上午

        Hadoop框架与生态发展,以及应用实践操作

        Hadoop的发展历程

        Hadoop 1.0的核心组件JobTracker,TaskTracker,以及适用范围

        Hadoop 2.0的核心组件YARN工作原理,以及与Hadoop 1.0的联系与区别

        Hadoop关键机制:任务推测执行,任务容错,任务选择执行,心跳机制

        Hadoop YARN的资源管理与作业调度机制:FIFO调度,Capacity调度器,Fair调度器

        Hadoop 常用参数调优与性能优化技术

         

        大数据计算模型(二)——实时处理/内存计算 Spark

         

        MapReduce计算模型的瓶颈

        Spark产生动机、基本概念与适用场景

        Spark编程模型与RDD弹性分布式数据集的工作原理与机制

        Spark实时处理平台运行架构与核心组件

        Spark RDD主要Transformation:map, flatMap, filter, union, sample, join, reduceByKey, groupByKey

        Spark RDD主要action:count,collect,reduce,saveAsTextFile

        Spark宽、窄依赖关系与DAG图分析

        Spark容错机制

        Spark作业调度机制

        Spark缓存机制:Cache操作,Persist操作与存储级别

        Spark作业执行机制:执行DAG图、任务集、executor执行模型、 BlockManager管理

        Spark standardalone,Spark on YARN运行模式

        Scala开发介绍与Spark常用Transformation函数介绍

        Spark调优:序列化机制、RDD复用、Broadcast机制、高性能算子、资源参数调优

        第二天

        下午

        大数据仓库查询技术Hive、SparkSQL、Impala,以及应用实践

        基于MapReduce的大型分布式数据仓库Hive基础知识与应用场景

        Hive数据仓库的平台架构与核心技术剖析

        Hive metastore的工作机制与应用

        Hive内部表和外部表

        Hive 分区、分桶机制

        Hive行、列存储格式

        基于Spark的大型分布式数据仓库SparkSQL基础知识与应用场景

        Spark SQL实时数据仓库的实现原理与工作机制

        SparkSQL数据模型DataFrame

        SparkSQL程序开发与

        SparkSQL数据读取与结果保存:json,Hive table,Parquet file,RDD

        SparkSQL和Hive的区别与联系

        SparkSQL操作实战

        基于MPP的大型分布式数据仓库Impala基础知识与应用场景

        Impala实时查询系统平台架构、关键技术介绍,以及与Hive,SparkSQL的对比

         

        Hadoop集群运维监控工具

        1. Hadoop运维管理监控系统Ambari工具介绍

        2. 第三方运维系统与工具Ganglia, Nagios

         

        大数据实战练习二

        基于 Hadoop平台搭建、部署与配置Spark集群,Spark shell环境实践操作,Spark案例程序分析

        基于sbt的Spark程序编译、开发与提交运行

        应用案例一:基于Spark的服务器运行日志TopN分析、程序实例开发

        应用案例二: 基于Spark的搜索引擎日志热词与用户分析、程序实例开发

        基于MapReduce的Hive数据仓库实践,Hive集群安装部署,基于文件的Hive数据仓库表导入导出与分区操作,Hive SQL操作,Hive客户端操作

        SparkSQL shell实践操作:数据表读取、查询与结果保存

        第三天

        上午

        大数据计算模型(三)——流处理Storm, SparkStreaming

         

        流数据处理应用场景与流数据处理的特点

        流数据处理工具Storm的平台架构与集群工作原理

        Storm关键技术与并发机制

        Storm编程模型与基本开发模式

        Storm数据流分组

        Storm可靠性保证与Acker机制

        Storm应用案例分析

        流数据处理工具Spark Streaming基本概念与数据模型

        SparkStreaming工作机制

        SparkStreaming程序开发介绍

        SparkStreaming的全局统计和窗口函数

        Storm与SparkStreaming的对比

        SparkStreaming开发案例:基于文件流的SparkStreaming程序开发;基于socket消息的SparkStreaming程序开发

         

        大数据与机器学习技术

        机器学习发展历程

        机器学习与大数据关联与区别

        数据挖掘经典算法

        预测算法:线性回归与应用场景,非线性回归与应用场景

        分类算法:逻辑回归与应用场景,决策树与应用场景,朴素贝叶斯算法与应用场景,支持向量机算法与应用场景

        聚类算法; k-means与应用场景

        基于Hadoop的大数据机器学习技术

        基于MapReduce的机器学习库Mahout

        Mahout支持的数据挖掘算法

        Mahout编程模型与发

        基于Spark的机器学习库Spark MLlib

        Spark MLlib支持的数据挖掘算法

        Spark MLlib编程模型与开发:基于Spark MLlib的文本分类,基于Spark MLlib的聚类

        第三天

        下午

        大数据ETL操作工具,与大数据分布式采集系统

        Hadoop与DBMS之间数据交互工具的应用

        Sqoop导入导出数据的工作原理

        Flume-NG数据采集系统的数据流模型与系统架构

        Kafka分布式消息订阅系统的应用介绍与平台架构,及其使用模式

         

        面向OLTP型应用的NoSQL数据库及应用实践

        关系型数据库瓶颈,以及NoSQL数据库的发展,概念,分类,及其在半结构化和非结构化数据场景下的适用范围

        列存储NoSQL数据库HBase简介与数据模型剖析

        HBase分布式集群系统架构与读写机制,ZooKeeper分布式协调服务系统的工作原理与应用

        HBase表设计模式与primary key设计规范

        文档NoSQL数据库MongoDB简介与数据模型剖析

        MongoDB集群模式、读写机制与常用API操作

        8.键值型NoSQL数据库Redis简介与数据模型剖析

        9.Redis多实例集群架构与关键技术

        10.NewSQL数据库技术简介及其适用场景

         

        大数据实战练习三

        1.Sqoop安装、部署与配置,基于Sqoop、MySQL与Hive操作MySQL数据库与Hive数据仓库数据导入导出

        2.Kafka安装、部署与配置,基于Kafka创建和消费topic实践操作

        3.Flume+HDFS+MapReduce/Spark大数据采集、存储与分析实践操作

         

        大数据项目选型、实施、优化等问题交流讨论

        大数据项目的需求分析、应用实施、系统优化,以及解决方案等咨询与交流讨论

        第四天

        学习考核与业内经验交流

        查看更多

        会议嘉宾 (最终出席嘉宾以会议现场为准)


        蒋老师  清华大学博士,云计算专家 熟悉主流的云计算平台,并有商业与开源云计算平台的实践经验,对云计算关键技术有深刻了解和实践经验,如分布式系统、虚拟化、分布式文件系统、云存储等,参与并领导多个大型云计算项目。对大数据关键技术有深刻了解和实践经验,如NoSQL数据库、大数据处理、Hadoop、Hive、HBase、Spark等。

        赵老师  清华大学计算机双学士,甲骨文(中国)软件系统有限公司高级技术顾问,大数据、数据库、中间件技术和Java专家。15年IT行业从业经历,10年培训授课经验。具有丰富的大数据方法论、数据科学、大数据生态圈技术知识和大数据规划建设、应用实施和客户培训经验。

        张老师  天津大学软件工程硕士,10多年的IT领域相关技术研究和项目开发工作,在长期软件领域工作过程中,对软件企业运作模式有深入研究,熟悉软件质量保障标准ISO9003和软件过程改进模型CMM/CMMI,在具体项目实施过程中总结经验,有深刻认识。通晓多种软件设计和开发工具。对软件开发整个流程非常熟悉,能根据项目特点定制具体软件过程,并进行项目管理和监控,有很强的软件项目组织管理能力。对C/C++ 、HTML 5、python、Hadoop、java、java EE、android、IOS、大数据、云计算有比较深入的理解和应用,具有较强的移动互联网应用需求分析和系统设计能力,熟悉Android框架、IOS框架等技术,了解各种设计模式,能在具体项目中灵活运用。

        查看更多

        参会指南

        会议门票


        会务费:5800元/人(含培训费、场地费、资料费、学习期间午餐),食宿可统一安排,费用自理。请学员带身份证复印件一张。

        本课程由中国信息化培训中心颁发《大数据平台搭建与高性能计算高级工程师》证书;证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。

        查看更多

        温馨提示
        酒店与住宿: 为防止极端情况下活动延期或取消,建议“异地客户”与活动家客服确认参会信息后,再安排出行与住宿。
        退款规则: 活动各项资源需提前采购,购票后不支持退款,可以换人参加。

        还有若干场即将举行的 大数据大会

        猜你喜欢

        部分参会单位

        • 中国金融期货交易所股份有限公司
        活动家_小程序快捷下单

        微信扫一扫
        分享给朋友

        邮件提醒通知

        分享到微信 ×

        打开微信,点击底部的“发现”,
        使用“扫一扫”即可将网页分享至朋友圈。

        录入信息

        请录入信息,方便生成邀请函