【会议内容】

新一代信息技术正深刻改变着人们的生产、生活、学习和思维方式，其朝气蓬勃的产业发展态势和大力度的国家政策鼓励支持，无不揭示了数据智能技术的重要性。人才的培养是新一轮科技较量的基础，高等院校承担着大数据与人工智能人才培养的重任，因此，各高等院校非常重视大数据课程，尽快形成成熟完善的培养方案、课程体系、系列教材、课程师资和实训平台等，是各大高校共同关注的热点问题。

为推动各院校完善专业建设，解决专业教学中行业案例缺失和实战能力不足等相关痛点问题，泰迪科技基于十余年深耕数据智能产业实践经验，特推出全国高校大数据与人工智能师资研修班，每年在全国范围内滚动开展，截止目前已在全国巡回举办60余场，参训教师近7000人次。2024年第一期（寒假班）全国高校大数据技术应用实战（Hadoop+Spark）师资研修班将在广州举办，现将有关安排通知如下。

一、课程特色

1、大模型应用：畅想数据智能新未来

紧贴产业前沿，特邀三位专家畅谈大模型应用，分享“ChatGPT教学应用”，“金牌助手ChatGPT，让应用开发更高效”，“大模型(ChatGLM2-6B) 产业应用漫步与畅想”等专题，一起畅想数据智能新未来。

2、企业案例实战+落地实操授课

课程全程强调动手实操，内容以代码落地为主，通过讲解企业级案例，真正让学员把所学内容和工作实际有效结合，从而更好地完成自身后续教育教学工作。

3、全方位答疑辅导学习

课程设有答疑交流讨论群，培训期间助教全程辅助教学。每天提供10小时的实时在线答疑辅导，线下学习部分则有主讲老师和助教面对面的帮助。

4、内容从浅及深更易入门

本课程配套有基础知识内容，即使零基础学员也能找到适合自己的学习内容和节奏，快速掌握课程知识和技能。

5、提供课程资源和回看功能

所有课程相关源代码、数据、PPT、案例素材全部提供下载，即学即用，教学更轻松！线上课程内容支持六个月内免费回看，以便复习和参考。

6、满足教学和科研需求

通过技能学习和案例实战，学员将在具体应用场景中全面掌握相关技能，提升实训教学工作的实际动手能力并为后续科研打下坚实基础。

课程安排

基本信息

技能学习(线上云课堂)，1.16-1.20

现场案例实战，1.22-1.26

时间：1月16日-26日

线下报到时间：1月21日

地点：广州(详细地点开课前一周发送报到通知)

学时：共计80学时

证书：高级大数据技术应用职业技术证书

费用：4980元/人

学习环境要求： Windows10或以上操作系统（64位），8G+内存，不可使用Mac和linux系统

1.Linux操作系统基础

2.Java编程基础

3.Scala编程基础

4.Hadoop大数据基础

5.Hive大数据仓库

6.Spark大数据技术基础

7.HBase非关系型数据库（拓展）

8.Flume数据采集（拓展）

9.Kafka消息系统（拓展）

10.Flink大数据实时处理（拓展）

11.特别内容：

① ChatGPT教学应用

② 金牌助手ChatGPT，让应用开发更高效

③ 大模型(ChatGLM2-6B)产业应用漫步与畅想

1.航空客户价值分析

2.广电大数据用户画像（Hadoop + Spark + Hive）

3.大数据分布式消息Zookeeper（拓展）

4.商品实时推荐系统（拓展）

证书颁发

学员经在线培训并考试合格后，可以获得由工业和信息化部教育与考试中心颁发高级大数据技术应用职业技术证书，证书可登录工业和信息化部教育与考试中心官网查询。

全国高校大数据技术应用实战(Hadoop+Spark)师资研修班（2024第一期线上线下结合）

【会议日程】

课程大纲

技能学习（线上）课程安排

时间：报名成功后即可开始学习

Linux操作系统基础

1. Linux概述

2. Linux系统安装

3. Linux基本命令

4. Linux Vi编辑器

5. Linux Shell编程

Java编程基础

1. 基础知识

2. 面向对象

3. 线程及异常处理

Scala编程基础

1. Scala简介

2. Scala安装配置

3. Scala基础语法

4. 函数

5. 面向对象编程

6. 文件读写

时间：1.16（9:00-18:00）

专题讲座

计算机视觉技术及其应用

Hadoop大数据基础

1. Hadoop简介

1.1 大数据介绍

1.2 Hadoop核心组件

1.3 Hadoop生态环境

1.4 Hadoop应用场景

2. Hadoop集群安装与部署

2.1 安装虚拟机

2.2 安装Java

2.3 Hadoop集群部署模式

2.4 配置固定IP

2.5 SSH无密码登录

2.6 配置Hadoop集群

2.7 Hadoop集群配置参数

2.8 Hadoop集群启动与监控

时间：1.17（9:00-18:00）

3. Hadoop基础操作

3.1 Hadoop安全模式

3.2 Hadoop集群基本信息介绍

3.3 HDFS常用Shell操作

3.4 MapReduce常用Shell操作

3.5 MapReduce任务管理

3.6 Yarn资源管理与任务调度

4. MapReduce开发入门

4.1 MapReduce框架与设计构思

4.2 MapReduce开发环境搭建

4.3 MapReduce WordCount源码分析

4.4 MapReduce API分析

4.5 MapReduce统计每天访问次数

4.6 MapReduce按用户访问次数排序

拓展

5. MapReduce编程进阶

时间：1.18（9:00-18:00）

Hive大数据仓库

1. Hive简介

1.1 Hive简介

2. Hive安装配置

2.1.1 Hive安装配置之MySQL数据库安装

2.1.2 Hive安装配置之Hive安装

2.2 Hive实现单词计数

3. Hive应用

3.1.1 Hive表定义

3.1.2 创建内部表与外部表

3.1.3 创建静态分区表和动态分区表

3.1.4 创建带数据的表和桶表

3.2 Hive导入及导出

3.3.1 Select查询基本用法1

3.3.2 Select查询基本用法2

3.3.3 内置函数应用

3.3.4 关联查询

拓展

4. Hive开发

5. Hive自定义函数

6. Hive查询优化

时间：1.19（9:00-18:00）

Spark大数据技术应用

1. Spark入门

1.1 Spark入门

2. Spark集群的安装配置

2.1 Spark安装部署

2.2 Spark安装部署实战

3. Spark架构及原理

3.1 Spark架构

3.2 Spark RDD及DAG相关概念

4. Spark编程基础

4.1 创建RDD

4.2 RDD常用算子之transformation算子（1）

4.3 RDD常用算子之transformation算子（2）

4.4 RDD常用算子之键值对RDD算子

4.5 RDD常用算子之action算子

4.6 文件读取与存储

4.7 统计用户停留时间最长的基站

时间：1.20（9:00-18:00）

5. 配置Spark IDEA开发环境

5.1 搭建Spark开发环境

6. Spark SQL应用

6.1 Spark SQL简介

6.2 Spark SQL配置

6.3 从结构化数据文件创建DataFrame

6.4 从外部数据库创建DataFrame

6.5 从RDD创建DataFrame

6.6 读取Hive表数据创建DataFrame

6.7 读取学生成绩创建DataFrame

6.8 常见DataFrame API操作1

6.9 常见的DataFrame操作2

6.10 常见的DataFrame操作3

6.11 通过DataFrame API计算学生总分和平均分

6.12 保存DataFrame数据

6.13 保存学生成绩分析结果到Hive

6.14 DataSet基础操作

6.15 统计商品销量

拓展内容：

1 HBase非关系型数据库

2 Zookeeper大数据分布式消息

3 Flume数据采集

4 Kafka消息系统

5 Flink大数据实时处理

6 商品实时推荐系统

特别内容：

① ChatGPT教学应用

② 金牌助手ChatGPT，让应用开发更高效

③ 大模型(ChatGLM2-6B)产业应用漫步与畅想

案例实战（线下）课程安排

时间：1.22（8:30）-1.24（11:30）

核心技能串讲与巩固

1.Hadoop大数据基础

2.Hive大数据仓库

3.HBase非关系型数据库

4.Spark大数据技术应用

时间：1.24（14:00-17:00）

航空客户价值分析

1. 案例背景与挖掘目标

2. 数据存储

3. 数据探索与数据清洗

4. 构建航空客户价值分析关键特征

5. 航空客户分群

6. 会员营销策略与建议

时间：1.25（8.30-17:00）

广电大数据用户画像

1. 项目背景与目标分析

1.1 背景介绍

1.2 目标分析

1.3 系统架构介绍

2. 数据存储

2.1 数据介绍

2.2 数据存储

2.3 开发环境搭建

3. 数据探索与清洗

4. 用户画像标签计算

4.1 用户画像简介

4.2 消费内容

4.3 消费等级

4.4 产品名称

4.5 入网程度&业务名称

4.6 地区&语言偏好

5. SVM预测用户是否挽留

5.1 SVM介绍

5.2 特征构建

5.3 标签构建

5.4 模型构建与评估

时间：1.26（9:00-17:00）

1.职业技术考试

2.企业参观

【会议嘉宾】

冯国灿，博士，中山大学数学学院教授，博士生导师。泰迪杯数据挖掘挑战赛组委会委员，中国工业与应用数学会常务理事，广东省工业与应用数学学会理事长， 2000-2002英国格莱莫根大学数字图像实验室和布拉德福大学数字媒体实验室做博士后研究员。主要从事模式识别、计算机视觉研究，参加主持包括国家自然科学基金等科学基金20多项，发表学术论文100余篇,入选2014-2019爱思唯尔计算机科学中国高被引学者排行榜。

樊老师，广东泰迪智能科技股份有限公司特聘讲师，某国际银行大数据开发工程师，Hortonworks授权Apache Hadoop开发者认证培训讲师，Hadoop、Mahout技术实践者和研究者；对Hadoop的MapReduce编程模型有深刻理解，同时对Mahout技术有较深认识，对Mahout源码有深入研究，擅于Mahout中数据挖掘的K均值聚类算法、贝叶斯分类算法、FP树关联规则算法的应用；主编《Mahout算法解析与案例实战》、《Hadoop数据分析与挖掘实战》、《Hadoop与大数据挖掘》等图书专著；具有电信行业和银行业的项目经验和行业知识，主持中国电科院电力大数据平台、电能量数据挖掘与智能分析、客户服务智能分析系统等项目。

焦正升，广东泰迪智能科技股份有限公司资深项目研发工程师、高级信息系统项目经理、高级软件开发工程师，拥有7年相关从业经验；致力于信息技术的应用与传播，信息系统产业的发展。精通JAVA编程语言，熟悉Spring Boot、Spring Cloud等主流开发框架、MySQL数据库、VUE数据驱动渐进式框架等主流技术。参与《Hadoop与大数据挖掘》、《Hadoop大数据分析与挖掘实战》等图书的编写。拥有电力、电子政务、轻工环保、交通运输等多项领域的项目管理研发经验，项目团队为北京市信访办研发的“大数据助力智慧信访”系统获得第七届金铃奖-公共服务类"智能决策奖"。

郑素铃，广东泰迪智能科技股份有限公司特聘讲师。从事大数据项目研发工作，对Hadoop大数据技术有较深的研究，熟练掌握Hadoop环境部署和Hadoop核心计算框架MapReduce的原理和应用。掌握Spark原理及编程，熟练使用Spark的图计算Graphx和算法库MLlib。对非结构化数据库HBase以及结构化数据库Hive有深刻的了解。掌握数据挖掘和机器学习的常用算法，熟悉数据挖掘流程，具备项目开发经验，如“数睿思网站用户画像研究”和“法律服务智能推荐系统”项目，在推荐系统方面比较有研究。先后参与了《Hadoop大数据开发基础》、《Spark大数据技术与应用》等图书编写工作。

吴嘉泳，广东泰迪智能科技股份有限公司大数据研发工程师，一线大数据研发工程师。对Hadoop + Spark生态体系有深入研究，熟练掌握Hadoop环境部署和Hadoop核心计算框架MapReduce的原理和应用。掌握Spark原理及编程，熟练使用Spark的算法库MLlib。对非结构化数据库HBase以及结构化数据库Hive有深刻的了解。深度参与某电网公司内部客服优化系统开发，主要负责对系统中的海量文本数据进行处理和挖掘，利用Spark + Hive和相应组件实现潜在规律地挖掘。参与编写1+X相关图书编写工作，参与《Hadoop大数据开发基础》、《Spark大数据技术与应用》等图书编写。先后跟进负责第三期全国高校大数据与人工智能双师型骨干师资研修班和部分项目案例资源开发工作。

叶丽凡，广东泰迪智能科技股份有限公司高级大数据开发工程师，对Hadoop大数据技术有深入理解，熟悉HDFS分布式文件系统存储结构，熟练掌握Hadoop环境部署和MapReduce计算框架编程。对HBase、Hive数据库有深刻了解。掌握Spark原理及编程，熟悉Spark底层运行机制，并熟练使用Spark SQL即时查询框架和Spark MLlib算法库。深度参与过华南某广电公司大数据营销推荐系统开发，利用Hadoop + Spark + Hive为其中的400多万用户生成用户画像。参与编写《Hadoop与大数据挖掘》、《Spark大数据技术与应用》等图书。跟进负责全国高校大数据与人工智能双师型骨干师资研修班、韩山师范学院等高校大数据培训课程。

温鼎，从事大数据研发工作，对Hadoop生态圈相关组件技术有比较深的认识，掌握Hadoop核心框架原理。熟练掌握Hadoop、Hive、Flume登大数据核心组件的环境搭建和使用。同时对Spark核心API core和SQL & DataFrame的使用有深刻的认识，掌握MLlib算法库的应用。掌握数据挖掘和机器学习十大算法的应用。对数据有较强的敏感度，掌握常用机器学习算法原理。先后参与湖南商务职业技术学院Hadoop模块考题开发，深圳职业计算学院PySpark大数据课程资源开发，广东技术师范大学Hadoop大数据培训。

陈晓枫，广东泰迪智能科技股份有限公司大数据研发工程师、大数据讲师。对Hadoop生态圈相关组件技术有一定的理解，掌握Hadoop核心框架原理。熟悉MapReduce编程，了解实时框架HBase、Spark Streaming和Flink。参与《Hadoop大数据应用（第2版）》、《Spark大数据技术与应用（第2版）》、《大数据项目实战》等图书的编写和修改。

【会议门票】

1、报名材料：报名申请表、身份证复印件、两寸近期正面免冠彩色半身证件照电子版(要求：背景：白色，格式：JPG，大小：14-20K)。

2、培训费用：4980 元/人，包含（报名费、学习费、场地费、资料费、证书费），培训期间可选择主办方统一安排食宿，食宿费用自理。

全国高校大数据技术应用实战(Hadoop+Spark)师资研修班（2024第一期线上线下结合）

会议介绍

一、课程特色

拟邀嘉宾