廣州總校區(qū)切換校區(qū)
復(fù)制成功
微信號(hào):togogoi
添加微信好友, 詳細(xì)了解課程
已復(fù)制成功,如果自動(dòng)跳轉(zhuǎn)微信失敗,請(qǐng)前往微信添加好友
打開(kāi)微信

Spark及Hadoop開(kāi)發(fā)員

課時(shí)總數(shù):24課時(shí)

課程介紹


  學(xué)習(xí)如何使用Hadoop生態(tài)系統(tǒng)關(guān)鍵性技術(shù)來(lái)導(dǎo)入并處理數(shù)據(jù)。


  在為期4天的培訓(xùn)中,學(xué)員將學(xué)習(xí)關(guān)鍵概念和掌握使用新技術(shù)和工具將數(shù)據(jù)采集到Hadoop集群并進(jìn)行處理。通過(guò)學(xué)習(xí)掌握諸如Spark(包括SparkStreaming和SparkSQL)、Flume、Kafka以及Sqoop這樣的Hadoop生態(tài)系統(tǒng)工具和技術(shù),Hadoop開(kāi)發(fā)員將具備解決實(shí)際大數(shù)據(jù)問(wèn)題和挑戰(zhàn)的能力。使用Spark,不同行業(yè)的開(kāi)發(fā)人員可以為不同的商業(yè)應(yīng)用和系統(tǒng)架構(gòu)編寫(xiě)復(fù)雜的并行應(yīng)用,得以更快速地獲取更優(yōu)的商業(yè)決策,幫助決策人員進(jìn)行及時(shí)應(yīng)對(duì)。

  一.培訓(xùn)內(nèi)容

      ●  通過(guò)講師在課堂上的講解,以及實(shí)操練習(xí),學(xué)員將學(xué)習(xí)以下內(nèi)容:

      ●  在Hadoop集群上進(jìn)行分布式存儲(chǔ)和處理數(shù)據(jù)。

      ●  通過(guò)在Hadoop集群上編寫(xiě)、配置和部署ApacheSpark應(yīng)用。

      ●  使用Sparkshell進(jìn)行交互式數(shù)據(jù)分析。

      ●  使用SparkSQL查詢處理結(jié)構(gòu)化數(shù)據(jù)。

      ●  使用SparkStreaming處理流式數(shù)據(jù)。

      ●  使用Flume和Kafka為SparkStreaming采集流式數(shù)據(jù)。

  二.培訓(xùn)對(duì)象及學(xué)員基礎(chǔ)

      ●  本課程適合于具有編程經(jīng)驗(yàn)的開(kāi)發(fā)員及工程師。無(wú)需ApacheHadoop基礎(chǔ)。

      ●  培訓(xùn)內(nèi)容中對(duì)ApacheSpark的介紹所涉及的代碼及練習(xí)使用Scala和Python,因此需至少掌握這兩個(gè)編程語(yǔ)言中的一種。

      ●  需熟練掌握Linux命令行。

      ●  對(duì)SQL有基本了解。

  三.課程大綱

    1.  Hadoop及生態(tài)系統(tǒng)介紹

      ●  ApacheHadoop概述

      ●  數(shù)據(jù)存儲(chǔ)和攝取

      ●  數(shù)據(jù)處理

      ●  數(shù)據(jù)分析和探索

      ●  其他生態(tài)系統(tǒng)工具

      ●  練習(xí)環(huán)境及分析應(yīng)用場(chǎng)景介紹

    2.  ApacheHadoop文件存儲(chǔ)

      ●  傳統(tǒng)大規(guī)模系統(tǒng)的問(wèn)題

      ●  HDFS體系結(jié)構(gòu)

      ●  使用HDFS

      ●  ApacheHadoop文件格式

    3.  ApacheHadoop集群上的數(shù)據(jù)處理

      ●  YARN體系結(jié)構(gòu)

      ●  使用YARN

    4.  使用ApacheSqoop導(dǎo)入關(guān)系數(shù)據(jù)

      ●  Sqoop簡(jiǎn)介

      ●  數(shù)據(jù)導(dǎo)入

      ●  導(dǎo)入的文件選項(xiàng)

      ●  數(shù)據(jù)導(dǎo)出

    5.  ApacheSpark基礎(chǔ)

      ●  什么是ApacheSpark

      ●  使用SparkShell

      ●  RDDs(可恢復(fù)的分布式數(shù)據(jù)集)

      ●  Spark里的函數(shù)式編程

    6.  SparkRDD

      ●  創(chuàng)建RDD

      ●  其他一般性RDD操作

    7.  使用鍵值對(duì)RDD

      ●  鍵值對(duì)RDD

      ●  MapReduce

      ●  其他鍵值對(duì)RDD操作

    8.  編寫(xiě)和運(yùn)行ApacheSpark應(yīng)用

      ●  Spark應(yīng)用對(duì)比SparkShell

      ●  創(chuàng)建SparkContext

      ●  創(chuàng)建Spark應(yīng)用(Scala和Java)

      ●  運(yùn)行Spark應(yīng)用

      ●  Spark應(yīng)用WebUI

    9.  配置ApacheSpark應(yīng)用

      ●  配置Spark屬性

      ●  運(yùn)行日志

    10.  ApacheSpark的并行處理

      ●  回顧:集群環(huán)境里的Spark

      ●  RDD分區(qū)

      ●  基于文件RDD的分區(qū)

      ●  HDFS和本地化數(shù)據(jù)

      ●  執(zhí)行并行操作

      ●  執(zhí)行階段及任務(wù)

    11.  Spark持久化

      ●  RDD演變族譜

      ●  RDD持久化簡(jiǎn)介

      ●  分布式持久化

    12.  ApacheSpark數(shù)據(jù)處理的常見(jiàn)模式

      ●  常見(jiàn)Spark應(yīng)用案例

      ●  迭代式算法

      ●  機(jī)器學(xué)習(xí)

      ●  例子:K-Means

    13.  DataFrames和SparkSQL

      ●  ApacheSparkSQL和SQLContext

      ●  創(chuàng)建DataFrames

      ●  變更及查詢DataFrames

      ●  保存DataFrames

      ●  DataFrames和RDD

      ●  SparkSQL對(duì)比Impala和Hive-on-Spark

      ●  Spark2.x版本上的ApacheSparkSQL

    14.  ApacheKafka

      ●  什么是ApacheKafka

      ●  ApacheKafka概述

      ●  如何擴(kuò)展ApacheKafka

      ●  ApacheKafka集群架構(gòu)

      ●  ApacheKafka命令行工具

    15.  使用ApacheFlume采集實(shí)時(shí)數(shù)據(jù)

      ●  什么是ApacheFlume

      ●  Flume基本體系結(jié)構(gòu)

      ●  Flume源

      ●  Flume槽

      ●  Flume通道

      ●  Flume配置

    16.  集成ApacheFlume和ApacheKafka

      ●  概要

      ●  應(yīng)用案例

      ●  配置

    17.  ApacheSparkStreaming:DStreams介紹

      ●  ApacheSparkStreaming概述

      ●  例子:Streaming訪問(wèn)計(jì)數(shù)

      ●  DStreams

      ●  開(kāi)發(fā)Streaming應(yīng)用

    18.  ApacheSparkStreaming:批處理

      ●  批處理操作

      ●  時(shí)間分片

      ●  狀態(tài)操作

      ●  滑動(dòng)窗口操作

    19.  ApacheSparkStreaming:數(shù)據(jù)源

      ●  Streaming數(shù)據(jù)源概述

      ●  ApacheFlume和ApacheKafka數(shù)據(jù)源

      ●  例子:使用Direct模式連接Kafka數(shù)據(jù)源

    20.  結(jié)論


  Cloudera大數(shù)據(jù)課程體系




<
在線咨詢 ×

您好,請(qǐng)問(wèn)有什么可以幫您?我們將竭誠(chéng)提供最優(yōu)質(zhì)服務(wù)!