廣州總校區(qū)切換校區(qū)
復(fù)制成功
微信號:togogoi
添加微信好友, 詳細(xì)了解課程
已復(fù)制成功,如果自動跳轉(zhuǎn)微信失敗,請前往微信添加好友
打開微信

數(shù)據(jù)分析師:Pig、Hive和Impala

課時總數(shù):24課時

課程介紹


  通過Cloudera公司的ApacheHadoop培訓(xùn)將您的知識提升到一個新的水平。


  Cloudera大學(xué)提供的為期4天的數(shù)據(jù)分析培訓(xùn)課程專注于ApachePig、Hive和ClouderaImpala,將教會您如何將傳統(tǒng)的數(shù)據(jù)分析和商業(yè)智能技術(shù)應(yīng)用到大數(shù)據(jù)領(lǐng)域。Cloudera為數(shù)據(jù)專業(yè)人員提供了基于SQL和其它熟悉的腳本編程語言的工具,用來訪問、操作、轉(zhuǎn)換和分析復(fù)雜數(shù)據(jù)集。

  學(xué)習(xí)掌握現(xiàn)代大數(shù)據(jù)分析工具

    學(xué)員在本課程中將學(xué)習(xí)掌握以下現(xiàn)代大數(shù)據(jù)分析工具:

      ●  ApacheImpala(孵化項(xiàng)目)作為一個SQL運(yùn)行環(huán)境提供對Hadoop里的數(shù)據(jù)進(jìn)行即時交互式分析的能力。

      ●  ApacheHive為數(shù)據(jù)分析師、數(shù)據(jù)庫管理員以及其他非Java編程人員提供了一個類-SQL的查詢語言HiveQL來分析處理Hadoop數(shù)據(jù)。

      ●  ApachePig提供腳本編程工具來分析處理Hadoop數(shù)據(jù)。

  一.培訓(xùn)內(nèi)容

   通過講師在課堂上的講解,以及實(shí)操練習(xí),學(xué)員將熟悉Hadoop生態(tài)系統(tǒng),學(xué)習(xí)主題包括:

      ●  使用Pig,Hive及Impala獲取、存儲及分析數(shù)據(jù)。

      ●  使用Hadoop工具執(zhí)行基本的ETL工作(抽?。璭xtract,轉(zhuǎn)換-transform和加載-load)。

      ●  使用Pig、Hive及Impala改善典型分析任務(wù)的效率。

      ●  關(guān)聯(lián)不同及豐富的數(shù)據(jù)源以獲取全面和真實(shí)的商業(yè)價(jià)值。

      ●  對數(shù)據(jù)集進(jìn)行交互式和復(fù)雜查詢。

  二.培訓(xùn)對象及學(xué)員基礎(chǔ)

  本課程是專為數(shù)據(jù)分析師、商業(yè)智能專家、開發(fā)人員、系統(tǒng)架構(gòu)師和數(shù)據(jù)庫管理員開發(fā)的。培訓(xùn)學(xué)員不需要具備ApacheHadoop知識。

      ●  需具備一定的SQL知識水平。

      ●  基本熟悉Linux命令行。

      ●  培訓(xùn)學(xué)員至少熟悉一種腳本語言知識(例如,Bash腳本編程、Perl、Python和Ruby)將會更有幫助,但不是必需的。

  三.認(rèn)證

  結(jié)束本課程培訓(xùn)后,我們建議學(xué)員準(zhǔn)備并注冊參加ClouderaCCA數(shù)據(jù)分析師認(rèn)證考試。通過并獲得該證書是向公司及客戶證明個人在Hadoop數(shù)據(jù)分析領(lǐng)域的技術(shù)和專長的有力依據(jù)。

  四.課程大綱

    1.  Hadoop基礎(chǔ)知識

      ●  Hadoop動機(jī)

      ●  Hadoop概覽

      ●  數(shù)據(jù)存儲:HDFS

      ●  分布式數(shù)據(jù)處理:YARN、MapReduce和Spark

      ●  數(shù)據(jù)處理與分析:Pig、Hive和Impala

      ●  數(shù)據(jù)集成:Sqoop

      ●  其它的Hadoop數(shù)據(jù)工具

      ●  練習(xí)分析場景說明

    2.  Pig簡介

      ●  Pig是什么

      ●  Pig的特點(diǎn)

      ●  Pig使用案例

      ●  與Pig的交互

    3.  Pig基本數(shù)據(jù)分析

      ●  PigLatin語法

      ●  加載數(shù)據(jù)

      ●  簡單數(shù)據(jù)類型

      ●  字段定義

      ●  數(shù)據(jù)輸出

      ●  架構(gòu)查看

      ●  數(shù)據(jù)篩選和排序

      ●  常用函數(shù)

    4.  使用Pig處理復(fù)雜的數(shù)據(jù)

      ●  數(shù)據(jù)存儲格式

      ●  復(fù)合/嵌套數(shù)據(jù)類型

      ●  數(shù)據(jù)分組

      ●  復(fù)雜數(shù)據(jù)內(nèi)置函數(shù)

      ●  遍歷分組數(shù)據(jù)

    5.  Pig多數(shù)據(jù)集操作

      ●  數(shù)據(jù)集合并技術(shù)

      ●  在Pig中聯(lián)接數(shù)據(jù)集

      ●  集合運(yùn)算

      ●  拆分?jǐn)?shù)據(jù)集

    6.  Pig故障診斷和性能優(yōu)化

      ●  Pig故障排除

      ●  日志

      ●  使用Hadoop的WebUI

      ●  數(shù)據(jù)采樣及調(diào)試

      ●  性能概述

      ●  了解執(zhí)行計(jì)劃

      ●  提高Pig作業(yè)性能的技巧

    7.  Hive和Impala簡介

      ●  什么是Hive

      ●  什么是Impala

      ●  為什么使用Hive和Impala

      ●  架構(gòu)和數(shù)據(jù)存儲

      ●  Hive及Impala與傳統(tǒng)數(shù)據(jù)庫的比較

      ●  Hive使用案例

    8.  使用Hive和Impala進(jìn)行數(shù)據(jù)查詢

      ●  數(shù)據(jù)庫和表

      ●  基本的Hive和Impala查詢語言語法

      ●  數(shù)據(jù)類型

      ●  使用Hue來執(zhí)行查詢

      ●  使用Beeline(HiveShell)

      ●  使用ImpalaShell

    9.  Hive及Impala數(shù)據(jù)管理

      ●  數(shù)據(jù)存儲

      ●  創(chuàng)建數(shù)據(jù)庫和表

      ●  加載數(shù)據(jù)

      ●  修改數(shù)據(jù)庫和表

      ●  使用視圖簡化查詢

      ●  存儲查詢結(jié)果

    10.  數(shù)據(jù)存儲和性能

      ●  對表進(jìn)行分區(qū)

      ●  分區(qū)表的數(shù)據(jù)加載

      ●  何時使用分區(qū)

      ●  文件格式的選取

      ●  使用Avro及Parquet文件格式

    11.  使用Hive和Impala進(jìn)行關(guān)系數(shù)據(jù)分析

      ●  連接數(shù)據(jù)集

      ●  常見的內(nèi)置函數(shù)

      ●  聚合和窗口函數(shù)

    12.  復(fù)雜數(shù)據(jù)類型

      ●  在Hive里使用復(fù)雜數(shù)據(jù)

      ●  在Impala里使用復(fù)雜數(shù)據(jù)

    13.  使用Hive及Impala分析文本數(shù)據(jù)

      ●  在Hive及Impala里使用正則表達(dá)式

      ●  在Hive里通過SerDe加載處理文本

      ●  情感分析及n-gram

    14.  Hive優(yōu)化

      ●  了解查詢性能

      ●  Bucketing(分桶)

      ●  索引數(shù)據(jù)

      ●  HiveonSpark

    15.  Impala優(yōu)化

      ●  Impala如何執(zhí)行查詢

      ●  改善Impala性能

    16.  擴(kuò)展Hive及Impala

      ●  使用SerDe加載特殊格式文件

      ●  通過定制腳本來轉(zhuǎn)換數(shù)據(jù)

      ●  用戶自定義函數(shù)

      ●  參數(shù)化查詢

    17.  選擇好工具

      ●  比較Pig、Hive、Impala和關(guān)系數(shù)據(jù)庫該選擇哪一個

    18.  總結(jié)


  Cloudera大數(shù)據(jù)課程體系




<
在線咨詢 ×

您好,請問有什么可以幫您?我們將竭誠提供最優(yōu)質(zhì)服務(wù)!