曰批免费视频播放在线看片二,欧美在线一区二区三区精品,色成年激情久久综合

數(shù)據(jù)分析師：Pig、Hive和Impala

課時(shí)總數(shù)：24課時(shí)

課程介紹

　　通過(guò)Cloudera公司的ApacheHadoop培訓(xùn)將您的知識(shí)提升到一個(gè)新的水平。

　　Cloudera大學(xué)提供的為期4天的數(shù)據(jù)分析培訓(xùn)課程專(zhuān)注于A(yíng)pachePig、Hive和ClouderaImpala，將教會(huì)您如何將傳統(tǒng)的數(shù)據(jù)分析和商業(yè)智能技術(shù)應(yīng)用到大數(shù)據(jù)領(lǐng)域。Cloudera為數(shù)據(jù)專(zhuān)業(yè)人員提供了基于SQL和其它熟悉的腳本編程語(yǔ)言的工具，用來(lái)訪(fǎng)問(wèn)、操作、轉(zhuǎn)換和分析復(fù)雜數(shù)據(jù)集。

　　學(xué)習(xí)掌握現(xiàn)代大數(shù)據(jù)分析工具

　   學(xué)員在本課程中將學(xué)習(xí)掌握以下現(xiàn)代大數(shù)據(jù)分析工具：

　　    ● ApacheImpala（孵化項(xiàng)目）作為一個(gè)SQL運(yùn)行環(huán)境提供對(duì)Hadoop里的數(shù)據(jù)進(jìn)行即時(shí)交互式分析的能力。

　　    ● ApacheHive為數(shù)據(jù)分析師、數(shù)據(jù)庫(kù)管理員以及其他非Java編程人員提供了一個(gè)類(lèi)-SQL的查詢(xún)語(yǔ)言HiveQL來(lái)分析處理Hadoop數(shù)據(jù)。

　　    ● ApachePig提供腳本編程工具來(lái)分析處理Hadoop數(shù)據(jù)。

　　一．培訓(xùn)內(nèi)容

　　通過(guò)講師在課堂上的講解，以及實(shí)操練習(xí)，學(xué)員將熟悉Hadoop生態(tài)系統(tǒng)，學(xué)習(xí)主題包括：

　　    ● 使用Pig，Hive及Impala獲取、存儲(chǔ)及分析數(shù)據(jù)。

　　    ● 使用Hadoop工具執(zhí)行基本的ETL工作（抽?。璭xtract，轉(zhuǎn)換－transform和加載－load）。

　　    ● 使用Pig、Hive及Impala改善典型分析任務(wù)的效率。

　　    ● 關(guān)聯(lián)不同及豐富的數(shù)據(jù)源以獲取全面和真實(shí)的商業(yè)價(jià)值。

　　    ● 對(duì)數(shù)據(jù)集進(jìn)行交互式和復(fù)雜查詢(xún)。

　　二．培訓(xùn)對(duì)象及學(xué)員基礎(chǔ)

　　本課程是專(zhuān)為數(shù)據(jù)分析師、商業(yè)智能專(zhuān)家、開(kāi)發(fā)人員、系統(tǒng)架構(gòu)師和數(shù)據(jù)庫(kù)管理員開(kāi)發(fā)的。培訓(xùn)學(xué)員不需要具備ApacheHadoop知識(shí)。

　　    ● 需具備一定的SQL知識(shí)水平。

　　    ● 基本熟悉Linux命令行。

　　    ● 培訓(xùn)學(xué)員至少熟悉一種腳本語(yǔ)言知識(shí)（例如，Bash腳本編程、Perl、Python和Ruby）將會(huì)更有幫助，但不是必需的。

　　三．認(rèn)證

　　結(jié)束本課程培訓(xùn)后，我們建議學(xué)員準(zhǔn)備并注冊(cè)參加ClouderaCCA數(shù)據(jù)分析師認(rèn)證考試。通過(guò)并獲得該證書(shū)是向公司及客戶(hù)證明個(gè)人在Hadoop數(shù)據(jù)分析領(lǐng)域的技術(shù)和專(zhuān)長(zhǎng)的有力依據(jù)。

　　四．課程大綱

　　 1. Hadoop基礎(chǔ)知識(shí)

　　    ● Hadoop動(dòng)機(jī)

　　    ● Hadoop概覽

　　    ● 數(shù)據(jù)存儲(chǔ)：HDFS

　　    ● 分布式數(shù)據(jù)處理：YARN、MapReduce和Spark

　　    ● 數(shù)據(jù)處理與分析：Pig、Hive和Impala

　　    ● 數(shù)據(jù)集成：Sqoop

　　    ● 其它的Hadoop數(shù)據(jù)工具

　　    ● 練習(xí)分析場(chǎng)景說(shuō)明

　　 2. Pig簡(jiǎn)介

　　    ● Pig是什么

　　    ● Pig的特點(diǎn)

　　    ● Pig使用案例

　　    ● 與Pig的交互

　　 3. Pig基本數(shù)據(jù)分析

　　    ● PigLatin語(yǔ)法

　　    ● 加載數(shù)據(jù)

　　    ● 簡(jiǎn)單數(shù)據(jù)類(lèi)型

　　    ● 字段定義

　　    ● 數(shù)據(jù)輸出

　　    ● 架構(gòu)查看

　　    ● 數(shù)據(jù)篩選和排序

　　    ● 常用函數(shù)

　　 4. 使用Pig處理復(fù)雜的數(shù)據(jù)

　　    ● 數(shù)據(jù)存儲(chǔ)格式

　　    ● 復(fù)合/嵌套數(shù)據(jù)類(lèi)型

　　    ● 數(shù)據(jù)分組

　　    ● 復(fù)雜數(shù)據(jù)內(nèi)置函數(shù)

　　    ● 遍歷分組數(shù)據(jù)

　　 5. Pig多數(shù)據(jù)集操作

　　    ● 數(shù)據(jù)集合并技術(shù)

　　    ● 在Pig中聯(lián)接數(shù)據(jù)集

　　    ● 集合運(yùn)算

　　    ● 拆分?jǐn)?shù)據(jù)集

　　 6. Pig故障診斷和性能優(yōu)化

　　    ● Pig故障排除

　　    ● 日志

　　    ● 使用Hadoop的WebUI

　　    ● 數(shù)據(jù)采樣及調(diào)試

　　    ● 性能概述

　　    ● 了解執(zhí)行計(jì)劃

　　    ● 提高Pig作業(yè)性能的技巧

　　 7. Hive和Impala簡(jiǎn)介

　　    ● 什么是Hive

　　    ● 什么是Impala

　　    ● 為什么使用Hive和Impala

　　    ● 架構(gòu)和數(shù)據(jù)存儲(chǔ)

　　    ● Hive及Impala與傳統(tǒng)數(shù)據(jù)庫(kù)的比較

　　    ● Hive使用案例

　　 8. 使用Hive和Impala進(jìn)行數(shù)據(jù)查詢(xún)

　　    ● 數(shù)據(jù)庫(kù)和表

　　    ● 基本的Hive和Impala查詢(xún)語(yǔ)言語(yǔ)法

　　    ● 數(shù)據(jù)類(lèi)型

　　    ● 使用Hue來(lái)執(zhí)行查詢(xún)

　　    ● 使用Beeline（HiveShell）

　　    ● 使用ImpalaShell

　　 9. Hive及Impala數(shù)據(jù)管理

　　    ● 數(shù)據(jù)存儲(chǔ)

　　    ● 創(chuàng)建數(shù)據(jù)庫(kù)和表

　　    ● 加載數(shù)據(jù)

　　    ● 修改數(shù)據(jù)庫(kù)和表

　　    ● 使用視圖簡(jiǎn)化查詢(xún)

　　    ● 存儲(chǔ)查詢(xún)結(jié)果

　　 10. 數(shù)據(jù)存儲(chǔ)和性能

　　    ● 對(duì)表進(jìn)行分區(qū)

　　    ● 分區(qū)表的數(shù)據(jù)加載

　　    ● 何時(shí)使用分區(qū)

　　    ● 文件格式的選取

　　    ● 使用Avro及Parquet文件格式

　　 11. 使用Hive和Impala進(jìn)行關(guān)系數(shù)據(jù)分析

　　    ● 連接數(shù)據(jù)集

　　    ● 常見(jiàn)的內(nèi)置函數(shù)

　　    ● 聚合和窗口函數(shù)

　　 12. 復(fù)雜數(shù)據(jù)類(lèi)型

　　    ● 在Hive里使用復(fù)雜數(shù)據(jù)

　　    ● 在Impala里使用復(fù)雜數(shù)據(jù)

　　 13. 使用Hive及Impala分析文本數(shù)據(jù)

　　    ● 在Hive及Impala里使用正則表達(dá)式

　　    ● 在Hive里通過(guò)SerDe加載處理文本

　　    ● 情感分析及n-gram

　　 14. Hive優(yōu)化

　　    ● 了解查詢(xún)性能

　　    ● Bucketing（分桶）

　　    ● 索引數(shù)據(jù)

　　    ● HiveonSpark

　　 15. Impala優(yōu)化

　　    ● Impala如何執(zhí)行查詢(xún)

　　    ● 改善Impala性能

　　 16. 擴(kuò)展Hive及Impala

　　    ● 使用SerDe加載特殊格式文件

　　    ● 通過(guò)定制腳本來(lái)轉(zhuǎn)換數(shù)據(jù)

　　    ● 用戶(hù)自定義函數(shù)

　　    ● 參數(shù)化查詢(xún)

　　 17. 選擇好工具

　　    ● 比較Pig、Hive、Impala和關(guān)系數(shù)據(jù)庫(kù)該選擇哪一個(gè)

　　 18. 總結(jié)

　　Cloudera大數(shù)據(jù)課程體系