廣州總校區(qū)切換校區(qū)
復制成功
微信號:togogoi
添加微信好友, 詳細了解課程
已復制成功,如果自動跳轉微信失敗,請前往微信添加好友
打開微信

Spark和Hadoop上的數據科學

課時總數:18課時

課程介紹

      通過Cloudera公司提供的數據科學培訓和認證,將您的知識提升到一個新的水平。

 數據科學家?guī)椭⑵笫聵I(yè)單位及科研院校創(chuàng)建大數據時代的新型信息平臺,用于對海量數據進行深度挖掘、從中提取有用的信息,用于回答以前無法解決甚至是無法想象的問題。

學員將學習數據科學家是如何使用Hadoop和Spark技術來幫助企業(yè)改進現有產品、開發(fā)新產品新應用,留住用戶并開拓市場,降低成本,提高收益,發(fā)現和帶來新的商業(yè)機會。

Cloudera大學為期3天的數據科學家課程幫助學員理解什么是數據科學家,他們解決什么樣的問題,以及使用何種高效工具和新技術。通過課堂模擬,學員學會如何運用數據科學的方法來應對并解決現實中來自不同行業(yè)的挑戰(zhàn),為以后勝任數據科學家的角色做好準備。

 

一. 培訓內容

       通過講師在課堂上的講解,以及實操練習,學員將學習以下內容:

  •  如何獲取、清洗和綜合來自不同數據源的數據,為分析提供統(tǒng)一全面的視圖。
  •  了解用于從海量數據探索潛在商業(yè)價值的統(tǒng)計方法。
  •  掌握何時將Hadoop streaming 和Apache Spark 嵌入搭建數據科學所需的數據產品流水線中去。
  •  了解數據科學項目所需的機器學習技術。
  •  如何使用SparkMLlib實現和管理推薦系統(tǒng),如何設置和評估結果。
  •  了解將新開發(fā)的分析項目部署到大規(guī)模產品環(huán)境中可能碰到的擴展能力問題及如何規(guī)避。


 

二. 培訓對象及學員基礎

本課程面向軟件開發(fā)人員、大數據工程師以及高級數據分析人員。學員需掌握使用Linux環(huán)境的基本技能,建議具備Hadoop方面的基本知識或經驗:HDFS,MapReduce,HadoopStreaming,以及ApacheHive等,并能熟練使用至少一種腳本編程語言,建議Python,或者熟悉其他語言譬如Perl或Ruby。

 

三. 數據科學家認證

在完成本課程的學習后,我們鼓勵培訓學員繼續(xù)深造并注冊參加Cloudera認證專家:數據科學家(CCP:DS)考試。獲得該認證可以讓學員脫穎而出;它可以幫助學員成為該領域的精英,并向雇主和客戶提供與您的專業(yè)知識相關的確鑿證據。

 

四. 課程大綱

1. 引言

  •  課程簡介
  •  Cloudera簡介
  •  課程安排
  •  介紹


2. 數據科學概述

  •  什么是數據科學?
  •  數據科學日益增長的需求
  •  數據科學家的角色


3. 使用案例

  •  金融行業(yè)
  •  零售行業(yè)
  •  廣告行業(yè)
  •  國防和情報行業(yè)
  •  電信及公用事業(yè)行業(yè)
  •  醫(yī)療健康及制藥行業(yè)


4. 項目生命周期

  •  項目生命周期的流程步驟
  •  實操練習應用場景說明


5. 數據采集

  •  從哪里獲取數據
  •  數據采集技術


6. 評估輸入數據

  •  數據格式
  •  數據容量
  •  數據質量


7. 數據轉換

  •  文件格式轉換
  •  連接數據集
  •  數據匿名化


8. 數據分析和統(tǒng)計方法

  •  統(tǒng)計與概率之間的關系
  •  描述性統(tǒng)計
  •  推理性統(tǒng)計
  •  向量和矩陣


9. 機器學習的基礎知識

  •  概述
  •  機器學習的3C分類
  •  數據和算法的重要性
  •  聚焦:樸素貝葉斯分類器


10. 推薦系統(tǒng)概述

  •  什么是推薦系統(tǒng)
  •  協(xié)同過濾的類型
  •  推薦系統(tǒng)的局限性
  •  基本概念


11. Apache Spark和MLlib簡介

  •  什么是Apache Spark ?
  •  MapReduce的比較
  •  Apache Spark基礎知識
  •  Spark的MLlib Package


12. 通過MLlib實現推薦系統(tǒng)

  •  針對潛在因子推薦系統(tǒng)的ALS方法概述
  •  ALS推薦系統(tǒng)超參數
  •  MLlib中構建推薦系統(tǒng)
  •  調整超參數
  •  加權


13. 實驗和評估

  •  設計有效的實驗
  •  進行有效的實驗
  •  推薦系統(tǒng)的用戶界面


14. 生產部署和超越


  •  生產部署
  •  提升數據產品擴展能力技巧和技術
  •  結果匯總和可視化
  •  如何改進
  •  推薦系統(tǒng)未來展望


15. 總結


Cloudera大數據課程體系



<
在線咨詢 ×

您好,請問有什么可以幫您?我們將竭誠提供最優(yōu)質服務!