課程簡介
基于Python的數(shù)據(jù)分析與數(shù)據(jù)挖掘課程大綱
章節(jié) |
課程內(nèi)容 |
知識點 |
入門篇 |
||
一、數(shù)據(jù)挖掘概述 |
1.1 什么是數(shù)據(jù)挖掘 1.2 數(shù)據(jù)挖掘的項目流程 |
|
二、數(shù)據(jù)挖掘常用Python工具入門 |
2.1 為什么選擇Python |
|
2.2 常用的Python工具 |
Numpy Pandas Scikit.learn |
|
數(shù)據(jù)篇 |
||
三、數(shù)據(jù)準備 |
3.1 使用Pandas存取數(shù)據(jù) |
CSV/TSV JSON MySQL |
3.2 讓數(shù)據(jù)可用 |
數(shù)據(jù)抽取 數(shù)據(jù)合并 數(shù)據(jù)清洗 數(shù)據(jù)Shuffle與隨機采樣 文本操作 |
|
四、數(shù)據(jù)探索 |
4.1 數(shù)據(jù)探索的重要性 |
|
4.2 認識數(shù)據(jù) |
變量類型、數(shù)據(jù)類型與變量種類 數(shù)據(jù)自洽性驗證 數(shù)據(jù)的描述性統(tǒng)計 單變量統(tǒng)計方法 多變量分析 |
|
4.3 從數(shù)據(jù)到特征 – 特征工程 |
基礎(chǔ)特征的生成 數(shù)據(jù)歸一化 數(shù)據(jù)變換 數(shù)據(jù)降維 PCA LDA 高階特征的生成 |
|
模型篇 |
||
五、常用模型 |
5.1 無監(jiān)督方法 |
聚類分析 k-means GMM 關(guān)聯(lián)規(guī)則 |
5.2 有監(jiān)督方法 |
kNN 支持向量機 決策樹 邏輯回歸 人工神經(jīng)網(wǎng)絡(luò) |
|
算法篇 |
||
六、如何求解模型 |
6.1 解析方法 |
多元函數(shù)極值定理 |
6.2 數(shù)值方法 |
批訓(xùn)練方法 在線訓(xùn)練方法 |
|
工程篇 |
||
七、點數(shù)成金 – Bigger Than Bigger |
7.1數(shù)據(jù)挖掘的工程化 |
|
7.2 第yi代機器學(xué)習(xí)系統(tǒng) - Map-Reduce框架 |
Hadoop Spark |
|
7.3 第二代機器學(xué)習(xí)系統(tǒng) - Data Flow框架 |
TensorFlow Apache Beam |