實用機器學習 (Real-world Machine Learning) 实用机器学习 – jashliao部落格

實用機器學習 (Real-world Machine Learning) 实用机器学习

資料來源:

https://www.tenlong.com.tw/products/9787111569220?list_name=srh
https://jikbook.com/541.html
http://www.w3cjava.com/wp-content/themes/begin/down.php?id=8617
https://pan.baidu.com/s/1d-X0p-652d5YQtYnLWN7VA ( https://bit.ly/2TOegOv ) knrb
https://pan.baidu.com/s/18oNWZZcqmu0Pa61tAvYCkA ( https://bit.ly/3atO7v1 ) vvcc
https://github.com/brinkar/real-world-machine-learning

GITHUB:https://github.com/jash-git/Jash-good-idea-20200304-001/tree/master/實用機器學習 (REAL-WORLD MACHINE LEARNING) 实用机器学习

第1部分機器學習工作流程

第1章什麼是機器學習
1.1理解機器學習
1.2使用數據進行決策
1.2.1傳統方法
1.2.2機器學習方法
1.2.3機器學習的五大優勢
1.2.4面臨的挑戰
1.3跟踪機器學習流程：從數據到部署
1.3.1數據集合和預處理
1.3.2數據構建模型
1.3.3模型性能評估
1.3.4模型性能優化
1.4提高模型性能的高級技巧
1.4.1數據預處理和特徵工程
1.4.2用在線算法持續改進模型
1.4.3具有數據量和速度的規模化模型
1.5總結
1.6本章術語
第2章實用數據處理
2.1起步：數據收集
2.1.1應包含哪些特徵
2.1.2如何獲得目標變量的真實值
2.1.3需要多少訓練數據
2.1.4訓練集是否有足夠的代表性
2.2數據預處理
2.2.1分類特徵
2.2.2缺失數據處理
2.2.3簡單特徵工程
2.2.4數據規範化
2.3數據可視化
2.3.1馬賽克圖
2.3.2盒圖
2.3.3密度圖
2.3.4散點圖
2.4總結
2.5本章術語
第3章建模和預測
3.1基礎機器學習建模
3.1.1尋找輸入和目標間的關係
3.1.2尋求好模型的目的
3.1.3建模方法類型
3.1.4有監督和無監督學習
3.2分類：把數據預測到桶中
3.2.1構建分類器並預測
3.2.2非線性數據與復雜分類
3.2.3多類別分類
3.3回歸：預測數值型數據
3.3.1構建回歸器並預測
3.3.2對複雜的非線性數據進行回歸
3.4總結
3.5本章術語
第4章模型評估與優化
4.1模型泛化：評估新數據的預測準確性
4.1.1問題：過度擬合與樂觀模型
4.1.2解決方案：交叉驗證
4.1.3交叉驗證的注意事項
4.2分類模型評估
4.2.1分類精度和混淆矩陣
4.2.2準確度權衡與ROC曲線
4.2.3多類別分類
4.3回歸模型評估
4.3.1使用簡單回歸性能指標
4.3.2檢驗殘差
4.4參數調整優化模型
4.4.1機器學習算法和它們的調整參數
4.4.2網格搜索
4.5總結
4.6本章術語
第5章基礎特徵工程
5.1動機：為什麼特徵工程很有用
5.1.1什麼是特徵工程
5.1.2使用特徵工的5個原因
5.1.3特徵工程與領域專業知識
5.2基本特徵工程過程
5.2.1實例：事件推薦
5.2.2處理日期和時間特徵
5.2.3處理簡單文本特徵
5.3特徵選擇
5.3.1前向選擇和反向消除
5.3.2數據探索的特徵選擇
5.3.3實用特徵選擇實例
5.4總結
5.5本章術語
第2部分實際應用
第6章案例：NYC出租車數據
6.1數據：NYC出租車旅程和收費信息
6.1.1數據可視化
6.1.2定義問題並準備數據
6.2建模
6.2.1基本線性模型
6.2.2非線性分類器
6.2.3包含分類特徵
6.2.4包含日期—時間特徵
6.2.5模型的啟示
6.3總結
6.4本章術語
第7章高級特徵工程
7.1高級文本特徵
7.1.1詞袋模型
7.1.2主題建模
7.1.3內容拓展
7.2圖像特徵
7.2.1簡單圖像特徵
7.2.2提取物體和形狀
7.3時間序列特徵
7.3.1時間序列數據的類型
7.3.2時間序列數據的預測
7.3.3經典時間序列特徵
7.3.4事件流的特徵工程
7.4總結
7.5本章術語
第8章NLP高級案例：電影評論情感預測
8.1研究數據應用場景
8.1.1數據集初探
8.1.2檢查數據
8.1.3應用場景有哪些
8.2提取基本NLP特徵並構建初始模型
8.2.1詞袋特徵
8.2.2用樸素貝葉斯算法構建模型
8.2.3tf— idf算法規範詞袋特徵
8.2.4優化模型參數
8.3高級算法和模型部署的考慮
8.3.1word2vec特徵
8.3.2隨機森林模型
8.4總結
8.5本章術語
第9章擴展機器學習流程
9.1擴展前需考慮的問題
9.1 .1識別關鍵點
9.1.2選取訓練數據子樣本代替擴展性
9.1.3可擴展的數據管理系統
9.2機器學習建模流程擴展
9.3預測擴展
9.3.1預測容量擴展
9.3.2預測速度擴展
9.4總結
9.5本章術語
第10章案例：數字顯示廣告
10.1顯示廣告
10.2數字廣告數據
10.3特徵工程和建模策略
10.4數據大小和形狀
10.5奇異值分解
10.6資源估計和優化
10.7建模
10.8K近鄰算法
10.9隨機森林算法
10.10其他實用考慮
10.11總結
10.12本章術語
10.13摘要和結論
附錄常用機器學習算法

————————

第1章什么是机器学习

1.1理解机器学习
1.2使用数据进行决策
1.2.1传统方法
1.2.2机器学习方法
1.2.3机器学习的五大优势
1.2.4面临的挑战
1.3跟踪机器学习流程：从数据到部署
1.3.1数据集合和预处理
1.3.2数据构建模型
1.3.3模型性能评估
1.3.4模型性能优化
1.4提高模型性能的高级技巧
1.4.1数据预处理和特征工程
1.4.2用在线算法持续改进模型
1.4.3具有数据量和速度的规模化模型
1.5总结
1.6本章术语
第2章实用数据处理
2.1起步：数据收集
2.1.1应包含哪些特征
2.1.2如何获得目标变量的真实值
2.1.3需要多少训练数据
2.1.4训练集是否有足够的代表性
2.2数据预处理
2.2.1分类特征
2.2.2缺失数据处理
2.2.3简单特征工程
2.2.4数据规范化
2.3数据可视化
2.3.1马赛克图
2.3.2盒图
2.3.3密度图
2.3.4散点图
2.4总结
2.5本章术语
第3章建模和预测
3.1基础机器学习建模
3.1.1寻找输入和目标间的关系
3.1.2寻求好模型的目的
3.1.3建模方法类型
3.1.4有监督和无监督学习
3.2分类：把数据预测到桶中
3.2.1构建分类器并预测
3.2.2非线性数据与复杂分类
3.2.3多类别分类
3.3回归：预测数值型数据
3.3.1构建回归器并预测
3.3.2对复杂的非线性数据进行回归
3.4总结
3.5本章术语
第4章模型评估与优化
4.1模型泛化：评估新数据的预测准确性
4.1.1问题：过度拟合与乐观模型
4.1.2解决方案：交叉验证
4.1.3交叉验证的注意事项
4.2分类模型评估
4.2.1分类精度和混淆矩阵
4.2.2准确度权衡与ROC曲线
4.2.3多类别分类
4.3回归模型评估
4.3.1使用简单回归性能指标
4.3.2检验残差
4.4参数调整优化模型
4.4.1机器学习算法和它们的调整参数
4.4.2网格搜索
4.5总结
4.6本章术语
第5章基础特征工程
5.1动机：为什么特征工程很有用
5.1.1什么是特征工程
5.1.2使用特征工程的5个原因
5.1.3特征工程与领域专业知识
5.2基本特征工程过程
5.2.1实例：事件推荐
5.2.2处理日期和时间特征
5.2.3处理简单文本特征
5.3特征选择
5.3.1前向选择和反向消除
5.3.2数据探索的特征选择
5.3.3实用特征选择实例
5.4总结
5.5本章术语
第2部分实际应用
第6章案例：NYC出租车数据
6.1数据：NYC出租车旅程和收费信息
6.1.1数据可视化
6.1.2定义问题并准备数据
6.2建模
6.2.1基本线性模型
6.2.2非线性分类器
6.2.3包含分类特征
6.2.4包含日期-时间特征
6.2.5模型的启示
6.3总结
6.4本章术语
第7章高级特征工程
7.1高级文本特征
7.1.1词袋模型
7.1.2主题建模
7.1.3内容拓展
7.2图像特征
7.2.1简单图像特征
7.2.2提取物体和形状
7.3时间序列特征
7.3.1时间序列数据的类型
7.3.2时间序列数据的预测
7.3.3经典时间序列特征
7.3.4事件流的特征工程
7.4总结
7.5本章术语
第8章NLP高级案例：电影评论情感预测
8.1研究数据和应用场景
8.1.1数据集初探
8.1.2检查数据
8.1.3应用场景有哪些
8.2提取基本NLP特征并构建初始模型
8.2.1词袋特征
8.2.2用朴素贝叶斯算法构建模型
8.2.3tf-idf算法规范词袋特征
8.2.4优化模型参数
8.3高级算法和模型部署的考虑
8.3.1word2vec特征
8.3.2随机森林模型
8.4总结
8.5本章术语
第9章扩展机器学习流程
9.1扩展前需考虑的问题
9.1.1识别关键点
9.1.2选取训练数据子样本代替扩展性
9.1.3可扩展的数据管理系统
9.2机器学习建模流程扩展
9.3预测扩展
9.3.1预测容量扩展
9.3.2预测速度扩展
9.4总结
9.5本章术语
第10章案例：数字显示广告
10.1显示广告
10.2数字广告数据
10.3特征工程和建模策略
10.4数据大小和形状
10.5奇异值分解
10.6资源估计和优化
10.7建模
10.8K近邻算法
10.9随机森林算法
10.10其他实用考虑
10.11总结
10.12本章术语
10.13摘要和结论
附录常用机器学习算法
名词术语中英文对照