機器學習開發流程與參數調校

機器學習開發流程與參數調校

深智數位資訊講堂 2021-08-26 15:31

深度學習-最佳入們邁向AI專題實戰 看更多請點我

一般來說,機器學習開發流程(Machine learning workflow),有許多種建議的模型,例如資料探勘(Data Mining)流程,包括CRISP-DM (cross-industry standard process for data mining,)、Google Cloud建議的流程...等,個人偏好的流程如下:

概分為10個步驟,不含較高層次的企業需求瞭解(Business Understanding),只包括實際開發的步驟:

  1. 蒐集資料,彙整為資料集(Dataset)。
  2. 資料清理(Data Cleaning)、資料探索與分析(Exploratory Data Analysis, EDA):EDA通常是以描述統計量及統計圖觀察資料的分佈,瞭解資料的特性、極端值(Outlier)、變數之間的關聯性。
  3. 特徵工程(Feature Engineering):原始蒐集的資料未必是影響預測目標的關鍵因素,有時候需要進行資料轉換,以找到關鍵的影響變數。
  4. 資料切割(Data Split):切割為訓練資料(Training Data)及測試資料(Test Data),一份資料提供模型訓練之用,另一份資料則用在衡量模型效能,例如準確度,切割的主要原因是確保測試資料不會參與訓練,以維持其公正性,即 Out-of-Sample Test。
  5. 選擇演算法(Learning Algorithms):依據問題的類型選擇適合的演算法。
  6. 模型訓練(Model Training):以演算法及訓練資料,進行訓練產出模型。
  7. 模型計分(Score Model):計算準確度等效能指標,評估模型的準確性。
  8. 模型評估(Evaluate Model):比較多個參數組合、多個演算法的準確度,找到最佳參數與演算法。
  9. 佈署(Deploy):複製最佳模型至正式環境(Production Environment),製作使用介面或提供API,通常以網頁服務(Web Services) 作為預測的API。
  10. 預測(Predict):用戶端傳入新資料或檔案,系統以模型進行預測,傳回預測結果。

其中第8個步驟 -- 模型評估(Evaluate Model),要比較多個模型的效能,可能是採用不同的演算法或不同的超參數(Hyperparameter),如果是後者,要如何取得最佳參數值呢? 如要同時調校多個超參數,有一些套件可以幫忙,包括Keras Tuner、hyperopt、Ray Tune、Ax…等。本文介紹Keras Tuner,步驟如下:

 

可以設置一些參數組合,每一組合建立一個模型,再比較各個模型的效能,參數測試範圍的設定有下列方式:

  • Boolean:真/假。
  • Choice:多個設定選項。
  • Int/Float:整數/浮點數的連續範圍。
  • Fixed:測試所有參數(tune_new_entries=True),除了目前的參數,也可依賴其他參數(parent_name)的設定。只有當其他參數值為特定值時,這個參數才會生效。
  • conditional_scope:條件式,類似Fixed,依賴其他參數,只有當其他參數值為特定值時,這個條件才會生效。

測試方法(Tuners)有下列幾種,可擇一使用:

  • Hyperband:測試所有組合。
  • RandomSearch:若測試範圍過大,可隨機抽樣部份組合,加以測試。
  • BayesianOptimization:搭配高斯過程(Gaussian process),依照前次的測試結果,決定下次的測試內容。

測試結果如下圖表,可觀察每一參數組合的優劣,選取其中的最佳參數組合。

 

相關程式可詳閱『深度學習-最佳入們邁向AI專題實戰』一書說明。

熱門文章
直擊!醫師父女熱血救人!顏瑞昇還原現場:救人是我們天職
直擊!醫師父女熱血救人!顏瑞昇還原現場:救人是我們天職

中天新聞

無業男張文無就醫紀錄!曾當月薪4萬保全「母有小額資助」
無業男張文無就醫紀錄!曾當月薪4萬保全「母有小額資助」

中天新聞

新北也出現張文模仿犯?19歲男噴「中山砍人不揪」遭送辦
新北也出現張文模仿犯?19歲男噴「中山砍人不揪」遭送辦

中天新聞

張文恐攻案釀4死!他上前制止卻喪命 妻淚喊「生前就很有正義感」
張文恐攻案釀4死!他上前制止卻喪命 妻淚喊「生前就很有正義感」

CTWANT

張文父母需要「變賣家產」賠償被害人? 律師解答了
張文父母需要「變賣家產」賠償被害人? 律師解答了

CTWANT

爸當工程師、媽是會計 張文「家境小康」不滿爸管太嚴2年不跟家人聯絡
爸當工程師、媽是會計 張文「家境小康」不滿爸管太嚴2年不跟家人聯絡

CTWANT

張文失業1年、2年無就醫紀錄「資金來源成謎」 母偶爾小額匯款
張文失業1年、2年無就醫紀錄「資金來源成謎」 母偶爾小額匯款

CTWANT

彭振聲、邵琇珮力求法官減刑 他100天失去2至親今仍難平復
彭振聲、邵琇珮力求法官減刑 他100天失去2至親今仍難平復

CTWANT

「開車撞死張文會怎樣」掀熱議 律師解答
「開車撞死張文會怎樣」掀熱議 律師解答

中天新聞

張文北捷、中山站商圈瘋狂攻擊案最新!檢方宣布解剖時間
張文北捷、中山站商圈瘋狂攻擊案最新!檢方宣布解剖時間

中天新聞

北捷遭恐攻秒啟動疏散模式 閘門顯示「7字」被網讚爆
北捷遭恐攻秒啟動疏散模式 閘門顯示「7字」被網讚爆

中天新聞

中山站遭砍騎士生前緊握手機「最後畫面」曝 網淚:疑想給家人交代
中山站遭砍騎士生前緊握手機「最後畫面」曝 網淚:疑想給家人交代

CTWANT

57歲余家昶捨命擋下張文「一整箱汽油彈」 阻斷一場大屠殺
57歲余家昶捨命擋下張文「一整箱汽油彈」 阻斷一場大屠殺

中天新聞

張文冷血奪3命!國中求學經歷曝光 母校呼籲勿標籤化
張文冷血奪3命!國中求學經歷曝光 母校呼籲勿標籤化

中天新聞

高雄「老牌周燒肉飯」違反勞基法挨告 判賠2退休員工逾百萬
高雄「老牌周燒肉飯」違反勞基法挨告 判賠2退休員工逾百萬

CTWANT

58
0
分享