機器學習開發流程與參數調校

深智數位資訊講堂 2021-08-26 15:31

深度學習-最佳入們邁向AI專題實戰看更多請點我

一般來說，機器學習開發流程(Machine learning workflow)，有許多種建議的模型，例如資料探勘(Data Mining)流程，包括CRISP-DM (cross-industry standard process for data mining,)、Google Cloud建議的流程...等，個人偏好的流程如下：

概分為10個步驟，不含較高層次的企業需求瞭解(Business Understanding)，只包括實際開發的步驟：

蒐集資料，彙整為資料集(Dataset)。
資料清理(Data Cleaning)、資料探索與分析(Exploratory Data Analysis, EDA)：EDA通常是以描述統計量及統計圖觀察資料的分佈，瞭解資料的特性、極端值(Outlier)、變數之間的關聯性。
特徵工程(Feature Engineering)：原始蒐集的資料未必是影響預測目標的關鍵因素，有時候需要進行資料轉換，以找到關鍵的影響變數。
資料切割(Data Split)：切割為訓練資料(Training Data)及測試資料(Test Data)，一份資料提供模型訓練之用，另一份資料則用在衡量模型效能，例如準確度，切割的主要原因是確保測試資料不會參與訓練，以維持其公正性，即 Out-of-Sample Test。
選擇演算法(Learning Algorithms)：依據問題的類型選擇適合的演算法。
模型訓練(Model Training)：以演算法及訓練資料，進行訓練產出模型。
模型計分(Score Model)：計算準確度等效能指標，評估模型的準確性。
模型評估(Evaluate Model)：比較多個參數組合、多個演算法的準確度，找到最佳參數與演算法。
佈署(Deploy)：複製最佳模型至正式環境(Production Environment)，製作使用介面或提供API，通常以網頁服務(Web Services) 作為預測的API。
預測(Predict)：用戶端傳入新資料或檔案，系統以模型進行預測，傳回預測結果。

其中第8個步驟 -- 模型評估(Evaluate Model)，要比較多個模型的效能，可能是採用不同的演算法或不同的超參數(Hyperparameter)，如果是後者，要如何取得最佳參數值呢? 如要同時調校多個超參數，有一些套件可以幫忙，包括Keras Tuner、hyperopt、Ray Tune、Ax…等。本文介紹Keras Tuner，步驟如下：

可以設置一些參數組合，每一組合建立一個模型，再比較各個模型的效能，參數測試範圍的設定有下列方式：

Boolean：真/假。
Choice：多個設定選項。
Int/Float：整數/浮點數的連續範圍。
Fixed：測試所有參數(tune_new_entries=True)，除了目前的參數，也可依賴其他參數(parent_name)的設定。只有當其他參數值為特定值時，這個參數才會生效。
conditional_scope：條件式，類似Fixed，依賴其他參數，只有當其他參數值為特定值時，這個條件才會生效。

測試方法(Tuners)有下列幾種，可擇一使用：