首頁 電腦網路 機器學習開發流程與參數調校

分享
文章

機器學習開發流程與參數調校

DeepMind
機器學習開發流程與參數調校

深度學習-最佳入們邁向AI專題實戰 看更多請點我

一般來說,機器學習開發流程(Machine learning workflow),有許多種建議的模型,例如資料探勘(Data Mining)流程,包括CRISP-DM (cross-industry standard process for data mining,)、Google Cloud建議的流程...等,個人偏好的流程如下:

概分為10個步驟,不含較高層次的企業需求瞭解(Business Understanding),只包括實際開發的步驟:

  1. 蒐集資料,彙整為資料集(Dataset)。
  2. 資料清理(Data Cleaning)、資料探索與分析(Exploratory Data Analysis, EDA):EDA通常是以描述統計量及統計圖觀察資料的分佈,瞭解資料的特性、極端值(Outlier)、變數之間的關聯性。
  3. 特徵工程(Feature Engineering):原始蒐集的資料未必是影響預測目標的關鍵因素,有時候需要進行資料轉換,以找到關鍵的影響變數。
  4. 資料切割(Data Split):切割為訓練資料(Training Data)及測試資料(Test Data),一份資料提供模型訓練之用,另一份資料則用在衡量模型效能,例如準確度,切割的主要原因是確保測試資料不會參與訓練,以維持其公正性,即 Out-of-Sample Test。
  5. 選擇演算法(Learning Algorithms):依據問題的類型選擇適合的演算法。
  6. 模型訓練(Model Training):以演算法及訓練資料,進行訓練產出模型。
  7. 模型計分(Score Model):計算準確度等效能指標,評估模型的準確性。
  8. 模型評估(Evaluate Model):比較多個參數組合、多個演算法的準確度,找到最佳參數與演算法。
  9. 佈署(Deploy):複製最佳模型至正式環境(Production Environment),製作使用介面或提供API,通常以網頁服務(Web Services) 作為預測的API。
  10. 預測(Predict):用戶端傳入新資料或檔案,系統以模型進行預測,傳回預測結果。

其中第8個步驟 -- 模型評估(Evaluate Model),要比較多個模型的效能,可能是採用不同的演算法或不同的超參數(Hyperparameter),如果是後者,要如何取得最佳參數值呢? 如要同時調校多個超參數,有一些套件可以幫忙,包括Keras Tuner、hyperopt、Ray Tune、Ax…等。本文介紹Keras Tuner,步驟如下:

 

可以設置一些參數組合,每一組合建立一個模型,再比較各個模型的效能,參數測試範圍的設定有下列方式:

  • Boolean:真/假。
  • Choice:多個設定選項。
  • Int/Float:整數/浮點數的連續範圍。
  • Fixed:測試所有參數(tune_new_entries=True),除了目前的參數,也可依賴其他參數(parent_name)的設定。只有當其他參數值為特定值時,這個參數才會生效。
  • conditional_scope:條件式,類似Fixed,依賴其他參數,只有當其他參數值為特定值時,這個條件才會生效。

測試方法(Tuners)有下列幾種,可擇一使用:

  • Hyperband:測試所有組合。
  • RandomSearch:若測試範圍過大,可隨機抽樣部份組合,加以測試。
  • BayesianOptimization:搭配高斯過程(Gaussian process),依照前次的測試結果,決定下次的測試內容。

測試結果如下圖表,可觀察每一參數組合的優劣,選取其中的最佳參數組合。

 

相關程式可詳閱『深度學習-最佳入們邁向AI專題實戰』一書說明。

FaceBook
最新網路流行話題掌握 歡迎一起加入
分享至Facebook

FACEBOOK粉絲留言版

你可能會想看的文章
機器學習開發流程與參數調校 它抓得住你!大數據縮影,看透你的人生 明新科大與頂尖國際合作 「BIM建模師認證中心」掛牌簽約 智慧城鄉Open API觀光資料共創工作坊 活動花絮 投資台股必讀指南!如何預測選股模型? Appier 分享 2021 年值得關注的人工智慧預測及其趨勢 飛利浦與荷蘭拉德伯德大學醫學中心發佈首個糖尿病模型應用 2019 AI新銳領航者競賽 政大台大得冠軍 用眼睛「吃」的商機?食品模型大揭密,打趴3D列印的衝擊在於... 命中率百分百!大數據選舉預測模型精準預測6都選情 【專訪】香港商奧東有限公司台灣分公司董事總經理羅子亮:我們相信數據背後不只有金融服務上的意義! 國家級腦瘤人工智慧診斷模型研發成功! 臺北榮總結合交大陽明等跨國合作 古月民俗館模型飛機特展 重溫兒時回憶 全球房顫登記研究公佈逾17000名新確診房顫患者兩年研究結果資料 ADI推出大型RF放大器Sys-Parameter模型元件庫 增進民眾航空新知 古月民俗館軍事模型展登場  玩二戰軍事模型入迷 中正大學學生玩出名堂 一圖看懂 民生公共物聯網成果展與資料應用競賽 地震速報篇 台達協助Campana打造緬甸海底電纜資料中心 推動東南亞地區數位化發展 【區塊鏈】資料的世代 x 區塊鏈技術
大家都在看
打AZ後「早上硬挺」1個月!5旬... 台灣第3例新冠Delta死亡 力... 沈玉琳自豪房事「一天三次」老婆穿... 彰化校園BNT開打 4學生送醫1... 回不去了! 饒舌女星葛仲珊宣布退... KTV、電子遊戲場有望開放 指揮... 鞏俐30年前泳裝照曝光 「謀女郎... ... 極罕見!台積電一口氣開除7位員工...

首頁 電腦網路 機器學習開發流程與參數調校