首頁 電腦網路 機器學習開發流程與參數調校

分享
文章

機器學習開發流程與參數調校

DeepMind
機器學習開發流程與參數調校

深度學習-最佳入們邁向AI專題實戰 看更多請點我

一般來說,機器學習開發流程(Machine learning workflow),有許多種建議的模型,例如資料探勘(Data Mining)流程,包括CRISP-DM (cross-industry standard process for data mining,)、Google Cloud建議的流程...等,個人偏好的流程如下:

概分為10個步驟,不含較高層次的企業需求瞭解(Business Understanding),只包括實際開發的步驟:

  1. 蒐集資料,彙整為資料集(Dataset)。
  2. 資料清理(Data Cleaning)、資料探索與分析(Exploratory Data Analysis, EDA):EDA通常是以描述統計量及統計圖觀察資料的分佈,瞭解資料的特性、極端值(Outlier)、變數之間的關聯性。
  3. 特徵工程(Feature Engineering):原始蒐集的資料未必是影響預測目標的關鍵因素,有時候需要進行資料轉換,以找到關鍵的影響變數。
  4. 資料切割(Data Split):切割為訓練資料(Training Data)及測試資料(Test Data),一份資料提供模型訓練之用,另一份資料則用在衡量模型效能,例如準確度,切割的主要原因是確保測試資料不會參與訓練,以維持其公正性,即 Out-of-Sample Test。
  5. 選擇演算法(Learning Algorithms):依據問題的類型選擇適合的演算法。
  6. 模型訓練(Model Training):以演算法及訓練資料,進行訓練產出模型。
  7. 模型計分(Score Model):計算準確度等效能指標,評估模型的準確性。
  8. 模型評估(Evaluate Model):比較多個參數組合、多個演算法的準確度,找到最佳參數與演算法。
  9. 佈署(Deploy):複製最佳模型至正式環境(Production Environment),製作使用介面或提供API,通常以網頁服務(Web Services) 作為預測的API。
  10. 預測(Predict):用戶端傳入新資料或檔案,系統以模型進行預測,傳回預測結果。

其中第8個步驟 -- 模型評估(Evaluate Model),要比較多個模型的效能,可能是採用不同的演算法或不同的超參數(Hyperparameter),如果是後者,要如何取得最佳參數值呢? 如要同時調校多個超參數,有一些套件可以幫忙,包括Keras Tuner、hyperopt、Ray Tune、Ax…等。本文介紹Keras Tuner,步驟如下:

 

可以設置一些參數組合,每一組合建立一個模型,再比較各個模型的效能,參數測試範圍的設定有下列方式:

  • Boolean:真/假。
  • Choice:多個設定選項。
  • Int/Float:整數/浮點數的連續範圍。
  • Fixed:測試所有參數(tune_new_entries=True),除了目前的參數,也可依賴其他參數(parent_name)的設定。只有當其他參數值為特定值時,這個參數才會生效。
  • conditional_scope:條件式,類似Fixed,依賴其他參數,只有當其他參數值為特定值時,這個條件才會生效。

測試方法(Tuners)有下列幾種,可擇一使用:

  • Hyperband:測試所有組合。
  • RandomSearch:若測試範圍過大,可隨機抽樣部份組合,加以測試。
  • BayesianOptimization:搭配高斯過程(Gaussian process),依照前次的測試結果,決定下次的測試內容。

測試結果如下圖表,可觀察每一參數組合的優劣,選取其中的最佳參數組合。

 

相關程式可詳閱『深度學習-最佳入們邁向AI專題實戰』一書說明。

FaceBook
最新網路流行話題掌握 歡迎一起加入
分享至Facebook

FACEBOOK粉絲留言版

你可能會想看的文章
機器學習開發流程與參數調校 它抓得住你!大數據縮影,看透你的人生 明新科大與頂尖國際合作 「BIM建模師認證中心」掛牌簽約 智慧城鄉Open API觀光資料共創工作坊 活動花絮 投資台股必讀指南!如何預測選股模型? Appier 分享 2021 年值得關注的人工智慧預測及其趨勢 2019 AI新銳領航者競賽 政大台大得冠軍 臺大跨國團隊打造AI模型協助抗疫 成果登國際頂尖期刊 飛利浦與荷蘭拉德伯德大學醫學中心發佈首個糖尿病模型應用 命中率百分百!大數據選舉預測模型精準預測6都選情 國家級腦瘤人工智慧診斷模型研發成功! 臺北榮總結合交大陽明等跨國合作 用眼睛「吃」的商機?食品模型大揭密,打趴3D列印的衝擊在於... 【專訪】香港商奧東有限公司台灣分公司董事總經理羅子亮:我們相信數據背後不只有金融服務上的意義! 全球房顫登記研究公佈逾17000名新確診房顫患者兩年研究結果資料 增進民眾航空新知 古月民俗館軍事模型展登場  玩二戰軍事模型入迷 中正大學學生玩出名堂 有數位轉型、運用 AI 的企業多賺千億美元!AWS 提「資料飛輪」理論助企業成長 《PUI PUI天竺鼠車車》推出超療癒系黏土人組裝模型 後「藝」情時代 陽明交大應藝所聯展透過科技挹注藝術設計新能量 後「藝」情時代 陽明交大應藝所聯展透過科技挹注藝術設計新能量
大家都在看
被害者至少4人 林秉樞手機查扣「... 「Omicron」怎麼唸? 陳時... 高嘉瑜遭施暴...林秉樞「早已預... 還原恐怖暴力夜!高嘉瑜「我都覺得... 29歲女淪桶屍!醋夫悶殺妻「對折... 台中工人下水道施工 敲擊突跌入水... 男友稱「第一次打女人」…高嘉瑜信... 71歲資深男星蔡頭驚傳「罹患肝癌... 高嘉瑜遭家暴!男友稱市井小民 剛...

首頁 電腦網路 機器學習開發流程與參數調校