財經

AI資料安全Tokenization創新，訓練資料濫用爭議卻未歇

商商傳媒 2026-06-26 23:06 📖 3 分鐘閱讀

商傳媒｜責任編輯／綜合外電報導

隨著人工智慧（AI）技術快速發展，企業在導入AI應用時，面臨如何安全運用敏感資料、同時確保模型訓練資料合法性與倫理的兩大挑戰。一方面，AI資料代幣化（Tokenization）被視為兼顧資料利用與安全的重要創新；另一方面，AI產業龍頭們卻持續捲入訓練資料著作權與「對抗性蒸餾」（adversarial distillation）等爭議。

資料代幣化（Tokenization）技術，目的在於讓敏感資料能在不損及實用性及合規性的前提下，安全地用於AI工作負載中。過去，資安團隊為確保資料安全往往採取限制存取的方式，但這與AI時代追求的業務速度產生巨大衝突。美國金融控股公司Capital One即開發了企業級代幣化解決方案 Capital One Databolt，能將敏感資料替換為非敏感的替代符號，同時保留其格式。這意味著現有應用程式和資料庫不需更動，AI模型仍能利用代幣化後的資料進行訓練，且預測準確度可達99.7%，遠高於資料遮蔽（masking）技術的50%。Capital One Software產品管理總監 Vincent Goveas 指出，代幣化能將資料價值與風險分離，讓企業安全地運用100%的資料潛力。

然而，AI模型訓練資料的著作權爭議卻持續延燒。多家大型出版商已於週三對OpenAI和微軟提起訴訟，指控其AI模型如ChatGPT和Copilot，透過「刮取」網際網路上的受著作權保護材料進行訓練。訴訟聲稱，被告公司從中獲得數千億美元的市場價值，卻未支付出版商任何費用。AI公司普遍辯稱其行為符合現行的「合理使用」（fair use）法律。

此外，AI模型被「惡意蒸餾」的指控也浮出檯面。Anthropic公司於週三發函給美國聯邦官員，指控中國電商集團阿里巴巴「非法」利用其Claude模型來訓練新的AI模型。Anthropic聲稱，從今年4月底至6月初，阿里巴巴使用近2萬5千個偽造的Claude帳戶，進行了數千萬次的互動，將這些互動作為阿里巴巴AI系統的原始訓練資料。此過程被稱為「對抗性蒸餾」，其技術原理是透過與既有模型互動來訓練新AI模型。Anthropic先前也曾指控中國AI新創DeepSeek、月之暗面（Moonshot）和MiniMax有類似行為。微軟AI部門執行長穆斯塔法·蘇萊曼（Mustafa Suleyman）則指出，微軟的MAI-Thinking-1模型訓練過程「絕對沒有經過蒸餾」。

美國白宮科學和技術政策辦公室主任邁克爾·克拉齊奧斯（Michael Kratsios）曾於4月發布備忘錄，表示川普政府將採取措施，包括與私人企業合作，以打擊「工業規模的美國前沿AI系統蒸餾行動」，並特別點名中國。