商傳媒|責任編輯/綜合外電報導

隨著人工智慧(AI)技術快速發展,企業在導入AI應用時,面臨如何安全運用敏感資料、同時確保模型訓練資料合法性與倫理的兩大挑戰。一方面,AI資料代幣化(Tokenization)被視為兼顧資料利用與安全的重要創新;另一方面,AI產業龍頭們卻持續捲入訓練資料著作權與「對抗性蒸餾」(adversarial distillation)等爭議。

資料代幣化(Tokenization)技術,目的在於讓敏感資料能在不損及實用性及合規性的前提下,安全地用於AI工作負載中。過去,資安團隊為確保資料安全往往採取限制存取的方式,但這與AI時代追求的業務速度產生巨大衝突。美國金融控股公司Capital One即開發了企業級代幣化解決方案 Capital One Databolt,能將敏感資料替換為非敏感的替代符號,同時保留其格式。這意味著現有應用程式和資料庫不需更動,AI模型仍能利用代幣化後的資料進行訓練,且預測準確度可達99.7%,遠高於資料遮蔽(masking)技術的50%。Capital One Software產品管理總監 Vincent Goveas 指出,代幣化能將資料價值與風險分離,讓企業安全地運用100%的資料潛力。

然而,AI模型訓練資料的著作權爭議卻持續延燒。多家大型出版商已於週三對OpenAI和微軟提起訴訟,指控其AI模型如ChatGPT和Copilot,透過「刮取」網際網路上的受著作權保護材料進行訓練。訴訟聲稱,被告公司從中獲得數千億美元的市場價值,卻未支付出版商任何費用。AI公司普遍辯稱其行為符合現行的「合理使用」(fair use)法律。

此外,AI模型被「惡意蒸餾」的指控也浮出檯面。Anthropic公司於週三發函給美國聯邦官員,指控中國電商集團阿里巴巴「非法」利用其Claude模型來訓練新的AI模型。Anthropic聲稱,從今年4月底至6月初,阿里巴巴使用近2萬5千個偽造的Claude帳戶,進行了數千萬次的互動,將這些互動作為阿里巴巴AI系統的原始訓練資料。此過程被稱為「對抗性蒸餾」,其技術原理是透過與既有模型互動來訓練新AI模型。Anthropic先前也曾指控中國AI新創DeepSeek、月之暗面(Moonshot)和MiniMax有類似行為。微軟AI部門執行長 穆斯塔法·蘇萊曼(Mustafa Suleyman)則指出,微軟的MAI-Thinking-1模型訓練過程「絕對沒有經過蒸餾」。

美國白宮科學和技術政策辦公室主任 邁克爾·克拉齊奧斯(Michael Kratsios)曾於4月發布備忘錄,表示川普政府將採取措施,包括與私人企業合作,以打擊「工業規模的美國前沿AI系統蒸餾行動」,並特別點名中國。