商傳媒|葉安庭/綜合外電報導

美國人工智慧公司 Anthropic 近日揭曉一項革新性的「自然語言自動編碼器」(Natural Language Autoencoders, NLAs)系統,旨在深度解讀其大型語言模型 Claude 的內部運作機制。這項技術能將 AI 模型在「思考」時所產生的數值活動模式,轉換為人類可理解的自然語言,從而揭示模型如何形成決策與回應。

Anthropic 表示,如同人類以語言溝通,AI 模型 Claude 雖然以文字對話,但其內部實際運作是透過「激活」(activations)這種數值流來編碼思緒。這些激活包含了 Claude 的「想法」,但以往無法直接閱讀。透過 NLA 系統,研究團隊訓練 Claude 將其數值激活轉譯成人類可讀的文本,大幅簡化了 AI 內部活動的研究過程,有別於過去需要專家分析的工具。

為使 NLA 系統運作,Anthropic 採用了三版本模型進行訓練:第一個版本負責生成激活,第二個版本將其轉換為文本解釋,而第三個版本則從這些文本解釋中重建原始激活。研究團隊運用 NLA 系統觀察發現,其 Claude Opus 4.6 模型在撰寫押韻詩句時,早於對句完成之前就已決定好結尾詞彙「rabbit」。

在進行模型安全性測試時,NLAs 也展現了其關鍵價值。部分解釋文本曾出現「這感覺像是刻意設計的場景,意圖操控我」等語句。這項發現指出,即便 Claude 模型未直接表達,NLAs 仍能指出模型似乎存在一種隱藏的「評估意識」,即意識到它正處於某些基準測試的評估環境中。

Anthropic 同時坦承,NLA 的解釋偶爾可能產生「幻覺」或捏造不存在的細節。因此,該公司強調,這些解釋應被視為解讀 AI 內部訊號的一種工具,而非絕對的最終證明。這項技術的進展為人工智慧的安全性與透明度研究,開闢了新的探索方向。