人工智慧(AI)新創公司 Multiverse Computing 於今日推出一套創新服務,透過應用程式(App)與開發者應用程式介面(API),提供經過壓縮的 AI 模型。這項名為「CompactifAI」的技術,旨在大幅降低企業部署大型語言模型(LLM)所需的運算成本,進而提升 AI 技術的普及性與應用彈性。
近年來,AI 技術的發展伴隨高昂的基礎設施成本,成為許多企業導入 AI 的主要障礙。Multiverse Computing 的解決方案直接切入此痛點,宣稱在不犧牲模型準確性的前提下,能將 OpenAI、Meta、DeepSeek 及 Mistral AI 等主流供應商的模型進行優化壓縮,使其能在成本效益更高的硬體上運行,解決 AI 應用成本過高的問題。
AI成本挑戰與高效解決方案
由於 AI 伺服器與運算資源費用持續飆升,企業在評估 AI 投資報酬率時面臨巨大壓力。CompactifAI 技術利用量子啟發式方法,結合張量網路(tensor networks)和低秩分解(low-rank factorization),並輔以傳統的蒸餾(distillation)、結構性稀疏化(structured sparsity)及激進量化(aggressive quantization)等技術,有效縮小模型的記憶體與運算足跡。Multiverse Computing 自家測試顯示,壓縮後的模型能以顯著降低的成本達到與原始模型相近的效能。
這項服務的推出,正值業界對 AI 效率與永續性日益關注之際。訓練大型模型動輒耗費數千萬美元,且推論成本隨著使用量線性增長,使得企業對高效率解決方案的需求更為迫切。Multiverse Computing 認為,AI 產業的下一個階段並非在於追求更大的模型,而是讓現有模型能以更經濟、更有效率的方式大規模部署。
核心技術與應用模式
Multiverse Computing 提供兩種主要應用模式:使用者介面友善的「CompactifAI App」和針對開發者的「API 服務」。CompactifAI App 內建的聊天介面由名為「Gilda」的壓縮模型驅動,可在本地端離線運行。若裝置記憶體或儲存空間不足,其路由工具「Ash Nazg」會自動將請求轉傳至雲端模型,實現兼顧隱私與回應速度的邊緣 AI 體驗。
對於開發者而言,透過 API 服務可直接取用 Multiverse Computing 的壓縮模型目錄,並能實時監控用量。此服務允許開發者將壓縮模型直接整合至其應用程式中,無需處理客製化的企業協商或自行管理壓縮流程,大幅簡化 AI 部署的複雜度。這種模型中立(model-agnostic)的作法,讓企業能夠彈性選擇所需模型進行壓縮,避免鎖定單一生態系統。
市場競爭與未來展望
Multiverse Computing 執行長表示,公司此舉是將過去在量子運算與 AI 優化領域的專長,從客製化顧問服務轉向可擴展的平台模式。儘管市場競爭激烈,包括 NVIDIA 透過 TensorRT 提供模型優化,以及其他專注於模型蒸餾與量化的新創公司,Multiverse Computing 的優勢在於其跨模型家族與供應商的靈活性。這意味著企業可以運行已慣用的模型,但成本更低、速度更快,且無需受限於特定的雲端供應商或架構。
該公司去年成功完成 2.15 億美元的 B 輪融資,並傳出正尋求以超過 15 億歐元的估值募資 5 億歐元,以擴大分銷和模型研發。儘管主要模型供應商(如 OpenAI 和 Meta)對第三方重新包裝其模型的態度仍不明朗,Multiverse Computing 的公開發表顯示其已審慎處理相關授權和服務條款問題。
目前已有超過百家客戶採用 Multiverse Computing 的服務,包含加拿大央行(Bank of Canada)、Bosch 及 Iberdrola 等注重數據控制與離線連續性的機構。邊緣部署解決方案也開拓了無人機、衛星、工業檢測及現場維護等連線不穩定情境下的應用。未來,API 定價與模型品質將是決定此服務能否廣泛普及的關鍵,若能有效平衡成本與性能,可望加速 AI 在各產業的應用進程。