輝達揭AI代理評估盲點 籲開發者擺脫模型分數迷思
商傳媒|林昭衡/綜合外電報導輝達(NVIDIA)日前發布一篇技術部落格文章,針對人工智慧(AI)領域中,模型(model)與代理(agent)的評估方式提出關鍵區別,並向開發者分享五項實用技巧。文章強調,評估AI代理的重點應放在其在動態環境下完成實際工作流程的表現,而非僅專注於底層模型的能力
商傳媒|林昭衡/綜合外電報導輝達(NVIDIA)日前發布一篇技術部落格文章,針對人工智慧(AI)領域中,模型(model)與代理(agent)的評估方式提出關鍵區別,並向開發者分享五項實用技巧。文章強調,評估AI代理的重點應放在其在動態環境下完成實際工作流程的表現,而非僅專注於底層模型的能力
商傳媒|葉安庭/綜合外電報導谷歌(Google)於昨日(週二)揭曉旗下最新多模態人工智慧模型GeminiOmni,該工具整合了其GeminiAI模型與多款媒體生成工具,包括Veo、NanoBanana和Genie,目標是提供能「模擬世界」的下一代AI影片生成能力,被視為朝人工通用智慧(
商傳媒|何映辰/台北報導隨著人工智慧(AI)技術持續演進,金融服務業正加速擁抱創新應用,多家業者紛紛推出新的AI產品與服務,以提升營運效率、優化客戶體驗並強化決策能力。在投資顧問領域,Hamachi.ai與Modelist攜手合作,將模型投資組合洞察透過AI機器人整合至
商傳媒|責任編輯/綜合外電報導舊金山加利福尼亞大學(UniversityofCalifornia,SanFrancisco,UCSF)的研究團隊開發出一款人工智慧(AI)模型,僅需單次基線磁振造影(MRI)掃描和基本人口學資料,即可預測認知功能障礙和阿茲海默症的病程進展。這項發表於
商傳媒|何映辰/台北報導在年度開發者大會GoogleI/O2026即將於明日(5月19日)揭幕之際,兩款備受關注的人工智慧(AI)模型——Anthropic的ClaudeMythos與谷歌(Google)的Gemini3.2Flash-Lite-Live——卻提前以意外
商傳媒|責任編輯/綜合外電報導人工智慧公司Anthropic推出的最新AI模型ClaudeMythos,憑藉其自主發現與利用資安漏洞的能力,正促使全球資安防禦體系進行全面性評估。該模型已於4月7日問世,被視為Claude系列AI模型的最新力作,主要聚焦於資安、自主編碼與長時間運作的AI代理
商傳媒|何映辰/台北報導美國人工智慧(AI)新創公司Anthropic近期在全球AI技術競賽中,面臨來自China的滲透嘗試與美國政府的合作壓力。該公司旗艦模型ClaudeMythos不僅引發美國國安擔憂,Anthropic更因拒絕美國戰爭部(Departmentof
商傳媒|葉安庭/綜合外電報導南韓研究人員成功開發一項新技術,能讓人工智慧(AI)模型學會承認其知識不足,從而有效抑制聊天機器人普遍存在的「幻覺」現象與過度自信問題,預期將顯著提升AI在自動駕駛、醫療診斷等關鍵應用領域的可靠度。過去研究發現,AI模型在決策過程中表現出的「過度自
商傳媒|責任編輯/綜合外電報導面對大量缺乏精細標註的公開醫學影像資料集,一項最新研究提出實用框架,旨在比較人工智慧(AI)解剖分割模型在無真實標籤情況下的性能。這項研究已發表於《JournalofMedicalImaging》,為醫學影像AI領域專家提供了新的評估思路。現行大
商傳媒|何映辰/台北報導美國新創公司OriginLab正致力於連結電玩遊戲開發商與人工智慧(AI)實驗室,協助遊戲公司將其龐大的遊戲數據轉化為AI模型所需的訓練資料,藉此開創新的收入來源。「世界模型」(worldmodel)旨在模擬實體世界的運作方式與物理法則,以訓練能
商傳媒|林昭衡/綜合外電報導美國人工智慧公司Anthropic今日(5月14日)將與美國眾議院國土安全委員會舉行閉門會議,就其開發的網路安全導向AI模型Mythos進行簡報。據了解,此次會談重點將圍繞Mythos的「能力、國家安全影響及政策考量」。Mythos
商傳媒|林昭衡/綜合外電報導隨著人工智慧(AI)從實驗性質工具逐步邁向實際營運環境,全球各界對於AI競賽的關注焦點已產生顯著轉變。過去關於哪個模型更智慧、更快速或更強大的討論,正被如何有效整合並管理多個AI模型的議題所取代。《耶路撒冷郵報》報導指出,AI競賽的真正贏家將不再是單一的
▲工研院開發之「可信任AI自動化評估技術」榮獲台灣人工智慧協會(TAIA)2026AIAward「落地轉型:最佳解方賞」特優獎,技術已協助超過110件企業AI模型檢測案,有助企業降低AI導入成本與驗測門檻,加速可信任AI應用落地。左起為台灣人工智慧協會秘書長吳春森、工研院量測中心經理黎宇泰。。
商傳媒|康語柔/綜合外電報導一項由頂尖學者法比安·J·泰斯(Prof.FabianJ.Theis)領導的團隊,近日在權威科學期刊《細胞》(Cell)上發表了名為RegVelo的人工智慧(AI)框架。此創新技術能整合細胞動態與基因調控網路,精準預測細胞命運,為生物醫學研究帶來突破性進
商傳媒|葉安庭/綜合外電報導由奧地利開發者彼得·斯坦伯格(PeterSteinberger)打造的開源人工智慧代理OpenClaw,正以其模組化設計顛覆業界思維,證明AI代理無需仰賴垂直整合。OpenClaw的最大特色在於不綁定任何單一基礎模型,用戶可自由選擇Claude、ChatGPT,
商傳媒|葉安庭/綜合外電報導由OpenAI前技術長米拉·穆拉提(MiraMurati)創辦的ThinkingMachinesLab,近期發表其「互動模型」的研究預覽,聲稱實現了近乎即時的AI語音與視訊對話能力,有望革新人工智慧(AI)與人類的互動方式。根據ThinkingM
商傳媒|記者顏康寧/台北報導10毫秒,這是一個關於企業安全存亡的數字博弈。隨著企業大規模部署基於模型上下文協定ModelContextProtocol,MCP的AI代理程式,原本負責提升效率的工具註冊與工具描述機制,正成為網路犯罪的新型攻擊面。當AI代理程式根據自然語言描述
商傳媒|責任編輯/綜合外電報導Tether旗下的AI研究團隊近日發表QVACMedPsy醫療語言模型,這款模型專為智慧型手機及邊緣裝置等小型設備設計,並在多項醫學基準測試中超越了其大型競爭對手。根據《Decrypt》報導,QVACMedPsy的高效能關鍵在於其卓越的
商傳媒|責任編輯/綜合外電報導Google於日前為其開源人工智慧模型系列Gemma4釋出多代幣預測(Multi-TokenPrediction,MTP)草稿器,旨在透過推測性解碼(speculativedecoding)技術,顯著提升AI模型推論速度與反應能力,造福開發者。
商傳媒|責任編輯/綜合外電報導一款名為1min.AI的工具近日吸引市場關注,其主要功能在於整合多個人工智慧(AI)模型,讓用戶僅需輸入一個提示,即可同時獲得來自不同AI模型的回答。這項創新解決方案讓用戶能夠同時接收ChatGPT、Claude、Gemini、Grok以及Mist
商傳媒|責任編輯/綜合外電報導生成式人工智慧(AI)系統,特別是大型語言模型(LLM),在現今數位世界中展現出近乎神奇的文字生成能力,但其核心本質是個「預測機器」,而非真正具備理解或思考能力的智慧體。了解其運作原理,並掌握有效的協作方式,對於台灣的學生、教育工作者及研究人員而言至關重要。
商傳媒|責任編輯/綜合外電報導美國白宮昨日證實,正積極研擬一項行政命令,旨在賦予政府權力,對「不安全」的先進人工智慧(AI)模型實施更嚴格的上市前審查。這項潛在的新政策,標誌著川普政府在AI監管策略上的重大轉變,可能對全球AI發展生態造成深遠影響。白宮國家經濟委員會主任凱文·哈西特
商傳媒|責任編輯/綜合外電報導美國政府正加速對人工智慧(AI)領域的監管布局,川普總統主政下的白宮正研擬一套針對尖端AI模型的「審查系統」。此系統旨在要求AI實驗室在模型公開發布前,向聯邦政府提供「首次存取權」,以評估其潛在的國家安全風險。根據《Default》報導,這項審查機制將
商傳媒|責任編輯/綜合外電報導人工智慧公司Anthropic近期推出一系列專為其大型語言模型Claude設計的金融代理(financeagents)模板,旨在提升AI協助金融專業人士處理複雜任務的能力。此舉代表著AI在金融業應用上的一大進展,可能重塑金融工作流程。
商傳媒|責任編輯/綜合外電報導美國新創公司InworldAI近日推出一款名為RealtimeTTS-2的新人工智慧語音模型,其獨特之處在於能即時感應使用者的語氣與情緒,並做出更擬人化的回應,有望改變未來的人機互動體驗。這項由總部位於山景城的InworldAI所開發
商傳媒|何映辰/台北報導美國川普政府據報導正準備發布一項劃時代的行政命令,要求科技巨擘在對外公布其最強大的人工智慧(AI)模型前,必須先提交政府進行嚴格審查。此舉凸顯美國政府正重新定義AI的地位,將其從單純的科技工具提升至國家安全資產層級。促使這項政策轉變的關鍵,是Anthropi