近日,谷歌DeepMind的AlphaEvolve項目交出最新成績單:由Gemini驅(qū)動的進化式編程智能體,不僅與菲爾茲獎得主陶哲軒合作攻克了數(shù)學(xué)難題,給Google Willow量子處理器設(shè)計了錯誤率降低90%的電路方案,還給谷歌下一代TPU設(shè)計出了反直覺但更高效的電路方案,且該方案已被采用。
幾乎同期,Anthropic在Claude開發(fā)者大會上為托管智能體增加了一組新功能。智能體學(xué)會了“做夢”,能在兩次工作間隙自動回顧歷史對話、整理記憶、提取規(guī)律。配合自動評分功能和多智能體協(xié)作能力,任務(wù)完成率大幅提升。
(資料圖)
這些進展共同指向一個行業(yè)核心命題:智能體自我進化——AI正從被動等待提示詞的代碼工具,走向?qū)W會記憶、自我改進、持續(xù)進化的智能體。
與用戶共同成長
回顧2026年初,OpenClaw(龍蝦)的爆火讓人們看到了個人AI助理普及的可能——你可以在微信或釘釘里直接和它聊天,讓它自己去操作電腦、執(zhí)行任務(wù)。
但用戶們很快發(fā)現(xiàn),龍蝦每天凌晨4點會刷新一次記憶,昨天剛說過的事情、剛糾正過的做法,第二天它就忘了,讓交互體驗大打折扣。
3月到4月,“養(yǎng)馬”開始興起。由硅谷AI實驗室Nous Research開發(fā)的開源智能體Hermes Agent,在海外技術(shù)社區(qū)走紅。
它主打持續(xù)學(xué)習(xí)和自我進化,擁有一套完整的學(xué)習(xí)閉環(huán)和多層次記憶系統(tǒng),可以在完成復(fù)雜任務(wù)后自動沉淀經(jīng)驗、生成可復(fù)用的技能,下次遇到同類問題時會直接調(diào)用這些技能,并根據(jù)新的使用反饋不斷自我改進。
Hermes Agent的口號直白響亮:The agent that grows with you——一個與你共同成長的智能體。
聲網(wǎng)開發(fā)者社區(qū)副總裁楊慧在接受21世紀經(jīng)濟報道記者采訪時表示,Hermes Agent抓住了智能體最核心的一點:人與智能體的關(guān)系,應(yīng)由模型如何自我成長來定義,由智能體通過自我成長去主動適應(yīng)人和幫助人,而不是由人單方面地向智能體下達指令。
在以往人與AI的交互中,控制權(quán)是單向的——人不斷下達指令,甚至要告訴AI“你記一下”。而Hermes Agent會主動更新自己的SKILL.md,覺得某個節(jié)點需要固化時,就會主動去做,變得“越來越懂”用戶。楊慧指出,包括Kimi在內(nèi)的模型廠商也在做類似的事情,只是各自嘗試的做法有所不同。
楊慧分享了自己的使用體驗:“我常用Hermes Agent來寫日報和周報,主要是搜索行業(yè)的最新進展并分析生成有設(shè)計的長圖。隨著使用時間變長,它變得越來越像我了。因為我不斷跟它補充各種細節(jié),比如它對行業(yè)產(chǎn)品的判斷,主要來源于對技術(shù)的理解,而我除了對技術(shù)理解之外,還對行業(yè)內(nèi)的老玩家有更深的認識,這中間可能涉及業(yè)務(wù)轉(zhuǎn)型等復(fù)雜背景。它會學(xué)習(xí)和記住我告訴它的這些信息。”
這種持續(xù)學(xué)習(xí)的過程,本質(zhì)是將經(jīng)驗壓縮為可復(fù)用、可迭代的知識。它的另一個優(yōu)勢在于,即便用戶更換底層模型,只要沿用同一套框架和技能,就能得到相同預(yù)期的輸出。這意味著,用戶可以根據(jù)不同任務(wù)靈活切換模型,而核心工作流的穩(wěn)定性不會受到影響。
“AI自造AI”加速到來
除了讓智能體在與用戶的真實交互中沉淀經(jīng)驗、持續(xù)改進外,當(dāng)前智能體自我進化的另一條主線,正深入模型層與架構(gòu)層的自我迭代。
近年來,人工智能已經(jīng)在算法自動發(fā)現(xiàn)、架構(gòu)優(yōu)化等方面實現(xiàn)突破,推動行業(yè)從“人設(shè)計算法”向“AI輔助發(fā)現(xiàn)算法”演進。
當(dāng)前,國內(nèi)外頭部模型廠商正紛紛讓AI參與到自身下一代版本的開發(fā)、訓(xùn)練或優(yōu)化中。除了前述Anthropic最新發(fā)布的具有自我進化能力的Claude托管智能體、谷歌DeepMind的AlphaEvolve項目外,國內(nèi)MiniMax在2026年3月發(fā)布了M2.7模型,被其官方稱為“第一個模型深度參與迭代自己的模型”。
據(jù)MiniMax介紹,M2.7能夠自行構(gòu)建復(fù)雜的Agent Harness(智能體駕馭系統(tǒng)),并依托Agent Teams(多智能體團隊)、復(fù)雜Skills(技能)、Tool Search Tool(工具搜索工具)等能力,完成高度復(fù)雜的生產(chǎn)力任務(wù)。
例如,在研發(fā)M2.7的過程中,團隊基于模型構(gòu)建了強化學(xué)習(xí)Harness中的數(shù)十個復(fù)雜技能,持續(xù)更新自身記憶,驅(qū)動模型自身的強化學(xué)習(xí),并根據(jù)結(jié)果不斷優(yōu)化強化學(xué)習(xí)流程和Harness,開啟模型的自我進化。
“在M2.7的訓(xùn)練中,我們的RL pipeline(強化學(xué)習(xí)流程)里70%到80%的工作已經(jīng)由‘模型+智能體’完成了。”MiniMax智能體首席架構(gòu)師阿島此前在一場對談中透露。
Kimi則將多智能體協(xié)作能力作為重點之一。從K2.5開始,Kimi已從單個智能體進化到了智能體集群——K2.5會創(chuàng)建并協(xié)調(diào)一群專項智能體并行工作,這些智能體都是它的分身,各自承擔(dān)不同角色和子任務(wù),沒有預(yù)設(shè)規(guī)則,所有的角色分配和任務(wù)拆解,都由K2.5現(xiàn)場即時決定。
迭代至K2.6,架構(gòu)完成擴容和升級,最多可調(diào)度300個子智能體并行完成4000個協(xié)作步驟,能夠支持調(diào)度不同技能特長的智能體進行互補協(xié)作、組合各項能力。
Kimi創(chuàng)始人楊植麟不久前預(yù)判,越來越多的研究工作將由AI主導(dǎo)。未來每個研究員將配備海量的Token,由AI自動合成新任務(wù)、構(gòu)建新環(huán)境、定義最優(yōu)獎勵函數(shù)。
“AI自造AI”的進程正在加速。前xAI聯(lián)合創(chuàng)始人Jimmy Ba今年2月曾預(yù)測,遞歸自我改進循環(huán)很可能在未來12個月內(nèi)上線。而Anthropic聯(lián)合創(chuàng)始人Jack Clark近日則在社交媒體上表示,他認為到2028年底,遞歸自我改進發(fā)生的概率有60%。
“也就是說,AI系統(tǒng)可能很快就能自主構(gòu)建和改進自己,進入自我加速的階段。”Jack Clark表示。
標簽: 財經(jīng)頻道 財經(jīng)資訊








