界面新聞?dòng)浾?| 宋佳楠
11月4日,界面新聞獲悉,全球首個(gè)AI大模型實(shí)時(shí)投資比賽“Alpha Arena”落下帷幕。歷時(shí)17天,阿里千問Qwen以超20%的收益率奪冠,Qwen和DeepSeek兩款中國(guó)模型也成為唯二盈利的模型,而美國(guó)四大頂尖模型全部虧損,GPT-5虧損超60%墊底。

該競(jìng)賽由美國(guó)專注于金融市場(chǎng)的AI實(shí)驗(yàn)室Nof1于10月18日發(fā)起,將多個(gè)AI大模型置于真實(shí)金融市場(chǎng)中進(jìn)行自動(dòng)化交易對(duì)決。首季競(jìng)賽邀請(qǐng)了包括GPT-5、Gemini 2.5 Pro、Grok 4、Claude 4.5 Sonnet、Qwen3 Max和DeepSeek V3.1 在內(nèi)的六大主流大模型,給每個(gè)模型配備1萬美元真實(shí)資金,在Hyperliquid交易所進(jìn)行加密貨幣永續(xù)合約交易,以檢驗(yàn)?zāi)P偷慕灰啄芰Α?/p>
競(jìng)賽采用統(tǒng)一輸入方式,所有模型接收相同的市場(chǎng)數(shù)據(jù)和提示詞,交易記錄、持倉和賬戶價(jià)值實(shí)時(shí)公開,以保證比賽的公平性和透明度。此外,Nof1還允許AI模型“聊天互動(dòng)”,讓它們?cè)谀M對(duì)話中辯論市場(chǎng)走勢(shì),展示決策邏輯,最終根據(jù)盈虧情況決出冠軍。
比賽初期,六大模型相對(duì)謹(jǐn)慎,大約5天后,參賽模型大致分為三大陣營(yíng):阿里千問和DeepSeek處于領(lǐng)先態(tài)勢(shì),屢次互換第一,始終位列第一梯隊(duì);Claude Sonnet 4.5和Grok 4在相近策略驅(qū)動(dòng)下,維持在第二陣營(yíng),略有盈利,整體仍虧損;GPT-5、Gemini 2.5 Pro兩大模型則長(zhǎng)期虧損墊底。

截至北京時(shí)間11月4日早上比賽結(jié)束,阿里千問最后超越DeepSeek,Qwen以超20%的勝率獲勝;DeepSeek實(shí)現(xiàn)盈利,位列第二;Claude 4.5 Sonnet、Grok 4、Gemini 2.5 Pro和GPT-5四大海外模型均虧損,Gemini 2.5 Pro和GPT-5虧損尤為明顯,截至最終持倉總市值僅為初始資金的三四成。

有行業(yè)人士指出,阿里千問和DeepSeek在實(shí)戰(zhàn)中的表現(xiàn),證明了中國(guó)模型在解決實(shí)際問題的強(qiáng)大潛力,AI對(duì)于場(chǎng)景的深刻理解,將成為大模型落地和未來全球AI競(jìng)賽的關(guān)鍵。
根據(jù)全球知名的大模型API三方聚合平臺(tái)OpenRouter在7月公布的榜單,來自中國(guó)的DeepSeek和阿里通義千問躋身全球前五。其中,通義千問以10.4%的市場(chǎng)份額,超越OpenAI的4.7%,位列第四。
OpenRouter推文顯示,當(dāng)下成長(zhǎng)最快前10大模型中有9個(gè)是開源的。其中,Qwen3-Coder調(diào)用量以近500億Tokens高居第一,通義千問包攬前三,并在前十中占據(jù)五席。
而在今年9月,零一萬物CEO李開復(fù)在長(zhǎng)江CEO 20周年返校日慶典上表示,DeepSeek對(duì)中國(guó)AI發(fā)展的核心貢獻(xiàn)在于推動(dòng)了開源生態(tài)的形成。“如果十年后,我們回顧DeepSeek怎么讓中國(guó)沒有落后于美國(guó),答案并非其技術(shù)能力本身,而是它帶來了中國(guó)(大模型)開源時(shí)代。”
李開復(fù)提到,自DeepSeek開源以來,國(guó)內(nèi)多家企業(yè)相繼開源大模型,形成了“既開源、又比拼速度”的良性競(jìng)爭(zhēng)局面。他認(rèn)為,開源模式高度契合中國(guó)企業(yè)的學(xué)習(xí)特性,有望助力中國(guó)在AI領(lǐng)域縮小與美國(guó)的差距。


