2025-11-05 23:10:49
北京時間11月4日,AI大模型實時投資比賽“Alpha Arena”落幕,阿里千問Qwen奪冠,DeepSeek第二。競賽由Nof1發(fā)起,六大頂尖模型擁有1萬美元初始資金,在真實的加密貨幣市場自主交易。Nof1表示金融市場是AI最佳訓練環(huán)境,比賽旨在揭示模型偏見、轉向現(xiàn)實基準。下一季比賽周期更長、參與者更多。Nof1人工智能負責人稱未來人類或將通過AI金融投資智能體交易。
每經(jīng)記者|葉曉丹 每經(jīng)編輯|黃博文
歷時17天,全球六大頂尖AI(人工智能)大模型,擁有1萬美元初始資金,在真實的加密貨幣市場自主交易。
真實市場、真金白銀、真實基準,誰能勝出?
北京時間11月4日,備受關注的AI大模型實時投資比賽“Alpha Arena”落下帷幕,來自中國的兩款大模型在17天的比賽中保持領先,其中,阿里千問Qwen奪得冠軍,DeepSeek名列第二。
該競賽由國際第三方機構Nof1于10月18日發(fā)起,集合Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4等全球六大頂尖模型,每個模型擁有一萬美元初始資金,在真實市場上無人工干預地自主決策、交易,根據(jù)盈虧情況決出冠軍。
Nof1公司表示,相信金融市場是下一代人工智能的最佳訓練環(huán)境。在“Alpha Arena”比賽開始一周后,Nof1發(fā)文表示,第一季Alpha Arena目標主要有兩個。
其一,通過比較分析,揭示主流LLM(大語言模型)明顯的隱性偏見和默認的交易行為。比如,探究模型之間的交易方式是否存在巨大差異?它們是否隨著時間保持一致?它們在哪里犯錯?
其二,幫助將AI研究文化轉向現(xiàn)實世界基準,遠離靜態(tài)的、考試式的基準。我們希望Alpha Arena至少能強調在更具后果性、現(xiàn)實環(huán)境中評估AI的力量。我們相信這是發(fā)現(xiàn)關鍵差距和見解、推動前沿AI發(fā)展的最快途徑。
在經(jīng)歷17天真實世界的交易后,結果出乎所有人的意料。阿里巴巴的Qwen 3 Max以22.32%的收益率奪冠,另一家中國公司DeepSeek位居第二,其DeepSeek v3.1的收益率為4.89%。
而來自硅谷的四位明星選手則全線潰敗。OpenAI的GPT-5虧損62.66%,Google的Gemini 2.5 Pro虧損56.71%,馬斯克旗下xAI的Grok 4虧損45.3%,Anthropic的Claude 4.5 Sonnet也虧損了30.81%。
對這場比賽,Nof1負責人Jay A在社交媒體中表示:“我們觀察到模型存在持續(xù)的偏差,這種偏差隨著時間的推移和提示信息的多次迭代而持續(xù)存在。我們也特意將模型置于一個困難的境地。LLM模型實際上并不擅長處理數(shù)值時間序列數(shù)據(jù),但這正是我們給它們提供的全部背景信息。此外,它們還被賦予了一個受限的資產(chǎn)范圍和一個相當有限的行動空間?!?/p>
同時,Nof1宣布下一季比賽即將啟動,周期會更長,參與者會更多,市場環(huán)境也會更復雜。Nof1人工智能負責人Julian Togelius在社交媒體上透露,下一季的測試將會有許多改進。
11月5日,基于此次實盤投資競賽,《每日經(jīng)濟新聞》記者(以下簡稱“NBD”)獨家專訪了紐約大學坦登工程學院計算機科學與工程系副教授、Nof1人工智能負責人Julian Togelius。

六個AI模型的收益變化圖 圖片來源:Nof1官網(wǎng)截圖
NBD:第一季比賽結束了,來自中國的兩款大模型收益率保持領先。最終的比賽結果在你的預期之內嗎?
Julian Togelius:根據(jù)初步測試,我們預期這些模型會展現(xiàn)出不同的投資風格。因此,結果出現(xiàn)顯著差異是意料之中的。我們并不確定哪些模型會脫穎而出,但我們曾開玩笑說,DeepSeek或許會表現(xiàn)出色,因為該公司起源于一家量化交易公司。結果證明我們的猜測是正確的。我們也十分欣喜地看到,表現(xiàn)最佳的模型都是開源的,因為開源人工智能對世界有好處。
NBD:這次比賽持續(xù)了17天時間。有評論認為相比真實市場的量化交易,17天的時間似乎有點短暫。為什么考慮設計這個時間維度?
Julian Togelius:我們是一家身處快速發(fā)展領域的初創(chuàng)公司,所以我們希望快速迭代。我們?yōu)榧磳⒌絹淼馁惣居泻芏嗉尤诵牡南敕?,并希望盡快進行嘗試。誠然,真正的交易需要更長的時間跨度……但這項比賽只是我們在Nof1工作的一個方面。
NBD:在比賽過程中,6款AI模型前幾天整體差距還比較小,但隨著時間的拉長,各個大模型呈現(xiàn)了各具特色的投資風格。流動的時間對大模型而言意味著什么?
Julian Togelius:這些模型的性格隨時間推移保持穩(wěn)定。然而,早期投資決策的結果可能意味著模型會讓自己置身于或多或少困難的境地,并會以不同的方式應對。GPT-5似乎一度陷入決策癱瘓,但如果它從一開始就交易得更好,這種情況或許就不會發(fā)生。同樣,如果Qwen的財務狀況更糟,它那種激進的投資風格或許也不會出現(xiàn)。
NBD:下一季的比賽中會有哪些調整和優(yōu)化?是否可以添加一些新聞、財報、宏觀經(jīng)濟、市場情緒和其他非技術信息,供人工智能在投資前進行分析,以模擬更真實的交易環(huán)境?
Julian Togelius:你提到的因素我們都討論過了,我們希望在不久的將來能夠實現(xiàn)。不過,我們會一步一步來。我不會提前透露下一版本會做哪些改動——它很快就會發(fā)布。但我們預計會快速推進,并在后續(xù)版本中逐步整合更多信息。我們的目標是開發(fā)出比任何現(xiàn)役交易員都更優(yōu)秀的AI金融投資智能體。
NBD:這次比賽引發(fā)了大量關注,你認為這場AI投資比賽的真正價值是什么?是比較模型性能,還是驗證AI能否真正走向市場化?投資比賽是否可能演變?yōu)锳I金融行業(yè)的一種長期機制?
Julian Togelius:我們堅信,未來人類將通過指導或構建自己的AI金融投資智能體來進行交易。人類與AI專業(yè)知識的結合必然優(yōu)于人類或AI單獨運作。我們正在構建一個系統(tǒng),讓任何人都能通過AI金融投資智能體進行交易,而本次大賽正是朝著這個目標邁出的重要一步。(實習生張京寶對本文亦有貢獻)
封面圖片來源:圖片來源:視覺中國-VCG211550173673
如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經(jīng)濟新聞APP