火爆!量化巨頭出手即“王炸”
科技圈和資管行業(yè)同時(shí)沸騰。
近日,國內全新大模型DeepSeek-V3首個(gè)版本上線(xiàn),并同步開(kāi)源。DeepSeek-V3背后并非互聯(lián)網(wǎng)大廠(chǎng),而是國內頭部量化機構幻方量化。量化“大佬”進(jìn)軍AI大模型,引發(fā)關(guān)注。
前沿大模型“刷屏”
上一代模型DeepSeek-V2.5發(fā)布三個(gè)多月后,杭州深度求索人工智能基礎技術(shù)研究有限公司(DeepSeek)近日發(fā)布公告,DeepSeek-V3正式上線(xiàn)。其迭代速度和性能表現令行業(yè)震驚,訓練成本僅為557.6萬(wàn)美元,整個(gè)訓練只需要280萬(wàn)個(gè)GPU小時(shí)。
DeepSeek-V3的更新上線(xiàn),其模型API服務(wù)定價(jià)調整為每百萬(wàn)輸入tokens0.5元(緩存命中)或百萬(wàn)輸入tokens2元(緩存未命中),每百萬(wàn)輸出tokens8元。其超低的定價(jià)引發(fā)科技圈轟動(dòng)。
從性能來(lái)看,DeepSeek-V3多項評測成績(jì)超越了Qwen2.5-72B和Llama-3.1-405B等其他開(kāi)源模型,在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet難分伯仲。
此外,通過(guò)算法和工程上的創(chuàng )新,DeepSeek-V3的生成吐字速度從20TPS大幅提高至60TPS,相比V2.5模型實(shí)現了3倍的提升,為用戶(hù)帶來(lái)更加迅速流暢的使用體驗。
對于訓練成本較低的原因,DeepSeek-V3回復稱(chēng),主要歸功于算法優(yōu)化、模型架構創(chuàng )新(如稀疏注意力機制、模型剪枝等技術(shù))、智能的數據采樣和增強技術(shù)、硬件加速、高效的分布式計算策略,以及通過(guò)知識蒸餾技術(shù),將大型模型的知識轉移到更小的模型中,小模型在保持較高性能的同時(shí)計算需求大幅降低。
量化中的“極致技術(shù)理想主義者”
值得關(guān)注的是,DeepSeek-V3背后并非互聯(lián)網(wǎng)大廠(chǎng),而是國內頭部量化機構幻方量化。
作為國內頂尖量化私募,幻方量化是目前最堅定向科技公司轉型的“異類(lèi)”。2023年4月,幻方量化高調宣布將踏上新征程,“追尋一直以來(lái)的技術(shù)理想,超越投資去直面更大的課題”。
幻方量化在公告中表示,多年以來(lái),幻方量化堅持把營(yíng)收的一大部分投入人工智能領(lǐng)域,建設領(lǐng)先的AI硬件基礎設施,進(jìn)行大規模研究,探索人類(lèi)未知的奧秘。
一位量化業(yè)內人士表示:“幻方量化已將大模型當作主攻賽道,大模型團隊非常龐大,與其它量化機構在戰略上明顯不同!
幻方量化在算力方面的投入巨大,是除了頭部互聯(lián)網(wǎng)大廠(chǎng)外,國內少數擁有超過(guò)1萬(wàn)枚GPU的公司。DeepSeek曾多次強調其萬(wàn)卡GPU訓練集群的優(yōu)勢,并強調擁有在學(xué)術(shù)、競賽和工程圈的頂尖人才,將團隊視為“一群極致的技術(shù)理想主義者”。
近年來(lái),DeepSeek不斷招賢納士,擴充團隊。對于頂尖的AI人才,給出的待遇相當可觀(guān)。此前,DeepSeek曾高薪招聘AGI大模型實(shí)習生。對于深度學(xué)習研究員,更是開(kāi)出最高11萬(wàn)元的月薪。
0人
- 每日推薦
- 股票頻道
- 要聞頻道
- 港股頻道


- 上海傳重磅!重組潛力股名單出爐!
- 與小米合作推出新一代AI眼鏡?歌爾股份回應:不便透露客戶(hù)信息
- 離“不賣(mài)就禁”只剩兩個(gè)多月!特朗普團隊:將兌現承諾,拯救TikTok
- 漲停復盤(pán):創(chuàng )業(yè)板指探底回升收漲1.11% AI應用方向集體走強
- 春節8天 2025年法定節假日安排來(lái)了
- 滬深 300 相對成長(cháng)指數報3474.62點(diǎn),前十大權重包含貴州茅臺等
- 滬深 300 相對價(jià)值指數報4285.61點(diǎn),前十大權重包含中國平安等
- 機構論市:目前指數上行的趨勢并沒(méi)有改變
- 【機會(huì )挖掘】低空經(jīng)濟政策頻發(fā) 相關(guān)產(chǎn)業(yè)有望受益