99成年人视频在线免费,91色在色在线播放,国产传媒一区二区三区呀,18岁禁胸视频网站日本产,色成人网站www永久免费观看,夜色www国产精品资源站,欧美视频不卡

商湯科技首席科學(xué)家林達(dá)華發(fā)布深度長文《邁向多模態(tài)通用智能:商湯的思考》

[休閑] 時間:2025-10-11 14:58:32 來源:執(zhí)鞭隨鐙網(wǎng) 作者:時尚 點(diǎn)擊:105次

  8月12日,商湯首席深度思考商湯科技聯(lián)合創(chuàng)始人、科技科學(xué)執(zhí)行董事、家林首席科學(xué)家林達(dá)華特別撰寫的達(dá)華多模萬字深度長文《邁向多模態(tài)通用智能:商湯的思考》正式發(fā)布。文章剖析了商湯科技為何將“多模態(tài)通用智能”視為技術(shù)戰(zhàn)略的發(fā)布核心引擎,并系統(tǒng)闡釋了發(fā)展多模態(tài)智能的長文底層邏輯、技術(shù)路徑、態(tài)通湯實踐探索與未來方向。用智同時他還分享了在商湯組織及戰(zhàn)略層面的商湯首席深度思考諸多思考。以下為文章全文:

  邁向多模態(tài)通用智能:商湯的科技科學(xué)思考

  作者:林達(dá)華

  AI 是一場長跑。從大語言模型(LLM)的家林興起到真正意義的通用人工智能(AGI),還有很多開放性的達(dá)華多模問題有待解決。我們認(rèn)為,發(fā)布多模態(tài)是長文從 LLM 到 AGI 的必經(jīng)之路。

  圍繞多模態(tài),態(tài)通湯從智能演進(jìn)、學(xué)習(xí)范式、數(shù)據(jù)和模型架構(gòu)都面臨諸多挑戰(zhàn),也有很大的創(chuàng)新空間;在組織和戰(zhàn)略層面也有很多值得思考的問題。在本文中,我先整體回顧一下商湯的多模態(tài)之路,然后就其中的關(guān)鍵問題談一下我們的思考。

  主要涉及:

  商湯多模態(tài)之路概覽

  為什么多模態(tài)是通向 AGI 的必經(jīng)之路 ?

  商湯沿著什么路徑去構(gòu)建多模態(tài)智能 ?

  為什么選擇做原生多模態(tài) ?

  多模態(tài)推理的挑戰(zhàn)在哪里 ?

  商湯的訓(xùn)練數(shù)據(jù)是如何生產(chǎn)出來的 ?

  模型設(shè)計有哪些思考?模型尺寸和架構(gòu)未來如何演進(jìn)?

  從多模態(tài)到具身智能,會面臨哪些挑戰(zhàn) ?

  商湯如何建設(shè)一支有高效且富有創(chuàng)新力的研究力量 ?

  商湯如何平衡技術(shù)突破和商業(yè)落地的關(guān)系 ?

  1、商湯多模態(tài)之路概覽

  商湯是從計算機(jī)視覺技術(shù)出發(fā),在人工智能變革浪潮中發(fā)展起來的企業(yè)。在發(fā)展之初,商湯基于深度學(xué)習(xí)在視覺領(lǐng)域的運(yùn)用,在人臉識別、畫質(zhì)處理、智能駕駛等多個應(yīng)用方向突破了工業(yè)紅線,推動了 AI 技術(shù)在行業(yè)的落地應(yīng)用。

  早在 2019 年,商湯就基于自身的技術(shù)判斷,開始在視覺模型上進(jìn)行尺度定律的探索,在業(yè)內(nèi)率先推出百億參數(shù)的視覺大模型,在視覺識別上突破了多項性能紀(jì)錄。這一前瞻性的技術(shù)觀察,也是推動商湯較早就進(jìn)行大規(guī)模 AI 算力投入的重要原因。

  2022 年底,OpenAI 推出 ChatGPT,掀起了全球范圍的大模型浪潮,AI 進(jìn)入了 2.0 時代。對于商湯來說,這是一次重要的機(jī)遇。我們當(dāng)時開始思考,當(dāng)視覺模型和語言模型在尺度定律上相會,會給我們帶來什么?

  在 2023 年 3 月,商湯和上海人工智能實驗室合作研發(fā),推出了我國首個多模態(tài)通用大模型“書生 2.5” 并開源。這個 30 億參數(shù)的大模型刷新了包括 ImageNet 和 COCO 在內(nèi)的多個視覺任務(wù)的紀(jì)錄,并且初步展示了通用圖文問答能力。在 6 個月之后,OpenAI 才正式推出了支持圖像輸入的 GPT-4V。

  在此之后,商湯保持著語言模型和圖文模型的雙軌迭代,但是逐漸看到了這種分立模式的局限 —— 語言和視覺模態(tài)的融合較淺,難以形成高水平的跨模態(tài)理解能力。于是在 2024 年 5 月開始,我們投入了幾千 P 的算力,進(jìn)行了大量比較實驗,突破了原生融合訓(xùn)練的技術(shù)路徑。在 2024 年底,以單一模型奪得 SuperCLUE 語言綜合評測和 OpenCompass 多模態(tài)綜合評測的榜首。從 2025 年 4 月發(fā)布的日日新 6.0 開始,原來分立的兩條模型線匯聚到了一個融合模型系列。

  其后,商湯的大模型技術(shù)沿著多模態(tài)這一主軸走向縱深,推出了日日新 6.5 多模態(tài)模型,在國內(nèi)率先實現(xiàn)圖文交錯思維,并且在多模態(tài)融合強(qiáng)化學(xué)習(xí)上取得新的進(jìn)展。與此同時,商湯的開悟世界模型和悟能具身智能平臺,讓多模態(tài) AI 從數(shù)字空間走入真實的物理世界。

  在商湯多模態(tài)之路的背后,是商湯研究團(tuán)隊就很多關(guān)鍵技術(shù)問題的思考、判斷和反思。

  2、為什么多模態(tài)是通向 AGI 的必經(jīng)之路?

  主要觀點(diǎn)

  • 智能的核心是與外界進(jìn)行自主交互的能力,多模態(tài)是通向通用人工智能(AGI)的必經(jīng)之路。
  • 語言是描述世界的工具,但不是世界本身。單靠語言模型并不能構(gòu)建真正意義的 AGI。
  • 大模型浪潮源于 LLM,原因在于海量語料的積累,但是這不是通用智能的終局。
  • 在應(yīng)用場景中實現(xiàn)完整的價值,離不開對不同模態(tài)信息的有效處理、對多種模態(tài)信息的融合分析和判斷。

  多模態(tài)是通向通用人工智能(AGI)的必經(jīng)之路。 這是商湯選擇以多模態(tài)為技術(shù)主軸背后的核心技術(shù)判斷。

  為什么多模態(tài)在智能之路上如此重要?要回答這個問題,我們先回到智能的本質(zhì)。

  人工智能的核心目標(biāo)是通過計算來構(gòu)建智能。智能(Intelligence)是一個復(fù)雜的多維度概念。雖然智能尚沒有統(tǒng)一的定義,但其核心就是與外界(包括世界或者其他人)進(jìn)行自主交互的能力。這是一種綜合能力,可以被歸納為多種能力維度,包括感知、推理、決策、學(xué)習(xí)等。

  語言(Language)的本質(zhì)是一種符號化的交流工具 —— 人們通過語言傳遞信息。從這個意義上說,語言只是人類智能演進(jìn)過程中的一種產(chǎn)物,但不是智能的本源;語言是描述世界的工具,但不是世界本身。單靠語言模型并不能構(gòu)建真正意義的 AGI。

  為什么這一波大模型浪潮首先源自于語言模型的突破?原因在于海量語料的積累。 在人類數(shù)千年的歷史中積累了海量的語料,這些語料在信息時代被廣泛地數(shù)字化,從而成為最容易規(guī)?;@取的數(shù)據(jù)形態(tài)。通過巨大算力對這些語料進(jìn)行壓縮,大語言模型被打造出來。這是朝著 AGI 邁出的重要一步,但不是終局。隨著現(xiàn)存的文本語料被快速耗盡,人工智能下一階段的突破必然要超越語言,回到智能的本源 —— 和世界的交互。

  世界的信息以多元形態(tài)存在 —— 除了書中的文本,還有視覺的影像、聽覺的音頻、電磁波的脈動等。人工智能若要具備通用性,必須能像人類通過感官接收信息那樣,將這些原始模態(tài)轉(zhuǎn)化為可計算的內(nèi)部表征。這種表征不是孤立的,模態(tài)之間存在深刻的內(nèi)在關(guān)聯(lián),這是理解世界的基礎(chǔ),也是智能體和世界交互的基本出發(fā)點(diǎn)。因此,多模態(tài)信息感知與處理的能力是 AGI 的核心要求,也是從語言模型邁向 AGI 的必由之路。

  從理論走入現(xiàn)實,技術(shù)的價值在于應(yīng)用。只有當(dāng)技術(shù)深入每一個應(yīng)用場景,為用戶解決實際的問題、帶來更好的體驗,技術(shù)就有了源源不竭的生命力。

  在過去十年中,商湯服務(wù)了城市治理、工業(yè)制造、手機(jī)、汽車、互聯(lián)網(wǎng)、教育、醫(yī)療、金融、遙感等多個行業(yè),涵蓋了生活、娛樂到工作和生產(chǎn)的方方面面。在眾多應(yīng)用場景中,圖像、圖表、視頻等模態(tài)數(shù)據(jù)是記錄和傳遞信息的重要載體和媒介。在閱讀報告的時候,需要看懂圖表;在醫(yī)療場景中,診斷往往需要結(jié)合病歷和醫(yī)療影像的信息;在教學(xué)場景中,多媒體的結(jié)合是常見的手段;在城市治理和工業(yè)場景中,視頻更是不可或缺的信息載體。

  在這些場景中,提供完整的價值離不開對不同模態(tài)信息的有效處理、對多種模態(tài)信息的融合分析和判斷。只是在過去的 AI 1.0 時代和今天,構(gòu)建場景能力的方式發(fā)生了變遷。在過去,每個 AI 模型智能提供一個環(huán)節(jié)的能力,最終由一個復(fù)雜的業(yè)務(wù)系統(tǒng)串聯(lián)起來;在今天,多模態(tài)的智能體可以自主而靈活地運(yùn)用各種能力,提供端到端的整體價值。因此,從商業(yè)應(yīng)用的角度,多模態(tài)也是我們的必然選擇。

  3、商湯沿著什么路徑去構(gòu)建多模態(tài)智能?

  主要觀點(diǎn)

  • 從根本上說,人工智能的發(fā)展是數(shù)據(jù)驅(qū)動的,其每一次躍遷都源自于數(shù)據(jù)邊界的打破。
  • 智能的演進(jìn)會經(jīng)歷幾次破壁:Transformer 實現(xiàn)了長序列建模;語言和視覺的會合實現(xiàn)了多模態(tài)理解;邏輯思維和形象思維的結(jié)合實現(xiàn)真正的多模態(tài)推理;最終,智能體將突破數(shù)字空間與物理空間的邊界,實現(xiàn)和真實世界的交互。

  智能的演進(jìn)是一個漸進(jìn)的過程。它有很多個階段,在每個階段都有不同的特點(diǎn)。

  人類智能進(jìn)化到今天的高度,經(jīng)歷了一個非常漫長的歷史時期,在“物競天擇”的生存競爭中逐漸傳承下來。人類在最早期就掌握了和大自然交互的能力,學(xué)會了運(yùn)用火和工具,而語言、文化和科學(xué)是在社會生活中逐漸發(fā)展出來的。而人工智能的發(fā)展則經(jīng)歷了一條很不一樣,甚至是反向的路徑。其根本在于人工智能內(nèi)在本質(zhì)的差異:從根本上說,人工智能的發(fā)展是數(shù)據(jù)驅(qū)動的,其能力邊界是被數(shù)據(jù)所定義的。人工智能的每一次躍遷,都源自于數(shù)據(jù)邊界的打破。

  第一次破壁:Transformer 實現(xiàn)了長語言序列建模

  語言模型作為一個學(xué)術(shù)領(lǐng)域已經(jīng)存在多年。早期的語言模型是通過 N-gram 或者循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等方式對自然語言中的語句進(jìn)行建模。由于這些模型的建模距離很短(從幾個到十幾個 token 不等),因此它們只能捕捉到語言中的淺層模式(比如語法等),而難以對更高層次的知識和邏輯進(jìn)行建模。

  Transformer 為長達(dá)幾千 tokens 甚至更長的語言序列建模提供了有力的工具。Transformer 模型所能看到的不再是短語級別的語言片段,而是長篇的段落、文章甚至是書籍。這是數(shù)據(jù)邊界的一次重要的拓展,讓高階的語言建模成為可能,大語言模型由此而誕生。

  第二次破壁:語言和視覺的會合,形成多模態(tài)理解能力

  在大模型出來之前,計算機(jī)視覺和自然語言處理是兩個區(qū)別很大,交流很少的學(xué)科領(lǐng)域;它們各自處在較低的建模水平。計算機(jī)視覺通過給圖像或其局部區(qū)域賦予標(biāo)簽,從而形成初級的語義理解;而自然語言處理則更多關(guān)注于語法和局部語義的解析。在這個層面上,兩個領(lǐng)域的關(guān)聯(lián)度是比較弱的。

  大語言模型的出現(xiàn),讓高階語言建模成為現(xiàn)實,同時也為高階的圖像理解提供了可能。 一幅圖像所能關(guān)聯(lián)的語義不再受限于幾個類別標(biāo)簽,而是一個完整的故事。

  多模態(tài)大模型正是在這樣的技術(shù)契機(jī)中發(fā)展起來的。當(dāng)我們把圖像、視頻等模態(tài)數(shù)據(jù)和更完整的語言描述關(guān)聯(lián)在一起,在訓(xùn)練中以監(jiān)督或者非監(jiān)督的方式讓模型去建模其內(nèi)在聯(lián)系,模型就具備了對這些模態(tài)數(shù)據(jù)進(jìn)行高階理解的能力。這是構(gòu)建多模態(tài)智能基礎(chǔ)性的一步。

  第三次破壁:突破邏輯思維和形象思維的邊界,實現(xiàn)多模態(tài)推理

  從 OpenAI o1/o3 到 DeepSeek R1 等的一系列進(jìn)展中,我們看到語言模型通過思維鏈訓(xùn)練以及在此基礎(chǔ)上的強(qiáng)化學(xué)習(xí),可以在數(shù)學(xué)、編程等領(lǐng)域形成很強(qiáng)的推理能力,甚至可以達(dá)到奧賽金牌的水平。人類語言本身就蘊(yùn)含了很強(qiáng)的邏輯性,所以以語言方式表達(dá)思維過程(思維鏈)是一種自然且有效的方法。但是,基于語言的邏輯思維并不是完整的思考能力。

  在人類的思考中,形象思維扮演著同樣重要的角色。所謂“一圖勝千言”,當(dāng)我們?nèi)ピO(shè)計一棟建筑、構(gòu)思一款產(chǎn)品的交互界面、或者嘗試?yán)斫庖粋€復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)和關(guān)鍵節(jié)點(diǎn),一幅圖往往比大段文字更能引發(fā)我們的有效思考。因此,全面的思維能力離不開邏輯思維和形象思維的有機(jī)結(jié)合 —— 很多時候,帶有視覺形象的直覺對于形成有效的思維方向會起到關(guān)鍵作用。

  主流的多模態(tài)模型通過視覺編碼器與語言模型的前后結(jié)合,實現(xiàn)了對多模態(tài)混合輸入的支持。但是,后續(xù)的思考推理過程還是主要依賴純語言的推理。我們內(nèi)部研究中觀察到,這些模型過于依賴語言先驗,對于圖形和空間結(jié)構(gòu)的推理能力還很薄弱。比如,很多主流的多模態(tài)模型看見一個有“有六個手指頭的手掌”這種反先驗的照片時,還會說出“五個手指”的回答。出現(xiàn)這種情況的一個重要原因是,在這些模型的工作機(jī)制中,圖像僅僅是為視為可被描述的輸入,而不是思考過程中的重要元素。打破這一局限的關(guān)鍵在于允許讓思考過程被圖形化表達(dá),形成直觀表象,從而引發(fā)新的思考。

  第四次破壁:突破與物理空間的邊界,實現(xiàn)多模態(tài)與真實世界中的交互

  具備完整的多模態(tài)知識和思維能力的模型是通向 AGI 的一個重要里程碑,但是還不是終點(diǎn),因為它還不能在物理空間中行動,對物理世界產(chǎn)生影響。最終到達(dá) AGI 的彼岸,需要從數(shù)字空間走向物理空間。這需要對三維時空的理解、對物理規(guī)律的把握、以及對自身行動的敏捷控制 —— 這不僅是一個“大腦”,而是“大腦-小腦-感官-四肢”敏捷高效的協(xié)同。從技術(shù)角度來看,這是一個軟硬件協(xié)同的開放課題,需要多個方面的突破才能逐步達(dá)成目標(biāo)。

  實現(xiàn)這一階段突破的關(guān)鍵挑戰(zhàn)仍舊是數(shù)據(jù)。不同于自然語言或者圖像視頻,它們在互聯(lián)網(wǎng)上有海量存量;物理世界交互的數(shù)據(jù)天然是非常稀缺的。通過真機(jī)采集或者“遙操作”采集所得到的數(shù)據(jù),無論是體量和多樣性都比較有限,難以滿足構(gòu)建通用智能的需要。但是,如果這個問題得到有效解決,我們就能給人工智能開辟一片新的天地,并且回到智能的本源 —— 與世界的自主交互。

  從技術(shù)角度,世界模型是解決這一核心問題的一種重要的可能途徑。世界模型可以建立在基于海量數(shù)據(jù)訓(xùn)練的多模態(tài)模型的基礎(chǔ)之上,獲得對這個世界的先驗認(rèn)知,然后通過交互過程持續(xù)修正,實現(xiàn)和真實世界更好的對齊。一個有足夠真實度的世界模型可以作為一種“模擬器”,用于對空間智能體的訓(xùn)練,從而在很大程度上緩解上述的數(shù)據(jù)挑戰(zhàn)。當(dāng)然,世界模型本身也是一個極具挑戰(zhàn)性的課題,需要整個領(lǐng)域共同的努力來推動它的進(jìn)展。

  商湯沿著智能的階段演進(jìn)的認(rèn)知展開技術(shù)研發(fā)的布局,一步步推動對智能邊界的探索。我們早在 2023 年初就推出了我國最早的多模態(tài)模型,走出了多模態(tài)智能探索的重要一步。在 2024 年突破了原生多模態(tài)融合訓(xùn)練技術(shù),在國內(nèi)最早把語言模型和圖文多模態(tài)模型融合為一個模型。最近,我們在多模態(tài)推理上取得重要進(jìn)展,實現(xiàn)了圖文交錯的思維鏈,在此基礎(chǔ)上訓(xùn)練的日日新 6.5 具備了真正的多模態(tài)思考能力,綜合推理性能顯著提升。與此同時,我們展開了開悟世界模型的探索,打通數(shù)字空間和物理空間連接的通道。

  4、為什么選擇做原生多模態(tài)?

  主要觀點(diǎn)

  • 多模態(tài)模型訓(xùn)練有兩種方式:適應(yīng)訓(xùn)練和原生訓(xùn)練。
  • 適應(yīng)訓(xùn)練難以深入掌握語言和視覺之間的內(nèi)在關(guān)聯(lián),只是讓模型僵硬地遵循后訓(xùn)練的范例模式。
  • 商湯通過大量對比實驗發(fā)現(xiàn),原生融合訓(xùn)練的模型可以更好建模跨模態(tài)的關(guān)聯(lián),實現(xiàn)模態(tài)深度融合,以一個融合模型在純文本和圖文的評測上奪冠。
  • 視覺和語言模態(tài)的融合應(yīng)該在預(yù)訓(xùn)練的中段開始進(jìn)行。
  • 多模態(tài)訓(xùn)練數(shù)據(jù)中,天然的圖文交錯數(shù)據(jù),雖然量大但是圖文的關(guān)聯(lián)弱;提升性能主要是通過規(guī)?;瘶?gòu)造的圖文對數(shù)據(jù)。

  主流的多模態(tài)模型的整體架構(gòu)是類似的,由視覺編碼器(Visual encoder)、輸入投影器(Projector)和骨干網(wǎng)絡(luò)(Backbone)連接而成。視覺編碼器把輸入的圖像編碼為一個 token 序列,然后經(jīng)由輸入投影器對齊到骨干網(wǎng)絡(luò)的輸入空間,而語言 token 一起由骨干網(wǎng)絡(luò)進(jìn)行計算處理。這里的每個模塊都帶有各自需要被訓(xùn)練的權(quán)重。

  多模態(tài)模型的兩種訓(xùn)練方式

  多模態(tài)模型的訓(xùn)練有兩種典型的方式:

  1. 適應(yīng)訓(xùn)練:給定一個已經(jīng)訓(xùn)練好的大語言模型和經(jīng)過預(yù)訓(xùn)練的視覺編碼器,在后訓(xùn)練階段,通過對視覺編碼器和投影器的微調(diào),實現(xiàn)視覺和語言表征的對齊。這是國內(nèi)多模態(tài)大模型常用的方式,它的好處是能夠以較低的成本快速獲得多模態(tài)能力。
  2. 原生訓(xùn)練:在預(yù)訓(xùn)練階段就融合多種模態(tài)的數(shù)據(jù)進(jìn)行訓(xùn)練,因此,模型從“原生”開始就具備了多模態(tài)能力,而不是“后補(bǔ)”的。以 Google 和 OpenAI 為代表的頂尖機(jī)構(gòu)從采用這種方式。

  商湯自己的路徑選擇

  商湯在早期的多模態(tài)模型訓(xùn)練時也是采用了前者,但是我們很快就觀察到這種方式存在比較大的局限性。這種只經(jīng)過適應(yīng)訓(xùn)練的多模態(tài)模型,并沒有深入掌握語言和視覺模態(tài)之間的內(nèi)在關(guān)聯(lián),更多只是在僵硬地遵循后訓(xùn)練中那些范例的模式,從圖像中提取信息送給語言模塊進(jìn)行后續(xù)分析和輸出。而且,由于模型基座本身對多模態(tài)理解是有限的,采用強(qiáng)化學(xué)習(xí)也很難激發(fā)出很強(qiáng)的多模態(tài)能力。

  我們開始思考,是否應(yīng)該走上原生多模態(tài)的道路。這不是一個容易的決定,因為原生訓(xùn)練所需的資源是顯著超過適應(yīng)訓(xùn)練的。除此之外,我們還面臨著兩個重要問題:

  1. 有了原生多模態(tài)模型后,還是否需要保留一個單獨(dú)的語言模型?
  2. 語言和其它模態(tài)的融合應(yīng)該在什么時候進(jìn)行?預(yù)訓(xùn)練還是后訓(xùn)練?

  這些問題的答案將決定商湯的長期技術(shù)路徑。在 2024 年 5 月,也就是日日新 5.0 發(fā)布之后,我們成立了一個高優(yōu)先級的內(nèi)部專項,投入了幾千 P 算力,通過大量對比實驗嘗試回答上面的問題。幾個月后,我們從大量實驗結(jié)果中得到了關(guān)于上述問題的明確結(jié)論:

  1. 在合適數(shù)據(jù)配比的條件下,融合訓(xùn)練的模型比單純的語言模型和專注圖文問答的模型,在各自的任務(wù)上都表現(xiàn)得更加出色;而且,融合模型在處理帶文本的圖片、截圖、專業(yè)圖表等場景下顯著超越當(dāng)時的圖文問答模型。
  2. 語言和視覺模態(tài)的融合應(yīng)該在預(yù)訓(xùn)練中段開始進(jìn)行。我們觀察到,只在后訓(xùn)練比如 SFT 階段進(jìn)行融合訓(xùn)練,融合度是比較低的,模型對于跨模態(tài)關(guān)聯(lián)的掌握是面向具體任務(wù),泛化性比較弱;但是,過早進(jìn)行融合訓(xùn)練也沒有明顯的增益 —— 模型早期無論是視覺編碼器還是語言模型本身的基本能力還沒有建立起來,因此也很難對跨模態(tài)關(guān)聯(lián)進(jìn)行有效建模。

  基于上述觀察,我們確定了融合模型的技術(shù)路徑:在預(yù)訓(xùn)練中段開始進(jìn)行多模態(tài)融合訓(xùn)練,最終形成一個統(tǒng)一的原生多模態(tài)模型,不再生產(chǎn)單獨(dú)的語言模型。

  為了落實這一路徑,我們內(nèi)部還進(jìn)行研發(fā)組織的重構(gòu),保障各個條線的數(shù)據(jù)和研發(fā)進(jìn)展都匯聚到這個融合模型上。我們在 2024 年第三季度完成了融合訓(xùn)練的數(shù)據(jù)配方和訓(xùn)練超參的驗證,在第四季度完成了第一版千億參數(shù)級別的融合多模態(tài)模型訓(xùn)練。

  這個模型在國內(nèi)兩個權(quán)威的第三方評測平臺 OpenCompass(司南)和 SuperCLUE 上面都位居國內(nèi)模型之首,其中在語言任務(wù)上和當(dāng)時剛發(fā)布的 DeepSeek V3 是并列的,在內(nèi)部業(yè)務(wù)評測中也有驚喜的表現(xiàn)。我們相信這個模型代表了當(dāng)時國內(nèi)多模態(tài)模型最好的水平,也堅定了我們對于融合模型這一路徑的信心。

  從日日新 6.0 開始,也包括在今年世界人工智能大會(WAIC)上面發(fā)布的日日新 6.5,都只有多模態(tài)模型,而沒有單獨(dú)的語言模型。這和國內(nèi)其它大模型廠商語言模型(LLM)和圖文模型(VLM)分立的布局有很大的區(qū)別。

  原生訓(xùn)練的數(shù)據(jù)挑戰(zhàn)

  原生多模態(tài)模型的訓(xùn)練能否成功,關(guān)鍵在于數(shù)據(jù)構(gòu)成。

  我們的原生多模態(tài)訓(xùn)練數(shù)據(jù),從模態(tài)組成的角度包含類型:自然語言、代碼、圖文交錯文檔、圖文對、以及視頻和圖像序列數(shù)據(jù)。不同類型的數(shù)據(jù)用于不同的目的:比如語言數(shù)據(jù)可以幫助模型掌握語言能力并且獲得世界知識;代碼數(shù)據(jù)主要面向編程能力,這不僅可以用于代碼助手,對于構(gòu)建智能體也是非常重要的。

  對于多模態(tài)理解,關(guān)鍵在于建模不同模態(tài)數(shù)據(jù)和語言的關(guān)聯(lián)。圍繞這一目標(biāo),有兩種數(shù)據(jù)形態(tài):圖文交錯,比如配圖的文章和新聞,還有就是學(xué)術(shù)界傳統(tǒng)常見的圖文對數(shù)據(jù)。這兩種數(shù)據(jù)有很不一樣的特點(diǎn)。圖文交錯數(shù)據(jù)在互聯(lián)網(wǎng)、文獻(xiàn)書籍中廣泛存在,天然就有海量的儲量;而天然存在的圖文對相較之下是非常少的,很大程度需要人工標(biāo)注或者合成。

  在我們研發(fā)多模態(tài)模型的早期,就大量采用圖文交錯數(shù)據(jù)來形成數(shù)據(jù)規(guī)模,然而發(fā)現(xiàn),大部分天然的圖文交錯數(shù)據(jù)的圖文關(guān)聯(lián)是很弱的,對于整體性能的影響正面但有限;而圖文對雖然少,但是圖文關(guān)聯(lián)度強(qiáng),對于跨模態(tài)建模是很有幫助的。從 2024 年開始,我們就投入很大力量研究大規(guī)模構(gòu)造多元化的圖文對數(shù)據(jù)的不同方法,包括從文本出發(fā),選擇或者合成相關(guān)的圖像,或者從圖像出發(fā),產(chǎn)生更多的問題。這些方法的探索很有成效:目前,圖文對數(shù)據(jù)在跨模態(tài)數(shù)據(jù)中的占比已經(jīng)超過 70%,對于我們多模態(tài)模型性能提升起到關(guān)鍵作用。

  5、多模態(tài)推理的挑戰(zhàn)在哪里?

  主要觀點(diǎn)

  • 大模型推理的核心途徑是“思維鏈”。由于人工構(gòu)造成本高、難以規(guī)?;季S鏈主要通過算法自動構(gòu)造。
  • 強(qiáng)化學(xué)習(xí)也是以思維鏈為載體訓(xùn)練模型的推理能力,它和 SFT 的根本差別在于從“強(qiáng)行模仿”轉(zhuǎn)變?yōu)椤白园l(fā)探索”,讓模型在 “生成-驗證-學(xué)習(xí)” 的算法閉環(huán)中持續(xù)改進(jìn)自身思維。
  • 推理模型的主要難點(diǎn)是在算法之外,主要有三重挑戰(zhàn):源問題的多樣性、自動化驗證的有效性、思維鏈探索的效率。
  • 人的思考過程其實是真正意義的跨模態(tài)的,是邏輯思維和形象思維的結(jié)合。從技術(shù)角度,形象思維能給邏輯思維帶來互補(bǔ)的思維路徑,拓寬思路。
  • 邏輯思維和形象思維的結(jié)合,主要是通過圖文交錯思維鏈實現(xiàn)的。
  • 圖文交錯思維鏈的技術(shù)本質(zhì)是一個“內(nèi)省式”的智能體 —— 調(diào)用工具修改自己的思維過程。
  • 圖文交錯思維鏈需要通過強(qiáng)化學(xué)習(xí)放大其作用,具體技術(shù)上實現(xiàn)要關(guān)注三個問題:動作空間的定義、混合獎勵信號的設(shè)計、以及 Agentic RL 系統(tǒng)的優(yōu)化。

  隨著模型能力的提升,多模態(tài)模型正在被應(yīng)用在更復(fù)雜的場景中,比如文檔分析、醫(yī)療診斷、城市管理和科學(xué)發(fā)現(xiàn)。在這些場景中,我們需要模型匯聚多種形態(tài)的信息,進(jìn)行多步的推理才能得到有意義的結(jié)論,這就要求模型具備多模態(tài)推理的能力。

  推理模型的核心挑戰(zhàn)

  大模型進(jìn)行推理的核心途徑就是“思維鏈”(Chain-of-Thought)。為什么需要思維鏈呢?因為,復(fù)雜問題的答案很多時候不是那么顯然的,很難通過 next token 的概率分布直接輸出,因此需要一個逐步推演的路徑導(dǎo)出結(jié)論。

  思維鏈數(shù)據(jù)的構(gòu)造是這里面的核心挑戰(zhàn)。思維鏈數(shù)據(jù)是非常稀缺的,大部分要依賴人工編寫或者算法構(gòu)造。人工編寫的成本非常高,而且很難規(guī)?;K惴?gòu)造主要是“批量生成 + 驗證篩選”的模式,就是從給定的源問題出發(fā),讓模型或者智能體生成多條思維鏈,之后基于自動化驗證篩選出好的思維鏈用于訓(xùn)練。

  大模型早期,思維鏈主要是通過監(jiān)督學(xué)習(xí)(SFT)訓(xùn)練到模型的,這種范式對于預(yù)先構(gòu)造的思維鏈有很強(qiáng)的依賴,而且模型的泛化性也比較脆弱。強(qiáng)化學(xué)習(xí)的引入提供了新的范式:我們不再需要預(yù)先構(gòu)造思維鏈,只需要提供問題和驗證器;學(xué)習(xí)算法會讓模型自行探索不同的思維路徑,分別計算它們的獎勵(Reward),選擇好的路徑對模型進(jìn)行更新。相比于監(jiān)督微調(diào)(SFT),強(qiáng)化學(xué)習(xí)的根本差別在于從”強(qiáng)行模仿“轉(zhuǎn)變?yōu)椤弊园l(fā)探索“,讓模型在 “生成-驗證-學(xué)習(xí)” 的算法閉環(huán)中持續(xù)改進(jìn)自身的思維。強(qiáng)化學(xué)習(xí)這種以內(nèi)生為主的算法特點(diǎn),使得它所形成的思維鏈更貼近模型基座的原生模式,也有更好的泛化性。

  需要指出的是,無論是思維鏈的預(yù)先構(gòu)造還是強(qiáng)化學(xué)習(xí),我們都面臨著學(xué)習(xí)算法之外的三重技術(shù)挑戰(zhàn):

  1. 源問題的多樣性:如何獲得足夠多樣化且具有挑戰(zhàn)性的源問題;
  2. 自動化驗證的有效性:如何對生成的思維鏈進(jìn)行有效的自動化驗證;
  3. 思維鏈搜索的效率:如何提升生成好的思維鏈的概率和效率。

  事實上,在推理模型的訓(xùn)練實踐中,強(qiáng)化學(xué)習(xí)的選型,比如 PPO 還是 GRPO,對于最終性能的影響并沒有那么顯著。這幾個技術(shù)問題才是推理模型訓(xùn)練的核心挑戰(zhàn)。這幾個問題的應(yīng)對直接影響模型的推理能力,這是模型研發(fā)組織需要重點(diǎn)關(guān)注的。

  多模態(tài)推理和文本推理的異同

  到了 2025 年,主要的多模態(tài)模型已經(jīng)具備了一定的推理能力。值得注意的是,主流多模態(tài)模型的推理思維鏈還是純文本的。實質(zhì)上,它們做的是通過多模態(tài)理解的能力把輸入的圖像轉(zhuǎn)換為文本描述,然后利用語言推理模型進(jìn)行后續(xù)的推理。這只是多模態(tài)理解與純文本推理的嫁接,并沒有在推理過程中發(fā)揮其它模態(tài)的作用。這和人類思考有很大差別:人的思考過程其實是真正意義的跨模態(tài)的,是邏輯思維和形象思維的結(jié)合。

  形象思維是以直覺形象支撐的思維過程。所謂“一圖勝千言”,在很多時候,直觀形象相比邏輯思維可以幫助我們更快地抓住事物的關(guān)鍵和本質(zhì),從而引發(fā)新的思考。這也是人們通過幾何圖形、信息圖表、工業(yè)圖紙等形象方式表達(dá)復(fù)雜信息的原因。

  從技術(shù)角度,為什么形象思維能帶來推理能力的提升?我們可以從這樣的角度進(jìn)行思考:某種意義上,大模型其實是一個龐大的思維網(wǎng)絡(luò),所謂思維鏈,可以理解為在這個網(wǎng)絡(luò)中漫步所經(jīng)過的路徑。相較于邏輯思維,形象思維有一些很不一樣的特點(diǎn),比如跳躍性、整體性、直覺性等。有了形象思維,相當(dāng)于在這個思維網(wǎng)絡(luò)中增加了一批新的連接和捷徑,從而形成更強(qiáng)的直覺思維和發(fā)散思維。這對于整體思考能力的提升是有意義的。

  如何實現(xiàn)邏輯思維和形象思維的結(jié)合?我們認(rèn)為:可以借鑒思維鏈的做法,但是要在思維鏈中加入圖形化的元素,把部分思考過程轉(zhuǎn)化為圖形化表達(dá),從而引發(fā)新的思考路徑。這種思維鏈?zhǔn)且詧D文交錯的形態(tài)存在的,在需要的地方插入圖形化的信息表達(dá)。我們在日日新 6.5 的研發(fā)中嘗試引入了圖文交錯思維鏈,已經(jīng)在實驗中觀察到它們對于多模態(tài)推理能力的正面作用。

  圖文交錯思維的技術(shù)挑戰(zhàn)

  到了實操層面,圖形化表達(dá)如何實現(xiàn)呢?這里有兩種思路,一種是內(nèi)生的混合模態(tài)思維鏈,就是思維鏈形成的過程中會自發(fā)產(chǎn)生視覺元素;另一種是在思考過程中根據(jù)需要調(diào)用工具進(jìn)行圖像編輯,比如放大局部區(qū)域或者添加輔助元素(輔助線、標(biāo)注點(diǎn)等)。

  在這兩種實現(xiàn)路徑的選擇上,我們考慮兩個問題:目標(biāo)和效率。首先,需要明確的是,我們在這里的目標(biāo),是以視覺要素引導(dǎo)思維,但是并不需要追求電影級的高清畫質(zhì);而且為了保證思考時間在一個可接受的范圍,每一個中間圖像的生成不能有太高的延時。而當(dāng)前的圖像生成技術(shù),無論是指令遵循的可靠性或者生成效率尚不能很好地滿足要求。

  基于這樣的觀察,我們選擇了兩步走的路徑:第一步,先通過調(diào)用工具進(jìn)行圖像編輯的方式,構(gòu)建圖文交錯思維鏈,這種方式可以高效且精準(zhǔn)地實現(xiàn)構(gòu)圖目標(biāo)。這個方法的本質(zhì)其實是構(gòu)建一個“對內(nèi)”(introspective)的智能體。 通常意義的智能體是調(diào)用工具和外部世界進(jìn)行交互;這里的智能體也是調(diào)用工具,但是它不是為了和外界交互,而是和自身的思維過程交互。智能體不僅能對外,也能對內(nèi),這是我們看待智能體的新的維度。第一步的進(jìn)展,可以讓我們對于圖文交錯思維的工作原理以及數(shù)據(jù)構(gòu)建方法論建立更加深入的理解。我們內(nèi)部正在推進(jìn)第二步的探索,就是基于多模態(tài)理解生成統(tǒng)一的機(jī)制實現(xiàn)內(nèi)生的圖文混合思考。我們相信這將為多模態(tài)推理打開新的空間。

  從具體的技術(shù)構(gòu)建來看,相比于純文本思維鏈,圖文交錯思維鏈的構(gòu)造更加挑戰(zhàn)。構(gòu)造者不僅要把思考過程寫下來,還得制作出作為思考節(jié)點(diǎn)的圖片,因此,很難以純?nèi)斯さ姆椒ㄟM(jìn)行大規(guī)模構(gòu)造。

  我們克服這個困難的途徑是:人工構(gòu)造種子 + 強(qiáng)化學(xué)習(xí)進(jìn)行規(guī)模化提升。具體而言,研究員根據(jù)對思維過程的理解先構(gòu)造出一批種子數(shù)據(jù),通過監(jiān)督微調(diào)(SFT)訓(xùn)練到模型當(dāng)中,使模型初步具備圖文交錯思考的能力,之后通過多輪強(qiáng)化學(xué)習(xí)顯著提升模型的多模態(tài)推理能力。我們發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)的效果非常顯著。在一個內(nèi)部多模思維的評測中,SFT 冷啟動只帶來了有限提升(52.5 → 54.2),但是經(jīng)過多輪強(qiáng)化學(xué)習(xí)后,提升到了 76.3。

  要走通這個技術(shù)路徑,我們需要解決三個技術(shù)問題:

  1. 動作空間(action space)的定義。 我們首先需要定義這個“內(nèi)省式”智能體能對思維鏈中的圖像做哪些操作。這些操作需要在 SFT 階段讓模型都經(jīng)歷過,這樣才能在后續(xù)的強(qiáng)化學(xué)習(xí)中激發(fā)它用這些操作進(jìn)行更多的圖文交錯思維探索。我們當(dāng)前的動作空間還是包括了局部放大、加掩膜(mask)、加輔助線、加標(biāo)注點(diǎn)等。雖然這個空間還比較有限,但是這些操作都非常實用,能解決很多問題,而且動作空間是可以在后續(xù)研究中不斷拓展的。
  2. 混合獎勵信號(reward)的設(shè)計。 我們在訓(xùn)練的時候融合了多種任務(wù),包括傳統(tǒng)的視覺感知、OCR、圖文問答、數(shù)學(xué)、代碼、表格分析、GUI 操作,以及更具有開放性的寫作、高階任務(wù)等。我們?yōu)椴煌娜蝿?wù)設(shè)計了不同的 Reward,對于有客觀標(biāo)準(zhǔn)的任務(wù),我們采用了基于規(guī)則的驗證器(Verifier),對于開放任務(wù)訓(xùn)練了 Reward model。不同的任務(wù)在訓(xùn)練過程中是混合的,并且隨著訓(xùn)練的推進(jìn),我們會加大困難任務(wù)的比例,以促進(jìn)模型能力的循序提升。
  3. Agentic RL 系統(tǒng)的優(yōu)化。這里的強(qiáng)化學(xué)習(xí)實質(zhì)上是在訓(xùn)練一個 Agent,因此需要 Agentic RL 能力的支持。為了提升訓(xùn)練效率,我們做了很多系統(tǒng)和算法的聯(lián)合優(yōu)化。這里和純文本條件下的 RL 有一個重要的區(qū)別,就是需要在學(xué)習(xí)的過程中需要給沙盒傳入很多圖像。因為模型本身的計算是在 GPU 上進(jìn)行,而沙盒中進(jìn)行的圖像操作是在 CPU 上進(jìn)行,而且圖像的字節(jié)數(shù)比文本要多,是會帶來不可忽略的通信成本的,因而需要進(jìn)行系統(tǒng)性的優(yōu)化。

  經(jīng)過多輪強(qiáng)化學(xué)習(xí)后,整體的推理性能大幅提升。其中,數(shù)理、代碼、GUI 操作、圖表分析、高階任務(wù)等維度的提升尤為顯著。這個觀察顯示了,在多模態(tài)思維的設(shè)定下,強(qiáng)化學(xué)習(xí)對于激發(fā)思考的有效性依然有明顯作用。

  這種以思維鏈為載體,強(qiáng)化學(xué)習(xí)為主要途徑的新范式對于在特定領(lǐng)域的推理提升,效果是非常顯著的。但在真實應(yīng)用中,這種路線也面臨一些挑戰(zhàn),包括:更高的幻覺率、思考過程過于發(fā)散和冗長、以及適用性受限(很多真實任務(wù)不容易對結(jié)果的正確性進(jìn)行明確驗證)。這些困難的解決仍舊是開放的問題,比如更有效的過程監(jiān)督結(jié)合、更優(yōu)的獎勵設(shè)計、以及更可泛化的獎勵模型等等都是目前技術(shù)領(lǐng)域在積極探索的路徑。

  6、商湯的訓(xùn)練數(shù)據(jù)是如何生產(chǎn)出來的?

  主要觀點(diǎn)

  • 訓(xùn)練數(shù)據(jù)發(fā)展有三個趨勢:規(guī)模成倍增長、數(shù)據(jù)加工程度加深、專業(yè)高階數(shù)據(jù)價值凸顯。
  • 商湯的數(shù)據(jù)生產(chǎn)體系關(guān)注三個核心目標(biāo):多樣性、質(zhì)量、生產(chǎn)效率。
  • 要進(jìn)一步提升大模型智能,專業(yè)高階數(shù)據(jù)非常重要,但是獲取難度高,以產(chǎn)品服務(wù)的方式獲取是一條值得探索的路徑。
  • 隨著強(qiáng)化學(xué)習(xí)逐漸成熟,思維鏈的生成和篩選會更多在強(qiáng)化學(xué)習(xí)的過程中進(jìn)行,訓(xùn)練者只需要提供題目和驗證器。這將從根本上緩解思維鏈構(gòu)建難的問題。但是可泛化的驗證器構(gòu)造會有較大的技術(shù)挑戰(zhàn)。

  對于大模型來說,訓(xùn)練數(shù)據(jù)的意義是根本性的。數(shù)據(jù)定義了模型的能力邊界,而模型架構(gòu)影響學(xué)習(xí)效率以及性能高度。

  訓(xùn)練數(shù)據(jù)發(fā)展的三個趨勢

  縱觀過去兩年大模型的發(fā)展,訓(xùn)練數(shù)據(jù)有三個方面的重要趨勢:

  1. 預(yù)訓(xùn)練數(shù)據(jù)的規(guī)模成倍增長:從 GPT-3 的 500B tokens 到最近 Qwen-3 的 36T tokens,三年間增長近百倍;
  2. 數(shù)據(jù)加工的程度越來越深:從最初的簡單清洗和去重,發(fā)展到利用多智能體進(jìn)行數(shù)據(jù)清洗和過濾,到今天,用大模型對數(shù)據(jù)大規(guī)模重寫成為了被廣泛采用的方法。數(shù)據(jù)加工所需要的計算成本已經(jīng)達(dá)到和預(yù)訓(xùn)練同一量級。我們相信未來對訓(xùn)練數(shù)據(jù)進(jìn)行離線處理所需的算力還將快速增長。
  3. 專業(yè)高階數(shù)據(jù)的價值日趨凸顯:隨著模型智能水平的提升,互聯(lián)網(wǎng)或者書籍上獲得的常規(guī)數(shù)據(jù)已經(jīng)很難再推動智能的進(jìn)一步升級,圍繞專業(yè)問題和高難度問題的思維密集型數(shù)據(jù)是突破的關(guān)鍵。

  商湯的數(shù)據(jù)生產(chǎn)體系

  商湯從最早的時候開始就深刻認(rèn)識到數(shù)據(jù)的重要意義,持續(xù)深耕多模態(tài)訓(xùn)練數(shù)據(jù)的建設(shè),形成了一套復(fù)雜的多模態(tài)數(shù)據(jù)生產(chǎn)體系,包含采集、清洗、質(zhì)檢、合成和模型驗證等環(huán)節(jié)。我們對訓(xùn)練數(shù)據(jù)的建設(shè)圍繞三個核心目標(biāo):多樣性(Diversity)、質(zhì)量(Quality)和生產(chǎn)效率(Efficiency)。

  • 多樣性(Diversity) :訓(xùn)練數(shù)據(jù)需要覆蓋不同的學(xué)科、領(lǐng)域和專業(yè)層次,也需要有不同的來源和風(fēng)格。對于多模態(tài)模型的訓(xùn)練來說,不同模態(tài)數(shù)據(jù)的均衡配比也是很重要的。
  • 質(zhì)量(Quality) :對于大模型訓(xùn)練而言,數(shù)據(jù)的質(zhì)量是生命線。日日新大模型系列從 1.0 發(fā)展到 6.0,每一次能力升級,數(shù)據(jù)質(zhì)量的提升都起到重要作用;當(dāng)我們發(fā)現(xiàn)模型的表現(xiàn)有問題時,追根溯源,往往發(fā)現(xiàn)是源自數(shù)據(jù)質(zhì)量的瑕疵。經(jīng)過近兩年的發(fā)展,業(yè)界對數(shù)據(jù)質(zhì)量要求的內(nèi)涵也在不斷豐富,現(xiàn)在我們不僅要求數(shù)據(jù)是干凈的,而且對于其中的信息密度、思維密度也提出了要求。

  為了保證數(shù)據(jù)的質(zhì)量水平,我們主要是通過模型檢驗數(shù)據(jù),標(biāo)準(zhǔn)很簡單,每一批數(shù)據(jù)投入真正的生產(chǎn)訓(xùn)練之前,我們都會在我們最新版的模型和業(yè)內(nèi)最好的開源模型進(jìn)行續(xù)訓(xùn),如果性能有增益,就說明這一批數(shù)據(jù)是有正面價值的。

  • 生產(chǎn)效率(Efficiency) :大模型訓(xùn)練需要海量的高質(zhì)量數(shù)據(jù),而且模型迭代節(jié)奏很快。這就需要我們的數(shù)據(jù)生產(chǎn)系統(tǒng)的效率要跟得上訓(xùn)練的節(jié)奏,不能拖后腿。數(shù)據(jù)生產(chǎn)的流程管線日趨復(fù)雜,當(dāng)越來越多的處理邏輯被集成到生產(chǎn)過程,不可避免帶來效率上的負(fù)擔(dān),因此需要持續(xù)進(jìn)行優(yōu)化。當(dāng)前,我們的數(shù)據(jù)生產(chǎn)系統(tǒng)滿載處理的時候可以每天生產(chǎn) 5T tokens,足以充分保障迭代需求。

  高階專業(yè)數(shù)據(jù)的獲取

  正如前文所述,隨著大模型智能水平的提升,專業(yè)高階數(shù)據(jù)(比如數(shù)學(xué)解題的思維鏈、醫(yī)療診斷背后的判斷過程、一份代碼背后的構(gòu)架思考)日趨重要。這些數(shù)據(jù)是引導(dǎo)模型從“知其然”(表層模式)到“知其所以然”(深層邏輯)進(jìn)化的關(guān)鍵。

  高階數(shù)據(jù)天然非常稀缺,在早期主要依靠請大學(xué)生或者專業(yè)人士進(jìn)行標(biāo)注,不僅費(fèi)用高昂,而且效率很低。據(jù)報道,OpenAI 正在以 100 美元時薪甚至更高的價格來聘請領(lǐng)域?qū)<疫M(jìn)行高階數(shù)據(jù)標(biāo)注。商湯的交互模型有很強(qiáng)的擬人和推動劇情的能力,其背后也離不開很多編劇編寫的高水平對話數(shù)據(jù)。

  面對挑戰(zhàn),商湯也在積極探索更加高效的路徑:

  • 以人工編寫的數(shù)據(jù)作為種子,通過自動化管線進(jìn)行增廣。經(jīng)過長時間努力,商湯的研究團(tuán)隊已經(jīng)搭建了面向不同類型的專業(yè)高階數(shù)據(jù)的規(guī)?;铣晒芫€,通過多智能體協(xié)作進(jìn)行思維鏈的合成和驗證。比如,在合成多模態(tài)思維鏈的時候,我們的管線會先產(chǎn)生某個主題,然后尋求相關(guān)概念的圖像進(jìn)行重組合成新的圖像,然后遵循某種思維路徑合成思維鏈路,最終由智能體進(jìn)行正確性和質(zhì)量的驗證。
  • 按照預(yù)設(shè)路徑的方法合成的思維鏈主要的問題是多樣性不足。為了解決這一問題,一方面可以擴(kuò)大種子數(shù)據(jù)的多樣性;另一方面,在高難度題目的牽引下,通過“路徑搜索”,也就是生成多種路徑并進(jìn)行驗證篩選,來找到更加復(fù)雜的思維鏈。
  • 在產(chǎn)品服務(wù)中自然獲取數(shù)據(jù)也是被業(yè)界積極嘗試的途徑。這背后的想法就是通過向?qū)I(yè)用戶提供好用的工具,在幫助他們工作的同時也能捕捉其從問題出發(fā)獲得結(jié)果的過程。這個途徑更貼近場景、也更容易規(guī)模化獲取,但是很需要產(chǎn)品服務(wù)層面的巧思。

  從技術(shù)發(fā)展的總體趨勢看來,隨著強(qiáng)化學(xué)習(xí)逐漸成熟,思維鏈的生成和篩選會更多在強(qiáng)化學(xué)習(xí)的過程中進(jìn)行,訓(xùn)練者只需要提供題目和驗證器。這將從根本上緩解思維鏈構(gòu)建難的問題。我們在研究圖文交錯思維的時候,就是采用了這一思路:只是人工構(gòu)建少數(shù)的種子,主要的訓(xùn)練過程是通過強(qiáng)化學(xué)習(xí)完成(參見上一節(jié))。但需要注意的是,驗證器的構(gòu)造,尤其是面向開放場景的可泛化驗證器,在技術(shù)上也有很多挑戰(zhàn),是我們需要再后續(xù)工作中重點(diǎn)關(guān)注的。

  7、模型設(shè)計有哪些思考?模型尺寸和架構(gòu)未來如何演進(jìn)?

  主要觀點(diǎn)

  • 模型架構(gòu)設(shè)計的核心是效率。
  • 日日新 6.5 的架構(gòu)優(yōu)化的重點(diǎn)是通過輕量化的視覺編碼器,實現(xiàn)視覺信息和語言信息應(yīng)該在更早期就進(jìn)行融合。
  • 模型尺寸的選取趨于務(wù)實,更優(yōu)的性能-成本曲線比單純追求大尺寸更加重要。
  • 大模型的應(yīng)用落地正在加速,多智能體是突破工業(yè)紅線的重要范式。
  • 主流模型架構(gòu)效率還非常低(相比于人腦),未來模型架構(gòu)演進(jìn)的核心仍將是效率提升,比如通過進(jìn)一步的稀疏化以及功能分化(e.g. 知識和推理解耦);同時多模態(tài)理解生成統(tǒng)一、快慢思考的融合都是值得探索的方向。

  模型架構(gòu)設(shè)計的核心是效率。一個好的模型架構(gòu),能夠以更低的代價實現(xiàn)從數(shù)據(jù)到模型能力的轉(zhuǎn)化。

  大模型最初采用的是稠密 Transformer 架構(gòu)(GPT-3、Llama),它的計算復(fù)雜度隨參數(shù)量線性增長,隨著上下文長度呈平方增長。因此,隨著參數(shù)量增長,上下文變長,它的計算成本就成為一個焦點(diǎn)問題。圍繞這個問題有很多探索,主要包括:

  1. 模型架構(gòu)的稀疏化:在保持總參數(shù)量的條件下,減少每次計算的激活參數(shù),從而降低計算代價。混合參數(shù)(MoE)就是這個方向的典型,已經(jīng)被業(yè)界廣泛采用。另外,對模型參數(shù)進(jìn)行剪枝和低比特量化也是降低計算成本的有效途徑。
  2. 高效的注意力機(jī)制:注意力機(jī)制的效率不僅影響算力成本,還直接影響模型的響應(yīng)延時和用戶體驗,一直收到行業(yè)的高度關(guān)注。Sparse attention、Linear attention、Paged attention 等不同機(jī)制被提出來,從不同角度降低注意力機(jī)制的復(fù)雜度。PD 分離等系統(tǒng)架構(gòu)上的優(yōu)化也是讓 KV Cache 被更高效運(yùn)用的架構(gòu)范式。

  日日新 6.5 背后的多模態(tài)架構(gòu)優(yōu)化

  對于多模態(tài)模型,架構(gòu)設(shè)計的復(fù)雜度多了一個維度,就是視覺編碼器(Visual Encoder)。雖然視覺編碼器的參數(shù)量占比不高(在日日新 6.0 里,視覺編碼器參數(shù)量只有 MLLM 主干參數(shù)的 1%),但是因為它對于每個圖像都要處理多個 patch,因此在端到端的計算延時上占比達(dá)到 30% 。真實應(yīng)用中,很多時候要處理大分辨率的圖像(比如設(shè)計圖、文檔表單等),因此占比更高。所以,在多模態(tài)架構(gòu)設(shè)計中,視覺編碼模塊的優(yōu)化是重要的議題。

  在模型設(shè)計中,我們重新思考了視覺編碼器和 MLLM 主干的功能定位。我們認(rèn)為,“眼睛”和“大腦”的設(shè)計是有本質(zhì)區(qū)別的,前者主要是捕捉視覺信號,這是一種連續(xù)信號,而且是受分辨率影響的;后者主要是在語言和語義層面進(jìn)行計算,而語言的表示方式是離散的(以 token 為單元)。這就決定了,視覺感知和語言模型應(yīng)該有不一樣的模型結(jié)構(gòu)和學(xué)習(xí)方式。

  視覺編碼器應(yīng)該聚焦在感知功能上,對視覺信號更加敏感,專注于視覺編碼。涉及到語義相關(guān)的處理,應(yīng)該及早和 LLM 主干進(jìn)行融合。所以,在日日新 6.5 里面,我們推動視覺編碼器輕量化的設(shè)計,把視覺編碼器的體積從 6B 減到 1B,從而實現(xiàn)更敏捷的感知;同時把 MLLM 主干變深(層數(shù)更多)變窄,以適應(yīng)深度推理的需要。經(jīng)過這樣的改動,模型可以更快捷地處理高分辨率大圖以及長視頻;再加上對訓(xùn)練數(shù)據(jù)的進(jìn)一步優(yōu)化,模型在同樣性能表現(xiàn)下的效率提升超過 3 倍。我們在架構(gòu)優(yōu)化上的努力使得性能成本曲線得以顯著優(yōu)化,實現(xiàn)了比 Gemini 2.5 系列更優(yōu)的效費(fèi)比。

  模型尺寸未來是否會進(jìn)一步增長

  在大模型時代早期,尺度定律在很大程度上驅(qū)動著模型能力的競爭和發(fā)展,模型規(guī)模曾突破萬億。Google 早在 2021 年就發(fā)表了萬億參數(shù)的 Switch Transformer,這也是較早嘗試把 MoE 和 Transformer 結(jié)合的工作。但是,業(yè)界很早就觀察到模型參數(shù)量并不是模型能力的唯一要素。DeepMind 在 2022 年的一篇論文中就基于詳盡的實驗分析指出:模型參數(shù)量和訓(xùn)練數(shù)據(jù)量應(yīng)該同步增長(“for compute-optimal training, the model size and the number of training tokens should be scaled equally”)。

  我們可以看到,從 2023 年至今,開源模型的參數(shù)量主要都設(shè)在 1B ~ 100B 的量級,并且逐漸形成了一種分層格局:百 B 級別的模型主要是性能天花板的競爭;7B ~ 30B 級別的模型被普遍用于垂直業(yè)務(wù);1B ~ 3B 的模型主要瞄準(zhǔn)端側(cè)應(yīng)用,或者用于業(yè)務(wù)工作流的轉(zhuǎn)接環(huán)節(jié)(文檔解析、Prompt 改寫、意圖分類等)。今年以來,隨著 MoE 的逐漸普及,主力模型的總參數(shù)量被提升到幾百 B,但是激活參數(shù)基本維持在 20B ~ 30B 的水平。至于企業(yè)里面用于服務(wù) C 端產(chǎn)品的閉源模型,據(jù)我們了解,出于服務(wù)成本和效率的考慮,也沒有比上述的尺寸更大。

  模型尺寸在過去兩年保持平穩(wěn),有兩個關(guān)鍵的原因:1)隨著大模型走向商業(yè)化,價格競爭激烈,各個企業(yè)選擇模型尺寸時趨于務(wù)實,而不是盲目追求參數(shù)量的超越;2)隨著數(shù)據(jù)質(zhì)量和訓(xùn)練水平提升,中小模型的性能進(jìn)步顯著,在很多重要指標(biāo)上已經(jīng)可以比肩 GPT-4。我們認(rèn)為,這樣的趨勢是符合經(jīng)濟(jì)規(guī)律和技術(shù)規(guī)律的,未來模型的發(fā)展主要還是圍繞著效率提升這一核心目標(biāo),以加速實用化的進(jìn)程。

  多智能體:突破紅線的重要范式

  與此同時,有兩個重要趨勢非常值得關(guān)注:

  1. 模型調(diào)用量正以指數(shù)式成長。IDC 報告指,從 2024 年 6 月到 12 月半年間,中國大模型服務(wù)的日均調(diào)用 token 數(shù)提升超過 10 倍,2025 年還在加速。在商湯內(nèi)部,我們也觀察到多個業(yè)務(wù)的模型調(diào)用量呈現(xiàn)跨數(shù)量級的增長。
  2. 模型的數(shù)量也在快速增長。HuggingFace 平臺上的模型數(shù)量已經(jīng)接近 200 萬個(2025 年 7 月),而這個數(shù)字在一年半之前(2023 年底)才在 1 萬附近。

  大模型從“大”到“多”,背后反映的是大模型正在經(jīng)濟(jì)生活中加速滲透,其應(yīng)用邊界在快速拓寬,人們在日常生活工作中對大模型的依賴也明顯加深。

  對于 AI 的商業(yè)化來說,我們正在經(jīng)歷一個歷史性的黃金時期,是值得我們以最大的努力去把握的。為此,關(guān)鍵的不是追求模型規(guī)模,而是在一個個的場景中打穿工業(yè)紅線,讓技術(shù)達(dá)到可規(guī)?;逃玫乃健?/p>

  要實現(xiàn)突破特定方向的紅線,要兩種可能的路徑:1)打造“超人”:持續(xù)提升單個模型或智能體的規(guī)模和水平;2)打造“團(tuán)隊”:讓多個智能體協(xié)作達(dá)成目標(biāo)。后者就是業(yè)內(nèi)現(xiàn)在經(jīng)常討論的多智能體。我們比較這兩種路徑。一個超級模型在很多方向突破紅線,超越人類,這是存在可能性的。但是這里有兩個問題,這樣的模型研發(fā)周期非常長,資源投入巨大;而且,在現(xiàn)有的技術(shù)水平下,這個模型會變得特別昂貴 —— GPT 4.5 和 Grok 4 的價單其實已經(jīng)初步反映了這個問題。相比而言,多智能體的路徑更為務(wù)實,并且在多個專業(yè)領(lǐng)域顯示出巨大的潛力。比如,最近 Google DeepMind 獲得數(shù)學(xué)國際奧賽金牌的 Deep Think 就是一個多智能體架構(gòu)的系統(tǒng)。在商湯,小浣熊背后也是一個多智能體架構(gòu),它在面對復(fù)雜業(yè)務(wù)場景的時候,顯示出比單一大模型更強(qiáng)的表現(xiàn)。

  模型架構(gòu)的未來演進(jìn):提效與融合

  模型架構(gòu)未來演進(jìn)的核心目標(biāo)之一仍然是效率的持續(xù)提升。 目前大模型的計算能效相比與人腦還有著多個數(shù)量級的差距。在這樣的架構(gòu)效率下,去追求超級智能的代碼將是無比高昂的。從追求 AGI 的長期目標(biāo)而言,先尋求更高效的路徑(比如接近人腦的效率),然后放大,可能是更理想的策略。

  要實現(xiàn)模型效率的進(jìn)一步提升,有“稀疏化”和“功能分化”兩個重要方向。 稀疏化就是減少每次計算的激活占比,僅使用必需的神經(jīng)元,以降低計算能耗。功能分化是指:根據(jù)不同功能的 Scale 規(guī)律進(jìn)行相應(yīng)的設(shè)計,并把它們有機(jī)組合在一起。比如,很多分析指出,模型的知識容量和總參數(shù)相關(guān)度比較高,而推理性能更取決與激活參數(shù),那么知識儲備和推理能力就應(yīng)該適當(dāng)解耦,沿著更合理的方式進(jìn)行配比;就像芯片一樣給于不同的功能單元以不同的空間,或者類似人的大腦那樣形成不同功能的皮層。

  除此之外,“融合”也是突破模型現(xiàn)有能力邊界的重要途徑。在過去的工作中,我們已經(jīng)看到了語言和視覺的融合所帶來的多模態(tài)能力的整體提升。展望未來,以下兩個方向的融合也是值得我們關(guān)注的:

  多模態(tài)的理解生成統(tǒng)一。目前,主流的多模態(tài)理解模型和多模態(tài)生成模型是兩個有顯著差異的方向,前者采用 MLLM 的自回歸架構(gòu),主要用于圖文問答;后者以擴(kuò)散模型為核心架構(gòu),主要用于圖像視頻生成。它們的研發(fā)目標(biāo)也是不同的,前者主要聚焦在語義邏輯,但是空間理解能力薄弱,后者主要追求高品質(zhì)的生成效果,但是可控性和結(jié)構(gòu)的真實性一直面臨挑戰(zhàn)。多模態(tài)理解生成統(tǒng)一的探索,主要是希望通過把兩者在架構(gòu)和訓(xùn)練目標(biāo)上進(jìn)行彌合,從而實現(xiàn)優(yōu)勢互補(bǔ):更強(qiáng)的空間理解 + 更可控的精準(zhǔn)生成。我們認(rèn)為,這是一個值得探索的方向,但是不應(yīng)該停留在簡單的架構(gòu)縫合,而是要著力于對其內(nèi)在機(jī)理的理解,從而實現(xiàn)真正意義的能力躍升。

  常規(guī)模型和慢思考的統(tǒng)一。帶有慢思考過程的推理模型相比于普通模型在推理性能上有代差級別的顯著進(jìn)步,在近幾個月成為領(lǐng)域競爭的焦點(diǎn)。但是它們在應(yīng)用中也暴露出一些重要問題,比如冗長且發(fā)散的思維鏈、更高的幻覺率、以及可靠性和可控性的挑戰(zhàn)等。我們認(rèn)為,目前常規(guī)模型和推理模型分立的情況是 AI 進(jìn)入推理階段早期的一個暫時狀態(tài)。一個具有較高智能水平的智能體(比如“人”)應(yīng)該能根據(jù)情況需要,比如問題的挑戰(zhàn)性以及是否有充足的思考時間,來自主選擇不同的思考長度。而且,一個良好的學(xué)習(xí)范式應(yīng)該能讓不同條件下的思考能力都得到平衡的提升。

  商湯在日日新 6.5 版本嘗試把常規(guī)模型和推理模型融為一體,觀察到了積極的效果,兩種模式的協(xié)同訓(xùn)練,一方面給常規(guī)模式下的推理能力帶來提升,另一方面也在一定程度上緩解了推理模式的幻覺。因此我們可以用一個模型支撐兩種模式(需要前置設(shè)定模式)。我們目前在這兩者統(tǒng)一的探索上還處在相對早期,未來還將推進(jìn)思考模式的深層融合,使得模型可以做得動態(tài)自適應(yīng)切換。

  8、從多模態(tài)到具身智能,會面臨哪些挑戰(zhàn)?

  主要觀點(diǎn)

  • 具身智能當(dāng)前首先需要解決的是交互學(xué)習(xí)的效率問題。
  • 世界模型是解決交互學(xué)習(xí)效率的關(guān)鍵技術(shù)途徑,其核心是對真實物理規(guī)律和空間結(jié)構(gòu)的有效掌握,因此,通常的視頻生成模型還不是真正意義的世界模型。
  • 世界模型的構(gòu)建需要海量數(shù)據(jù)支撐。多模態(tài)模型為世界模型提供好的基礎(chǔ)。

  當(dāng) AI 從數(shù)字空間走到物理空間,和真實世界進(jìn)行交互,我們面臨的挑戰(zhàn)是:物理世界的交互很難進(jìn)行文字記錄,因此需要從實際交互過程學(xué)習(xí)。

  跟其它學(xué)習(xí)階段一樣,學(xué)習(xí)效率是核心挑戰(zhàn)。采用真機(jī)交互的效率很低(無論是直接交互還是遙操作),當(dāng)前只能滿足特定場景的需要,很難像大語言模型那樣依托海量互聯(lián)網(wǎng)數(shù)據(jù)形成通用能力。而通過視頻模擬學(xué)習(xí),精細(xì)度以及領(lǐng)域鴻溝(domain gap)離可用還有比較遠(yuǎn)的距離。因此,在這個階段,首要解決的是交互學(xué)習(xí)的效率問題。

  一個很直接的想法,就是通過一個虛擬系統(tǒng)模擬現(xiàn)實世界的交互,讓智能體在這個系統(tǒng)里面的每個動作都能獲得合適的接近真實的反饋。這個虛擬系統(tǒng)的核心就是“世界模型”,它基于對空間結(jié)構(gòu)和物理規(guī)律的把握會對虛擬的具身智能體的動作做出接近真實的反應(yīng)。由于世界模型的交互效率遠(yuǎn)高于真實環(huán)境,以此有望顯著提升交互學(xué)習(xí)的效率。

  世界模型的技術(shù)關(guān)鍵是對于空間結(jié)構(gòu)和物理規(guī)律的精準(zhǔn)掌握以及多樣化場景的覆蓋。通常的視頻生成模型只是捕捉了世界的視覺側(cè)面,并沒有對真實物理規(guī)律和空間結(jié)構(gòu)的有效掌握,因此還不能視為真正意義的世界模型。

  世界模型的構(gòu)建是需要海量數(shù)據(jù)支撐的。商湯的開悟世界模型是在我們的多模態(tài)模型能力基礎(chǔ)上構(gòu)建起來 —— 這個多模態(tài)模型本身就壓縮了關(guān)于這個世界的海量數(shù)據(jù)。通過智能汽車業(yè)務(wù)獲得的大量真實場景數(shù)據(jù)進(jìn)行加強(qiáng),世界模型就因而具備了很強(qiáng)的模擬和生成能力,可以根據(jù)指定路徑生成不同視角的視頻。這個模型在我們的智能駕駛系統(tǒng)訓(xùn)練中提供了很有效的交互反饋,從而幫助我們的智能駕駛系統(tǒng)更高效地訓(xùn)練。

  注:關(guān)于世界模型和具身智能,由于篇幅關(guān)系,這里只做簡要的闡述。后面我們也考慮在合適時間進(jìn)行更詳細(xì)的分享。

  9、商湯如何建設(shè)一支有高效且富有創(chuàng)新力的研究力量? 

  主要觀點(diǎn)

  • 創(chuàng)新人才都是技術(shù)變革的核心驅(qū)動力量。
  • 面對激烈競爭,研究團(tuán)隊需要具備更高的組織度,以實現(xiàn)更高的迭代效率;同時,也需要有充分的技術(shù)探索空間,以保持創(chuàng)新的活力。
  • 商湯是基于技術(shù)規(guī)律出發(fā)設(shè)計研究組織,關(guān)注兩個關(guān)鍵要素:方向和效率。
  • 商湯對研究團(tuán)隊進(jìn)行了多方面重構(gòu):資源統(tǒng)一調(diào)度、專項創(chuàng)新、系統(tǒng)提效、獨(dú)立評測。

  在人工智能發(fā)展的每一個歷史階段,創(chuàng)新人才都是技術(shù)變革的核心驅(qū)動力量。在大模型時代,這一點(diǎn)也沒有改變。 在最近一段時間,人工智能研究人才的高價薪酬引起了廣泛關(guān)注。這背后代表了領(lǐng)域里面正在形成的共識—— 在研發(fā)路徑高度同質(zhì)化的當(dāng)下,年輕研究者的創(chuàng)新精神是破局的關(guān)鍵。

  在商湯科技過去十年的發(fā)展中,孕育了一支富有創(chuàng)新精神且有強(qiáng)大戰(zhàn)斗力的研究團(tuán)隊。他們在商湯穿越技術(shù)周期的每一次變革中扮演著重要角色,憑借其前瞻的視野和不懈的探索,和產(chǎn)品業(yè)務(wù)團(tuán)隊共同定義我們前行的道路,讓公司持續(xù)保持競爭力。

  在 AI 2.0 時代,研究組織也面臨新的挑戰(zhàn) —— 大模型的訓(xùn)練高度依賴數(shù)據(jù)和算力的聚集,而且外部競爭加劇,這要求我們的研究團(tuán)隊需要具備更高的組織度,以實現(xiàn)更高的迭代效率;同時,也需要有充分的技術(shù)探索空間,以保持創(chuàng)新的活力。如何應(yīng)對這樣的挑戰(zhàn)是每個公司研究組織必需回答的命題。

  我們構(gòu)建研究組織的整體思路是:從技術(shù)規(guī)律出發(fā)設(shè)計組織結(jié)構(gòu)。這里面有兩個關(guān)鍵因素:一是方向,保證技術(shù)迭代的方向和公司戰(zhàn)略是一致的,這里評測的導(dǎo)向是關(guān)鍵抓手;二是效率,讓迭代的效率足夠高,保證在我們專注的方向中走在業(yè)界前列。

  在 AI 2.0 時代,商湯對研究組織進(jìn)行了幾個方面的重構(gòu):

  1. 原來分散在各個事業(yè)部的研發(fā)團(tuán)隊進(jìn)行整合,算力和數(shù)據(jù)等技術(shù)資源也在集團(tuán)層面整體配置,保障了研究力量可以根據(jù)技術(shù)迭代的需要進(jìn)行統(tǒng)一且靈活的配置。在幾次關(guān)鍵的攻堅任務(wù)中,這種統(tǒng)一架構(gòu)起到了關(guān)鍵作用,使得資源得以有效集中;在過去一年訓(xùn)練范式變遷的趨勢下,我們也通過這種機(jī)制及時加大了對強(qiáng)化學(xué)習(xí)的投入。
  2. 商湯早期的大模型研究團(tuán)隊架構(gòu)也是遵循業(yè)界主流的預(yù)訓(xùn)練、微調(diào)、多模態(tài)分工模式,各自會訓(xùn)練不同的模型。隨著我們突破了原生融合訓(xùn)練的技術(shù)路徑,我們根據(jù)新范式調(diào)整了研究體系,只保留了一個集成訓(xùn)練團(tuán)隊來集中訓(xùn)練日日新多模態(tài)模型,其它團(tuán)隊各自承擔(dān)不同的領(lǐng)域,貫穿預(yù)訓(xùn)練、微調(diào)和強(qiáng)化學(xué)習(xí)來進(jìn)行端到端研發(fā),進(jìn)行數(shù)據(jù)迭代;專項數(shù)據(jù)經(jīng)過驗證后匯集到集成訓(xùn)練。這樣的組織模式,一方面保證了日日新大模型集成了集團(tuán)各個研究團(tuán)隊的努力成果,同時也讓各個領(lǐng)域團(tuán)隊可以有個貫穿前后階段的視野,實現(xiàn)整體的提升。
  3. 商湯的大模型數(shù)據(jù)團(tuán)隊在過去兩年,也經(jīng)歷了兩次重要的變化。自 2023 年始,我們圍繞大模型的數(shù)據(jù)供給需求,組建了新的數(shù)據(jù)團(tuán)隊,它建設(shè)了商湯的數(shù)據(jù)生產(chǎn)基礎(chǔ)設(shè)施,為商湯模型的訓(xùn)練提供了大量的高質(zhì)量語料。到了 2024 年中,隨著合成數(shù)據(jù)的比重加大,數(shù)據(jù)生產(chǎn)的算法化程度不斷提升,我們再次重構(gòu)了數(shù)據(jù)生產(chǎn)體系,讓算法團(tuán)隊承擔(dān)數(shù)據(jù)合成的主責(zé),而數(shù)據(jù)基礎(chǔ)設(shè)施團(tuán)隊主要是維護(hù)和升級基礎(chǔ)設(shè)施,保障數(shù)據(jù)規(guī)?;a(chǎn)的效率。
  4. 新建了獨(dú)立于模型研發(fā)團(tuán)隊的評測團(tuán)隊。它一方面保持對技術(shù)前沿的關(guān)注,另一方面和產(chǎn)品業(yè)務(wù)團(tuán)隊緊密配合,把應(yīng)用中面臨的主要問題融入評測體系。評測團(tuán)隊的核心 KPI 是保證評測結(jié)果和用戶體感是一致的,它的報告會獨(dú)立遞送給管理層,以保證管理層對于商湯的技術(shù)進(jìn)展有個客觀公允的認(rèn)知。在這個獨(dú)立評測體系的牽引下,模型研發(fā)團(tuán)隊高度關(guān)注模型的真實表現(xiàn),而不僅是榜單成績,這對于商湯的模型保持商業(yè)競爭力非常重要。
  5. 保持足夠高的迭代效率是在大模型激烈競爭中致勝的關(guān)鍵。迭代的效率由兩個要素共同作用:算力效率和人員效率。為了保證高的迭代效率,商湯組建專責(zé)團(tuán)隊,一方面和大裝置緊密協(xié)同,在為模型訓(xùn)練推理提供高效的計算支撐的同時,也牽引大裝置的敏捷迭代,讓它真正成為“最懂大模型的基礎(chǔ)設(shè)施”;另一方面,關(guān)注全鏈條的迭代效率,以算法化和工程化方式及時沉淀和推廣最佳實踐,推動整體迭代效率的持續(xù)提升。在這些團(tuán)隊的努力下,模型研發(fā)的基建不斷完善,模型訓(xùn)練的自動化程度在不斷提升。

  總體而言,商湯的研究團(tuán)隊在 AI 技術(shù)快速演進(jìn)的時代浪潮下,組織體系也在與時俱進(jìn),不斷重塑自我,始終以最佳的隊形應(yīng)對激烈的競爭;在持續(xù)提升研發(fā)效率的同時,保持著堅持原創(chuàng)的初心。

  10、商湯如何平衡技術(shù)突破和商業(yè)落地的關(guān)系?

  主要觀點(diǎn)

  • 通向 AGI 的道路是一場長跑,技術(shù)理想也需要商業(yè)價值的護(hù)航才能行穩(wěn)致遠(yuǎn)。
  • 商湯沒有把技術(shù)和商業(yè)視為爭奪資源的兩側(cè),而是把它們視為互為因果的兩個環(huán)節(jié),關(guān)注它們的正向循環(huán)。
  • 在研發(fā)投入上最核心的問題是最好“科技樹”上的選擇題。
  • 研發(fā)和商業(yè)的正向循環(huán),不只是一句口號,而是貫徹于組織、項目和考核等各個層面的理念。
  • 長期主義帶來的復(fù)利,將讓我們在自己的道路上脫穎而出,形成堅實的競爭優(yōu)勢。

  這一波大模型浪潮重塑了全世界對于人工智能的認(rèn)知。新技術(shù)、新產(chǎn)品令人目不暇接,“未來已來”是很多人最直觀的感受。繁華和喧囂的背后,我們始終保持著一個重要的判斷:

  通向 AGI 的過程是一場長跑

  通向通用人工智能(AGI)的過程是一場長跑,不是一蹴而就的沖刺。 當(dāng)靜下心來去審視人工智能這兩年多以來的進(jìn)展,我們會看到有很多基本挑戰(zhàn)尚未能得到解決:

  • 大模型在獲得奧賽金牌的同時,在很多業(yè)務(wù)場景中的表現(xiàn)仍然不夠可靠;
  • 大模型工作機(jī)理尚未被充分認(rèn)識,我們還缺乏可靠的方法論保證模型的行為遵循人類的期待;
  • 大模型對于三維空間以及物理規(guī)律的掌握還處在較早期的階段;
  • 由于專業(yè)數(shù)據(jù)的壁壘,大模型向高價值行業(yè)落地還面臨重要挑戰(zhàn);
  • 大模型的工作還是以現(xiàn)有知識和能力的深度重組為主,如何讓它創(chuàng)造新的知識目前還是開放問題;
  • 大模型的計算效率和人腦相比還存在巨大差距(人腦的平均功率只有 20 瓦,卻能敏捷處理復(fù)雜的多模態(tài)信號)。

  這些問題的解決還需要較長的時間。AlphaGo 是人工智能歷史上一次里程碑式的進(jìn)步,大模型也是,但是,以目前所取得的進(jìn)展而言,宣稱“AGI 的到來” 似乎還為時尚早。

  商湯始終堅定地走在追尋 AGI 的道路上,但是技術(shù)理想也需要商業(yè)價值的護(hù)航才能行穩(wěn)致遠(yuǎn)。

  技術(shù)突破和商業(yè)落地的正向循環(huán)

  在實際工作中,如何才能實現(xiàn)技術(shù)突破和商業(yè)落地的平衡?這是這個領(lǐng)域每個公司都會面臨的核心問題。在商湯,我們沒有把技術(shù)和商業(yè)視為爭奪資源的兩側(cè),而是把它們視為互為因果的兩個環(huán)節(jié)。相比于資源的分配,我們更關(guān)注這兩者如何實現(xiàn)有效的正向循環(huán)。

  基于這樣的認(rèn)知,我們確立了“基礎(chǔ)設(shè)施 - 模型 - 應(yīng)用”三位一體的總體戰(zhàn)略。一方面,我們在大裝置基礎(chǔ)設(shè)施支撐下,致力于打造業(yè)界領(lǐng)先的通用多模態(tài)大模型,融匯跨模態(tài)跨領(lǐng)域的數(shù)據(jù),通過持續(xù)的技術(shù)創(chuàng)新,在感知、理解、推理、交互等能力維度上不斷突破;另一方面,我們在應(yīng)用上聚焦生產(chǎn)力和交互,在真實場景牽引下,構(gòu)建端到端的產(chǎn)品技術(shù)競爭力。

  到了具體研發(fā)決策的層面,我們確實面對很多開放性的挑戰(zhàn),技術(shù)上可以投入的事項非常多,但是資源和時間都是有限的。因此,我們在研發(fā)投入上最核心的問題是“科技樹”上的選擇題。具體而言,我們在選擇投入做什么研發(fā)的時候,會考慮三個基本問題:1)它是否順應(yīng)技術(shù)發(fā)展的總體趨勢(是否走向融合而不是更深的定制);2)它是否可以增強(qiáng)商湯所聚焦方向的競爭力;3)它是否是在我們經(jīng)過努力可以達(dá)成的。對于這些問題的回答是技術(shù)和商業(yè)判斷凝聚的結(jié)果。在商湯,每個研發(fā)周期前都會有產(chǎn)研會商的研討會議,共同確定下一階段的投入方向以及目標(biāo)。我們密切觀察外部的進(jìn)展,但是我們有我們自己的定位和節(jié)奏,不會受外界過多的干擾。

  在商湯,研發(fā)和商業(yè)的正向循環(huán),不只是一句口號,而是貫徹于組織、項目和考核等各個層面的理念。 值得強(qiáng)調(diào)的是,業(yè)務(wù)對于研究的引導(dǎo),并不是要讓研究人員去圍繞特定需求做定制,而是從中抽象出關(guān)鍵的課題,融入每一個階段的研發(fā)規(guī)劃,從而為產(chǎn)品構(gòu)筑長期競爭力。

  在三位一體戰(zhàn)略和技術(shù)與業(yè)務(wù)正向循環(huán)的驅(qū)動下,我們過去一年取得了很多進(jìn)展。一方面,我們的基礎(chǔ)技術(shù)體系形成了更強(qiáng)的創(chuàng)新勢頭,在業(yè)內(nèi)率先取得一系列創(chuàng)新成果:比如原生融合訓(xùn)練,圖文交錯思維鏈、多模態(tài)融合強(qiáng)化學(xué)習(xí)、無限時長的視頻交互記憶、以及開悟世界模型;另一方面,在技術(shù)創(chuàng)新的支撐下,商業(yè)化局面正在迅速打開,生產(chǎn)力 AI 的性能持續(xù)保持領(lǐng)先,裝機(jī)量正在從百萬量級走向千萬量級;交互 AI 廣泛落地各種新型智能硬件和機(jī)器人,正在重塑用戶和世界交互的形態(tài)。商湯在生成式 AI 板塊業(yè)績的持續(xù)高速成長充分顯示了這些成果所帶來的商業(yè)回報。

  面對大廠的競爭,商湯在資源投入的總量上是有一個限度的。但是,我們對于未來的路徑有自主的思考和認(rèn)知,在戰(zhàn)略上高度聚焦,長期堅持,在技術(shù)路徑和產(chǎn)品業(yè)務(wù)上鼓勵創(chuàng)新,敏捷迭代,逐漸建立起技術(shù)-商業(yè)的閉環(huán)。

  這種長期主義帶來的復(fù)利,將讓我們在自己的道路上脫穎而出,形成堅實的競爭優(yōu)勢。

海量資訊、精準(zhǔn)解讀,盡在新浪財經(jīng)APP

責(zé)任編輯:何俊熹

(責(zé)任編輯:休閑)

    相關(guān)內(nèi)容
    精彩推薦
    熱門點(diǎn)擊
    友情鏈接