手機(jī)游戲走向主機(jī)級畫質(zhì),手機(jī)芯片做好準(zhǔn)備了嗎?
和手機(jī)AP SoC發(fā)展更早期,不同GPU性能與能效可拉開差距的時(shí)代不同,當(dāng)代幾款主流手機(jī)芯片的GPU性能已經(jīng)咬得非常緊:標(biāo)志性事件是iPhone的GPU性能、能效神話于前些年走向徹底終結(jié)——電子工程專輯在2021年底天璣9000發(fā)布之時(shí)...
2021年底、2022年初的這段時(shí)間之所以特別,就在于Mali GPU開始了性能與能效的狂飆,拋開了不及蘋果GPU、高通Adreno的帽子;與此同時(shí),聯(lián)發(fā)科借助天璣9000成功步入旗艦手機(jī)市場——雖然GPU并非其中唯一因素......
隨著手機(jī)GPU競爭進(jìn)入白熱化,主流市場參與者普遍已經(jīng)從單純的圖形基準(zhǔn)測試跑分對陣,走向?qū)Φ凸?、高畫質(zhì)的追逐,乃至走向圖形技術(shù)標(biāo)準(zhǔn)與生態(tài)的構(gòu)建能力競爭。
比如說最近聯(lián)發(fā)科發(fā)布天璣9500,在談GPU的時(shí)候,除了宣傳3D Steel Nomad Light(SNL)跑分和主流手游的運(yùn)行幀率,也將更大篇幅放在了滿幀前提下的功耗水平、光追效果、對虛幻引擎5.5 Nanite、5.6 MegaLights技術(shù)的支持上;乃至探討轉(zhuǎn)向Vulkan的價(jià)值、光追生態(tài)構(gòu)建、與游戲引擎游戲工作室的合作等。
這表現(xiàn)出的就是手機(jī)GPU市場正步入成熟階段。這篇文章我們就以最新發(fā)布的天璣9500及其GPU為依據(jù),嘗試展望未來1-2年內(nèi)的手機(jī)GPU及手游發(fā)展方向:明后年的手游市場可能會更加波濤洶涌。
性能過剩了!還加重手機(jī)GPU投入?
按照慣例,先來看看天璣9500芯片的配置及其與天璣9400的對比:
這顆芯片值得探討的部分很多,比如說繼續(xù)采用全大核設(shè)計(jì)的CPU、超性能+超能效雙NPU架構(gòu)及相關(guān)AI的系統(tǒng)設(shè)計(jì),有挺多技術(shù)點(diǎn)值得單獨(dú)探討。但本文主要專注于其中的GPU和圖形渲染部分——電子工程專輯將就芯片的其他部分另外撰文。
就天璣9500所用的Mali G1-Ultra,Arm早前提供的數(shù)據(jù)是它相比上代GPU的圖形基準(zhǔn)與游戲性能提升約20%、每幀功耗降低9%、光追性能提升2倍(vs 14核Immortalis-G925 MC14)。
天璣9500在3DMark SNL測試中的峰值性能相比上代提升33%,且在達(dá)到天璣9400同等峰值性能的情況下功耗下降42%??赡艽蟛糠秩藢@個(gè)數(shù)字是沒有明確感知的,再來看一組聯(lián)發(fā)科公布的游戲?qū)崪y數(shù)據(jù):
在全高畫質(zhì)的30分鐘持續(xù)測試中,《和平精英》《暗區(qū)突圍》《三角洲行動》皆“超高幀全程滿幀”(144fps);《王者榮耀》全高畫質(zhì)30分鐘平均120fps;《原神》全高畫質(zhì)30分鐘平均60fps...都是這些游戲的“滿幀”狀態(tài)。
在不考慮手機(jī)系統(tǒng)設(shè)計(jì)個(gè)體差異的情況下,圖形負(fù)載最重的游戲均可在游戲全程保持長時(shí)間滿幀——“滿幀”這個(gè)詞實(shí)際是從天璣9200時(shí)代就常聽聯(lián)發(fā)科提起的。去年的聯(lián)發(fā)科稱手機(jī)已經(jīng)走到了“后滿幀時(shí)代”——言下之意是當(dāng)代手游實(shí)現(xiàn)游戲“滿幀”,對天璣旗艦手機(jī)芯片而言都不成為一個(gè)問題。
還是拋開手機(jī)系統(tǒng)設(shè)計(jì)的個(gè)體需求不同,在這種情況下,手游玩家究竟為什么還要追求更好的手機(jī)GPU,或者說手機(jī)芯片廠商為什么還要持續(xù)投入到手機(jī)GPU之中呢?
去年聯(lián)發(fā)科的解釋是,從追求性能滿幀,到滿幀前提下盡可能低的功耗——這自然也是近兩年天璣9000系列芯片的主題之一。比如前文已經(jīng)提到,在SNL測試中天璣9500在達(dá)到天璣9400峰值性能的情況下,功耗節(jié)約42%;《王者榮耀》達(dá)成滿幀的情況下,功耗下降19%;《原神》滿幀時(shí)功耗下降將近10%......聯(lián)發(fā)科稱其為“滿幀低功耗雙滿貫”。
功耗和發(fā)熱降低,當(dāng)然就能做到游戲更長時(shí)間的滿幀。不過我們認(rèn)為這不是聯(lián)發(fā)科持續(xù)投入手機(jī)GPU的最重要原因...
手游畫質(zhì)面臨大幅提升!GPU危?
有關(guān)手機(jī)游戲性能需求變化,Arm前不久給出了兩組更具體、可感知的數(shù)字:
(1)虛幻引擎5移動版,每次版本更新(尤其UE5.0-5.3)對性能的要求實(shí)際都有大約7%的提升;且如果從虛幻引擎5.3移動版遷往虛幻引擎5.4 SM5的桌面級延后渲染器(deferred renderer),GPU負(fù)載會增加2-3倍,這就給跨端游戲在手機(jī)上游玩造成了巨大壓力;
(2)從2021年到2023年,《原神》這款手游在不同版本的更新中,給GPU造成的壓力增加了28.5%;而《絕區(qū)零》的問世又在《原神》的基礎(chǔ)上給GPU新增了10%的負(fù)載壓力。所以總的來說,手游也正走向更高的圖形計(jì)算復(fù)雜度,或者從體驗(yàn)角度來看更高的畫質(zhì)。
聯(lián)發(fā)科在天璣9500發(fā)布會上多次提到了手游畫質(zhì)向“3A”看齊,要帶來“主機(jī)級爽感”。雖然聽起來很夸張,但這其中有個(gè)非常明確的依據(jù):2026年會有越來越多的“跨端”游戲問世。所謂的跨端游戲,即同時(shí)面向PC、主機(jī)、手機(jī)等設(shè)備類型的游戲。
雖然當(dāng)面向手機(jī)時(shí),畫質(zhì)要求不會高到PC的程度,但依舊會給手機(jī)GPU帶來極大的負(fù)擔(dān);而且過大的畫質(zhì)差距,會給玩家在不同平臺上帶來割裂的游戲體驗(yàn)。
有關(guān)手游畫質(zhì)提升,今年聯(lián)發(fā)科主要談到了3個(gè)話題:光線追蹤,虛幻引擎5.5 Nanite,虛幻引擎5.6 Megalights——在此一一展開簡單聊聊。
光線追蹤技術(shù)本身想必不用再多談了,電子工程專輯,這是個(gè)能夠?qū)崿F(xiàn)更真實(shí)光影效果、但也更吃資源的技術(shù)——即便對PC及游戲主機(jī)而言,光追的算力需求都是巨大的。天璣9200可被視作首個(gè)做到了硬件級光追加速的天璣SoC,也正式開啟了天璣SoC對光追技術(shù)的探索?;诼?lián)發(fā)科的數(shù)據(jù),天璣9300、天璣9400則讓光追游戲走向了60fps和90fps。
天璣9500所用Mali G1-Ultra GPU的shader核心換用RTUv2(第二代光追單元),讓本代GPU實(shí)現(xiàn)了超過2倍的光追性能提升。在3DMark Solar Bay Extreme光追基準(zhǔn)測試中,天璣9500的跑分相較天璣9400提升了119%(2573分 vs 1173分),天璣9500把光追游戲帶到了120fps時(shí)代——在《暗區(qū)突圍》游戲中,天璣9500就實(shí)現(xiàn)了開啟光追效果后的120fps幀率。
不過在我們看來更重要的是,聯(lián)發(fā)科特別提到天璣9500已經(jīng)實(shí)現(xiàn)了對所謂完整Ray tracing Pipeline(光線追蹤管線)的支持,達(dá)成真正意義上“主機(jī)級”光追。這里的Ray tracing Pipeline應(yīng)該是指Vulkan的VK_KHR_ray_tracing_pipeline,后文在談生態(tài)建設(shè)的部分會更詳細(xì)地聊到。總之對Ray tracing Pipeline的支持意味著手游的光追的確在向桌面PC與主機(jī)看齊——這同樣是基于聯(lián)發(fā)科說“2026年更多跨端游戲會將PC端的光追要求帶到移動端來”這一基礎(chǔ)判斷。
有關(guān)MegaLights動態(tài)光源方案:這是虛幻引擎5.6引入的直接光照系統(tǒng),開發(fā)者可基于這項(xiàng)技術(shù)在場景中引入大量動態(tài)光源——著眼采用重點(diǎn)采樣(importance sampling)之類的方案降低開銷和資源需求,且可與硬件光追或虛擬陰影貼圖(virtual shadow maps)做集成。
聯(lián)發(fā)科對該方案的解釋是“在同等算力預(yù)算下,可增加數(shù)百個(gè)動態(tài)光源,搭配高數(shù)量級的幾何模型,達(dá)到真實(shí)光影效果”。所以未來的手游,“會有越來越多的動態(tài)光源”,即便圖形技術(shù)本身在嘗試提升效率,也“需要軟硬結(jié)合才能支撐更多的動態(tài)光源,實(shí)現(xiàn)實(shí)時(shí)光影的交互”——即成為天璣9500的技術(shù)亮點(diǎn)之一。
從電子工程專輯獲悉的資料來看,在某些主打采用MegaLights特性、多光源再加上光追的實(shí)驗(yàn)室測試場景中,Mali G1-Ultra有機(jī)會實(shí)現(xiàn)相較Immortalis-G925大約40%或更高的幀率提升。顯然這是個(gè)在未來手游中很令人期待的技術(shù)特性:畫質(zhì)更好,且天璣9500提供了算力支撐。
還有一項(xiàng),相關(guān)虛幻引擎5.5之中引入的Nanite——用聯(lián)發(fā)科的話來說,在同等級算力預(yù)算下,“渲染幾何數(shù)量提升數(shù)十倍”;實(shí)現(xiàn)“超高數(shù)量級幾何模型”支持,“達(dá)到PC級細(xì)節(jié)表現(xiàn)”。相較于傳統(tǒng)網(wǎng)格渲染,Nanite是將幾何體切成clusters,在對應(yīng)分辨率下僅stream畫面中可見的cluster,然后通過硬件光柵化和計(jì)算shader實(shí)現(xiàn)更高效的渲染。
簡單來說,就Nanite特性本身,這是個(gè)在盡可能不犧牲性能的情況下增加畫面細(xì)節(jié)的方案。值得一提的是,Nanite當(dāng)然也可以和MegaLights、Lumen、硬件光追之類的特性結(jié)合,這也某種程度上令Nanite不止是個(gè)幾何系統(tǒng),也作為光照管線的重要組成部分存在。
如今像《原神》這樣的游戲,“畫面平均大概60-80萬片三角形在渲染”,這個(gè)數(shù)量級對達(dá)成所謂3A級畫質(zhì)是不夠的。“天璣9500搭配虛幻引擎5.5 Nanite,可以渲染近千萬級的三角形,做到主機(jī)級畫質(zhì)”,甚至在聯(lián)發(fā)科展示的demo中接近于真實(shí)照片的畫質(zhì)水平。
基于這三個(gè)技術(shù)點(diǎn)的改進(jìn)和支持,我們大致可以預(yù)見明后年的手機(jī)游戲可能在畫質(zhì)上表現(xiàn)出飛躍,并因此對手機(jī)GPU提出更高的性能要求。雖然這些并非手游進(jìn)化的全部,但基本可以解釋為什么手機(jī)GPU廠商在已經(jīng)達(dá)成滿幀且保持功耗降低的基礎(chǔ)上,還在追求性能更強(qiáng)的GPU——做到所謂“主機(jī)級爽感”“3A畫質(zhì)”的同時(shí),保持“極致流暢”。
“極致流暢”的技術(shù)點(diǎn),走向生態(tài)競爭
說完畫質(zhì)我們再回頭看看游戲性能,嘗試追究天璣9500是如何達(dá)成本文第一部分提到的“滿幀低功耗雙滿貫”,以及現(xiàn)在和未來的天璣芯片在應(yīng)對本文第二部分提到的未來3A畫質(zhì)游戲時(shí),有沒有機(jī)會真正滿足性能和能效需求。對這個(gè)問題的探討,也有助于我們洞見,當(dāng)代手機(jī)GPU的競爭已經(jīng)不再局限于GPU微架構(gòu)這一常規(guī)意義上的賽點(diǎn)了。
聯(lián)發(fā)科就天璣9500提到了讓游戲?qū)崿F(xiàn)“極致流暢”的幾個(gè)關(guān)鍵點(diǎn):
(1)GPU本身的性能與能效提升數(shù)字之外,微架構(gòu)方面在于GPU Dynamic Cache動態(tài)緩存技術(shù)的引入,以及更多頭部游戲轉(zhuǎn)向了Vulkan API;(2)算法技術(shù)上,涵蓋“多線程降載”“天璣調(diào)度引擎2.0”,以及“天璣倍幀技術(shù)”。這其中的很多組成部分,已經(jīng)相關(guān)于芯片廠商的軟件與生態(tài)構(gòu)建能力了,在我們看來,反映的是移動GPU競爭的白熱化。
比如近期手機(jī)芯片熱詞之一的Dynamic Cache動態(tài)緩存,畢竟iPhone 17新品發(fā)布會上蘋果也才剛提過這個(gè)詞。聯(lián)發(fā)科方面表示,在GPU Dynamic Cache技術(shù)上已經(jīng)投入了3年:“傳統(tǒng)意義上的緩存與內(nèi)存交互,須由平臺底層軟件來做緩存和內(nèi)存的控制與分配,很難達(dá)到系統(tǒng)效率最優(yōu)。”
“所以我們將緩存能力通過最新的Vulkan擴(kuò)展向開發(fā)者開放。那么游戲開發(fā)者就能控制緩存使用的大小、生命周期。”聯(lián)發(fā)科認(rèn)為對有技術(shù)力的開發(fā)者而言,他們對于如何讓緩存使用高效化是最有發(fā)言權(quán)的,借助Dynamic Cache就能達(dá)成能效的大幅優(yōu)化。比如說《絕區(qū)零》借助這項(xiàng)優(yōu)化,獲得了600MB/s以上的帶寬收益——隨之游戲更省電(↓60mA)、少發(fā)熱(↓1℃)。
聽起來,這種可由開發(fā)者管理緩存使用的技術(shù)方案和蘋果的dynamic cache還是存在差異的,只不過目標(biāo)應(yīng)該是一致的:加強(qiáng)存儲敏感型渲染負(fù)載的效率——可見這也是未來移動渲染技術(shù)的大方向。
其次是頭部手游普遍在轉(zhuǎn)向Vulkan API。今年3月份谷歌宣布正式令Vulkan成為Android的官方圖形API。其實(shí)手游轉(zhuǎn)向Vulkan,在我們看來是相當(dāng)自然的事:因?yàn)橐环矫孢@是個(gè)能提供更精細(xì)性能優(yōu)化、低層級控制的圖形API,對多線程也有更好的優(yōu)化,具備了諸如光追等一系列現(xiàn)代化圖形特性,更重要的是這是個(gè)跨平臺API——符合游戲走向跨端的趨勢。
“我們的GPU也做了不少硬件側(cè)的同步,幾代GPU設(shè)計(jì)都在嘗試滿足Vulkan標(biāo)準(zhǔn)和規(guī)格。”轉(zhuǎn)向Vulkan的游戲,在天璣平臺上立刻就能獲得5%的性能提升或功耗下降。”換用Vulkan API能立刻達(dá)成性能或能效收益,自然也成為Vulkan將更進(jìn)一步普及的依據(jù)。
而有關(guān)天璣9500上的算法技術(shù)優(yōu)化,包括多線程降載、天璣調(diào)度引擎2.0、天璣倍幀技術(shù)——這幾項(xiàng)更進(jìn)一步地涉及到了合作與生態(tài)構(gòu)建,也就是文首所說的,手機(jī)芯片GPU的競爭已經(jīng)走到了生態(tài)競爭的高級階段。
除了“天璣調(diào)度引擎2.0”這類不僅相關(guān)游戲的特性通過分配系統(tǒng)前后臺資源據(jù)說能獲得超過10%的性能收益,以此處“多線程降載”為例,這看起來就是個(gè)更大程度利用好CPU多核資源的技術(shù)方向。聯(lián)發(fā)科談到,在過去幾年與游戲工作室合作的過程中,發(fā)現(xiàn)游戲“最重載的邏輯線程可能會吃掉大核資源、1-2個(gè)大核被占滿,其他CPU核心則沒有在工作。”
基于此,聯(lián)發(fā)科與第三方游戲工作室進(jìn)行深度合作,協(xié)助他們將游戲內(nèi)容做多線程拆分優(yōu)化,也就能充分發(fā)揮天璣芯片CPU的多核優(yōu)勢,提升效率。比如他們舉例提到《鳴潮》的最新版本借助這方面的優(yōu)化,實(shí)現(xiàn)6%的負(fù)載降低。
而天璣倍幀技術(shù)也是聯(lián)發(fā)科推了好些年的游戲插幀方案,這次天璣倍幀技術(shù)“進(jìn)入到3.0”。聯(lián)發(fā)科告訴我們,更早的天璣芯片GPU插幀方案實(shí)現(xiàn)的是從30到60幀的轉(zhuǎn)變——在《崩壞:星穹鐵道》這樣的重載游戲中,可實(shí)現(xiàn)40%的功耗收益;“天璣倍幀技術(shù)3.0則是做到60到120幀的插幀——《逆水寒》《永劫無間》等游戲都會陸續(xù)導(dǎo)入,平均實(shí)現(xiàn)30-40%的功耗收益。”
從光追進(jìn)化,看手機(jī)GPU的發(fā)展
這些都要求芯片廠商在軟件算法上投入,同時(shí)與GPU IP廠商、游戲引擎、游戲開發(fā)者合作。有關(guān)圖形渲染與游戲技術(shù)的生態(tài)構(gòu)建,這里我們再額外舉個(gè)更有說服力的例子:移動平臺的實(shí)時(shí)光線追蹤技術(shù)。
細(xì)數(shù)起來,聯(lián)發(fā)科在手機(jī)AP SoC發(fā)布會上提光線追蹤至少已經(jīng)有4年歷史了,技術(shù)和生態(tài)投入更久。早在天璣9000發(fā)布會上,話題——只不過當(dāng)時(shí)還只是軟件級光追,那會兒的Mali-G710已經(jīng)可以通過軟件來模擬光線追蹤,雖然也就止步于“可以”。
天璣9200則正式成為聯(lián)發(fā)科達(dá)成手機(jī)芯片硬件級光追的起步,這顆AP SoC的GPU開始內(nèi)置專用的RTU單元,相較軟件實(shí)現(xiàn)的光追性能提升了3倍。如果你對電子工程專輯早年的報(bào)道還有印象就知道,2022年的媒體溝通會上,——即早于天璣9000的發(fā)布。
Ray Query(VK_KHR_ray_query)相較于這次天璣9500已經(jīng)支持的ray tracing pipeline完整管線,是個(gè)更容易融入到現(xiàn)有渲染器中的方案,對硬件資源的要求也更低、兼容性和靈活性更好?;诖水?dāng)時(shí)聯(lián)發(fā)科就已經(jīng)為Vulkan 1.3支持的raytracing API做好了準(zhǔn)備。聯(lián)發(fā)科也因此在天璣9200芯片的基礎(chǔ)上,搭配VRS(可變速率著色)等技術(shù)方案,開啟了他們的第一代手游光追技術(shù),走向了光追游戲的30fps時(shí)代。
天璣9300在天璣9200的基礎(chǔ)上,更多的GPU核心堆料讓光追性能提升了46%,同時(shí)借助VRS性能86%的提升,當(dāng)時(shí)聯(lián)發(fā)科宣布天璣9300在3DMark Solar Bay光追測試中拔得手機(jī)芯片的頭籌;生態(tài)方面在達(dá)成更多光追游戲支持的同時(shí),也實(shí)現(xiàn)了Unity、虛幻、Messiah三大引擎的覆蓋。
值得一提的是,聯(lián)發(fā)科同期宣布與虛幻引擎、Arm合作,在虛幻引擎5的Lumen之中融入了Vulkan Ray Query + “桌面級渲染Shader Model 5”;在游戲方面,于《暗區(qū)突圍》應(yīng)用全局光照Smart GI技術(shù),做到了“首發(fā)支持《暗區(qū)突圍》60fps光追”。所以聯(lián)發(fā)科說,天璣9300讓光追游戲步入到了60fps時(shí)代。
去年的天璣9400除了實(shí)現(xiàn)光追性能40%的提升,亮點(diǎn)在于,降低了光追計(jì)算過程中shader的負(fù)載——OMM也被聯(lián)發(fā)科視作移動端與PC游戲的交集之一,當(dāng)時(shí)Ada Lovelace也才剛剛實(shí)現(xiàn)對OMM的支持沒多久。據(jù)說《暗區(qū)突圍》在加入這一特性后,在幀率提升50%的同時(shí),還降低了10%的功耗。
來到最新的天璣9500,除了shader核心之中的RTUv2第二代光追加速單元換新(目前已知架構(gòu)調(diào)整包括從所謂packed ray model轉(zhuǎn)向了single ray model)——據(jù)說這也是聯(lián)發(fā)科與Arm合作推動的成果——實(shí)現(xiàn)光追性能翻倍,“率先支持120fps光追”之外,更重要的就是前文提到的轉(zhuǎn)向?qū)ay tracing pipeline的完整支持,真正實(shí)現(xiàn)完全可編程、硬件加速渲染管線的復(fù)雜光線追蹤,實(shí)現(xiàn)更逼真的光影效果,對潛在的跨端游戲做到更好的支持。
聯(lián)發(fā)科表示,后續(xù)還將投入更多資源去構(gòu)建光追生態(tài)。光追雖然只是天璣手機(jī)芯片GPU進(jìn)化的一個(gè)組成部分,且光追游戲尚未大舉入侵移動平臺,但這個(gè)進(jìn)化歷程卻在部分反映手機(jī)GPU生態(tài)競爭激化、要求手機(jī)芯片廠商提前數(shù)年布局。同時(shí),展現(xiàn)出手游行業(yè)上下游的整體進(jìn)步,當(dāng)然還有聯(lián)發(fā)科自身作為手機(jī)AP SoC目前最大份額的市場玩家持續(xù)不斷的投入。
所以在普通用戶只是看到每代手機(jī)芯片在圖形渲染性能方面提升百分之多少的數(shù)字,甚至可能認(rèn)為GPU這類加速芯片不過堆料+制造工藝進(jìn)步爾爾,游戲性能與能效提升的背后,卻有著芯片企業(yè)、IP供應(yīng)商、游戲引擎、游戲開發(fā)者共同的推進(jìn)與努力。
好在從天璣9500的發(fā)布與技術(shù)點(diǎn)來看,明后年要面世的游戲大概率會實(shí)現(xiàn)畫質(zhì)、體驗(yàn)的躍升,而以天璣9500為代表的手機(jī)芯片顯然已經(jīng)準(zhǔn)備好了。
最后再透露個(gè)信息,雖然聯(lián)發(fā)科沒有明確提到,但我們猜測面向手游的“DSLL-like”AI超分技術(shù),乃至更多深入圖形渲染管線的neural shading技術(shù)已經(jīng)在聯(lián)發(fā)科的實(shí)驗(yàn)室里了。這也讓我們更期待未來的手機(jī)游戲可實(shí)現(xiàn)的畫質(zhì)與效率突破……