現(xiàn)貨庫(kù)存,2小時(shí)發(fā)貨,提供寄樣和解決方案
熱搜關(guān)鍵詞:
在PC上運(yùn)行人工智能(AI)模型面臨的一個(gè)主要挑戰(zhàn)是模型的龐大尺寸。特別是對(duì)于大型語(yǔ)言模型(LLMs),其參數(shù)數(shù)量可能達(dá)到數(shù)十億乃至數(shù)萬(wàn)億,這要求大量的存儲(chǔ)空間和內(nèi)存資源來(lái)存儲(chǔ)和加載模型。例如,美光的內(nèi)部實(shí)驗(yàn)顯示,一個(gè)擁有700億個(gè)參數(shù)且采用4位精度的Llama2模型(一種廣泛應(yīng)用于自然語(yǔ)言生成的LLM)需要約42GB的內(nèi)存來(lái)加載并執(zhí)行推理任務(wù),其輸出速度為每秒1.4個(gè)Token。然而,普通PC通常無(wú)法提供如此大量的內(nèi)存資源。這一矛盾揭示了一個(gè)核心問(wèn)題,同時(shí)也為AI PC的未來(lái)發(fā)展指明了方向。
未來(lái)的模型分化
未來(lái)的AI模型很可能會(huì)出現(xiàn)分化,以適應(yīng)不同規(guī)模的硬件資源。700億參數(shù)級(jí)別的大型模型可能更適合于內(nèi)存和存儲(chǔ)空間充裕的高級(jí)系統(tǒng),用于運(yùn)行經(jīng)過(guò)精細(xì)微調(diào)并針對(duì)特定對(duì)話用例優(yōu)化的應(yīng)用程序,比如聊天補(bǔ)全等。同時(shí),這類大型模型也可能被用于本地設(shè)備上的個(gè)人助手。另一方面,參數(shù)數(shù)量少于100億的較小模型則更適合于主流設(shè)備,因?yàn)樗鼈冎恍柙黾哟蠹s2GB的內(nèi)存即可實(shí)現(xiàn)諸如文本補(bǔ)全、列表完成和分類等語(yǔ)言處理任務(wù)。
內(nèi)存的重要性
不同大小的AI模型需要相應(yīng)的內(nèi)存容量支撐,尤其是在PC環(huán)境中。除了內(nèi)存容量外,內(nèi)存的帶寬和能效也是至關(guān)重要的因素。隨著PC(特別是移動(dòng)設(shè)備)從DDR向LPDDR內(nèi)存的過(guò)渡,帶寬和能效得到了顯著提升。例如,LPDDR5X在活躍使用期間的功耗比DDR5降低了44%-54%,而在自刷新模式下的功耗降低了86%。同時(shí),LPDDR5的帶寬達(dá)到了6.4Gb/s,高于DDR5的4.8Gb/s。如果AI技術(shù)能在PC上迅速普及,LPDDR5的普及率也會(huì)隨之加快。此外,將一部分處理任務(wù)直接在內(nèi)存中完成的研究和開(kāi)發(fā)工作也在進(jìn)行中,這有望進(jìn)一步提高能源效率。
存儲(chǔ)中的處理技術(shù)
另一個(gè)重要議題是:AI模型的最佳運(yùn)行環(huán)境在哪里?當(dāng)模型尺寸相對(duì)較大時(shí),是否有可能減少對(duì)內(nèi)存的依賴,將部分模型放置在存儲(chǔ)設(shè)備中?如果可行,就需要提高存儲(chǔ)帶寬以滿足模型數(shù)據(jù)的頻繁交換需求。這可能促使Gen5 PCIe存儲(chǔ)設(shè)備在主流PC中的普及,或是加速Gen6 PCIe存儲(chǔ)設(shè)備的發(fā)展。
最近,蘋果公司發(fā)表了一篇關(guān)于此話題的論文,題目為“閃存中的LLM:在有限內(nèi)存中進(jìn)行高效的大型語(yǔ)言模型推理”。該論文提出了一種在可用DRAM容量不足的設(shè)備上運(yùn)行大型語(yǔ)言模型的方法。作者建議將模型參數(shù)存儲(chǔ)在閃存中,并按需將其加載至DRAM中。此外,論文還介紹了一系列優(yōu)化數(shù)據(jù)傳輸量以及提高讀取吞吐量的方法,以顯著提升推理速度。在論文中,評(píng)估不同閃存加載策略的主要指標(biāo)是延遲,分為三個(gè)部分:從閃存加載數(shù)據(jù)的I/O成本、使用新加載數(shù)據(jù)時(shí)的內(nèi)存管理開(kāi)銷以及推理操作的計(jì)算成本。總的來(lái)說(shuō),這篇論文提供了一種解決方案,即通過(guò)將模型參數(shù)存儲(chǔ)在閃存中并在需要時(shí)加載至DRAM中,解決了“如何有效運(yùn)行超出可用DRAM容量的LLM”的難題。