亚洲AV中文字幕无码久久|国产精品日韩欧美一区二区三区|欧美性色欧美a在线在线播放|国产AV无码专区毛片|亚韩欧美性爱|日韩有码视频在线观看地址

港科大(廣州)斬獲國(guó)際頂會(huì)EuroSys最佳論文獎(jiǎng),中國(guó)高校高性能計(jì)算研究再突破

2025年3月30日至4月3日,計(jì)算機(jī)系統(tǒng)領(lǐng)域CCF A類(lèi)國(guó)際頂會(huì)EuroSys在荷蘭鹿特丹召開(kāi)。香港科技大學(xué)(廣州)信息樞紐數(shù)據(jù)科學(xué)與分析學(xué)域高性能機(jī)器學(xué)習(xí)實(shí)驗(yàn)室的研究成果《SpInfer:利用低稀疏度在GPU上實(shí)現(xiàn)高效LLM推理》從全球696篇投稿中脫穎而出,獲評(píng)EuroSys 2025最佳論文獎(jiǎng)成為中國(guó)大陸及港澳地區(qū)高校中第三篇獲此殊榮的論文(前兩篇分別由上海交通大學(xué)團(tuán)隊(duì)于2015年、2024年完成)。

該研究針對(duì)大語(yǔ)言模型(LLM)推理效率難題,創(chuàng)新性地提出一個(gè)專(zhuān)為GPU上的稀疏化LLM推理設(shè)計(jì)的高性能框架,首次將非結(jié)構(gòu)化剪枝的理論優(yōu)勢(shì)有效轉(zhuǎn)化為L(zhǎng)LM推理的實(shí)際性能提升。本屆EuroSys投稿量同比激增42%,錄用率僅為12.4%,最終僅評(píng)選出2項(xiàng)最佳論文獎(jiǎng),其學(xué)術(shù)含金量可見(jiàn)一斑。

此次獲獎(jiǎng)標(biāo)志著港科大(廣州)在計(jì)算機(jī)系統(tǒng)領(lǐng)域?qū)崿F(xiàn)重要突破。作為建校不足三年的新興科研力量,我校已在高性能計(jì)算、AI系統(tǒng)優(yōu)化等方向形成鮮明特色,展現(xiàn)出強(qiáng)勁的學(xué)術(shù)競(jìng)爭(zhēng)力。

ACM EuroSys (The European Conference on Computer Systems) 是計(jì)算機(jī)系統(tǒng)領(lǐng)域的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議,也是中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦的A類(lèi)國(guó)際學(xué)術(shù)會(huì)議(CCF A),主要關(guān)注計(jì)算機(jī)系統(tǒng)領(lǐng)域的研究與實(shí)踐,主要包括操作系統(tǒng)、數(shù)據(jù)庫(kù)系統(tǒng)、實(shí)時(shí)系統(tǒng)、網(wǎng)絡(luò)中間件、分布式、并行或嵌入式計(jì)算系統(tǒng)等領(lǐng)域。自2006年創(chuàng)辦以來(lái),ACM EuroSys已經(jīng)出版了眾多具有深遠(yuǎn)影響的學(xué)術(shù)論文,在國(guó)際學(xué)術(shù)界與工業(yè)界形成了廣泛影響。

最佳論文獎(jiǎng)

論文信息

題目:SpInfer:利用低稀疏度在 GPU 上實(shí)現(xiàn)高效的LLM推理

鏈接:https://dl.acm.org/doi/10.1145/3689031.3717481

論文簡(jiǎn)介

大語(yǔ)言模型(LLM)展現(xiàn)出了卓越的能力,但其龐大規(guī)模在內(nèi)存和計(jì)算成本方面帶來(lái)重大挑戰(zhàn)。雖然非結(jié)構(gòu)化剪枝通過(guò)引入稀疏性來(lái)減少資源需求提供了有希望的解決方案,但在LLM推理中實(shí)現(xiàn)其優(yōu)勢(shì)仍然面臨困難。這主要是由于索引非零元素的存儲(chǔ)開(kāi)銷(xiāo),以及在低稀疏度(約50%)時(shí)稀疏矩陣乘法(SpMM)核心的低效率。

本文提出了SpInfer,這是一個(gè)專(zhuān)為GPU上的稀疏化LLM推理設(shè)計(jì)的高性能框架。SpInfer引入了面向Tensor Core的位圖編碼(TCA-BME),這是一種新型稀疏格式,通過(guò)利用高效的基于位圖的索引來(lái)最小化索引開(kāi)銷(xiāo),并為GPU Tensor Core架構(gòu)優(yōu)化。此外,SpInfer集成了具有共享內(nèi)存位圖解碼(SMBD)的優(yōu)化SpMM核心和異步流水線設(shè)計(jì),以提高計(jì)算效率。

實(shí)驗(yàn)結(jié)果表明,SpInfer在不同稀疏度(30%至70%)下顯著優(yōu)于最先進(jìn)的SpMM實(shí)現(xiàn)(分別比Flash-LLM和SparTA快至2.14倍和2.27倍),在內(nèi)存效率和端到端推理速度方面都有顯著提升(快至1.58倍)。在稀疏度低至30%時(shí),SpInfer就能超越高度優(yōu)化的cuBLAS,這標(biāo)志著首次將非結(jié)構(gòu)化剪枝的理論優(yōu)勢(shì)有效轉(zhuǎn)化為L(zhǎng)LM推理的實(shí)際性能提升。

作者信息

  • 范睿博,三年級(jí)博士生, 香港科技大學(xué)(廣州)數(shù)據(jù)科學(xué)與分析學(xué)域,高性能機(jī)器學(xué)習(xí)實(shí)驗(yàn)室;
  • 余湘銳,二年級(jí)碩士生, 香港科技大學(xué)(廣州)數(shù)據(jù)科學(xué)與分析學(xué)域;
  • 董佩杰,二年級(jí)博士生, 香港科技大學(xué)(廣州)數(shù)據(jù)科學(xué)與分析學(xué)域,高性能機(jī)器學(xué)習(xí)實(shí)驗(yàn)室;
  • 李澤宇,二年級(jí)博士生, 香港科技大學(xué)(廣州)數(shù)據(jù)科學(xué)與分析學(xué)域,高性能機(jī)器學(xué)習(xí)實(shí)驗(yàn)室;
  • 鞏固,二年級(jí)碩士生, 香港科技大學(xué)(廣州)數(shù)據(jù)科學(xué)與分析學(xué)域;
  • 王強(qiáng),副教授,哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
  • 王威,副教授,香港科技大學(xué)計(jì)算機(jī)科學(xué)與工程系;
  • 褚曉文,教授,香港科技大學(xué)(廣州)數(shù)據(jù)科學(xué)與分析學(xué)域,高性能機(jī)器學(xué)習(xí)實(shí)驗(yàn)室。

第一作者簡(jiǎn)介

范睿博,香港科技大學(xué)(廣州)數(shù)據(jù)科學(xué)與分析學(xué)域的三年級(jí)博士生(PhD candidate),師從褚曉文教授與王威教授。目前論文被EuroSys、ASPLOS、ICLR、IPDPS等國(guó)際頂級(jí)會(huì)議接收。研究方向?yàn)楦咝阅苡?jì)算,重點(diǎn)聚焦GPU架構(gòu)性能優(yōu)化領(lǐng)域。目前主要致力于利用現(xiàn)代GPU架構(gòu)加速稀疏矩陣運(yùn)算和大模型推理的相關(guān)研究。

曾于2019-2022年在北京大學(xué)前沿交叉學(xué)科研究院獲得碩士學(xué)位,本科階段(2015-2019年)就讀于華中科技大學(xué)人工智能與自動(dòng)化學(xué)院。

研究愿景是彌合計(jì)算機(jī)體系結(jié)構(gòu)理論與實(shí)際性能優(yōu)化之間的鴻溝,通過(guò)設(shè)計(jì)能充分發(fā)揮現(xiàn)代硬件效能的計(jì)算系統(tǒng),為人工智能、科學(xué)計(jì)算及大數(shù)據(jù)處理等領(lǐng)域提供更高效的解決方案。

導(dǎo)師簡(jiǎn)介

褚曉文,本科畢業(yè)于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,博士畢業(yè)于香港科技大學(xué)計(jì)算機(jī)科學(xué)系;2003年起在香港浸會(huì)大學(xué)計(jì)算機(jī)科學(xué)系任職助理教授、副教授、正教授;2021年加入香港科技大學(xué)(廣州)數(shù)據(jù)科學(xué)與分析學(xué)域任職正教授,現(xiàn)擔(dān)任該學(xué)域主任;國(guó)家重大人才工程入選者。

主要科學(xué)研究領(lǐng)域包括分布式系統(tǒng)、高性能計(jì)算、機(jī)器學(xué)習(xí)系統(tǒng)、無(wú)線網(wǎng)絡(luò)等,已在國(guó)際學(xué)術(shù)期刊和會(huì)議發(fā)表學(xué)術(shù)論文270余篇;谷歌H-index為64,論文引用13900余次;曾獲得2025年EuroSys、2024年FL@FM-NeurIPS、2021年IEEE INFOCOM、2021年DASFAA-MUST、2020年IEEE GreenCom、2018年IEEE DataCom、2015年BigCom,以及2010年IEEE CIT等國(guó)際會(huì)議/研討會(huì)的最佳論文獎(jiǎng);擔(dān)任或曾擔(dān)任SCI國(guó)際期刊IEEE Transactions on Network Science and Engineering、IEEE Transactions on Cloud Computing、IEEE Internet of Things Journal、IEEE Transactions on Big Data、IEEE Network、IEEE Transactions on Industrial Informatics、ACM/Springer MONET的副編委或客座編委;擔(dān)任IEEE MetaCom 2025、IEEE/ACM IWQoS 2024、BigCom 2023、GreenCom 2022、HPCC 2021、DSS 2020、Qshine 2019等國(guó)際會(huì)議的大會(huì)主席或程序委員會(huì)主席;曾任中國(guó)通信學(xué)會(huì)區(qū)塊鏈專(zhuān)業(yè)委員會(huì)副主任委員;連續(xù)多年入選美國(guó)斯坦福大學(xué)發(fā)布的全球前2%頂尖科學(xué)家榜單;因在高效通信的分布式機(jī)器學(xué)習(xí)算法方面的貢獻(xiàn)當(dāng)選2025年IEEE Fellow;2025年當(dāng)選亞太人工智能學(xué)會(huì)(AAIA)會(huì)士。

發(fā)布日期
2025年04月10日
分類(lèi)
科廣新聞
分享到