近日,中國科學院深圳先進技術研究院數(shù)字所異構智能計算中心在系統(tǒng)配置參數(shù)自動快速調(diào)優(yōu)研究方面取得重要進展,相關成果以“Swift: Fast Performance Tuning with GAN-Generated Configurations”為題被計算機系統(tǒng)領域頂級會議的CCF A類會議USENIX ATC'25 (The 2025 USENIX Annual Technical Conference)接收。該會議致力于展示和討論計算機系統(tǒng)領域中的新思想和最新研究成果。深圳先進院異構智能計算中心陳超助理研究員為論文第一作者,深圳先進院異構智能計算中心喻之斌研究員為通訊作者。
本文提出Swift方法,這是一種新穎的、基于貝葉斯優(yōu)化(BO)的大數(shù)據(jù)系統(tǒng)參數(shù)配置快速自動調(diào)優(yōu)方法。其核心思想是利用一種生成式人工智能方法,即生成對抗網(wǎng)絡(GAN),根據(jù)已評估的性能最佳的配置來生成高質(zhì)量的配置。將這些配置與隨機生成的配置相混合,具有使搜索空間向最優(yōu)配置傾斜的效果,從而實現(xiàn)更快的收斂速度,并減少優(yōu)化時間。實驗結果表明,與由CherryPick調(diào)優(yōu)的?Flink?程序相比,Swift?將其吞吐量提升了最高達1.59倍,并將延遲最多降低了1.68倍。最重要的是,Swift僅用5.8小時就完成了優(yōu)化,而CherryPick至少需要12.5小時。對于Spark程序,Swift將由CherryPick調(diào)優(yōu)后的程序執(zhí)行時間最多縮短了2.2倍。我們還在一家互聯(lián)網(wǎng)巨頭的生產(chǎn)集群中,使用Flink程序?qū)wift進行了評估。此前該程序是通過手動調(diào)整配置參數(shù)進行優(yōu)化的,一位專業(yè)的性能工程師花了四天時間才完成優(yōu)化。結果顯示,Swift?在僅6.8小時內(nèi)就將這個經(jīng)過手動優(yōu)化的程序的吞吐量提升了2.3倍,并將其延遲降低了2.8倍。
USENIX Annual Technical Conference(USENIX ATC)創(chuàng)辦于1992年,是計算機系統(tǒng)結構和并行/分布式計算領域的頂級國際會議,為中國計算機學會推薦A類國際會議。2025年USENIX年度技術會議(ATC'25,The 2025 USENIX Annual Technical Conference)將于將于2025年7月7日至7月9日在美國波士頓與OSDI共同召開。本次會議共有634篇論文投稿,100篇被接收,中稿率為15.8%。
Swift快速自動調(diào)優(yōu)方法流程圖
附件下載: