[伺服器相關]自組深度運算伺服器，成為學習模型的煉丹達人第一步

在這AI離不開生活的時代，大部份生活上的許多事情都能由AI進行代勞，我們都知道AI的成功並不是一蹴可機，需要大量的資料處理與優化才能漸漸地達成我們的目的，剛開始還是需要透過人類進行資料輸送，到後期有基礎的資料量後，機器就能自己推理運算並修正原先的誤差，但是以目前普通的個人電腦的運算力來看，這個過程要花上許久的時間，所以許多業者開始開放使用雲端資源進行運算例如Azure 的深度學習與Google CodeLab等這些平台供使用者使用，但是天下沒有白吃的午餐，使用這些雲端資源時有可能受到特定資源的限制或是需要訂閱相關的服務才能有良好的體驗環境，這時，如果家裡有屬於自己的運算主機那該有多好。

對所以我準備一個月的時間開始規劃這件事，我目前有個專案需要透過聲音練習讓特定人物進行說話這就是所謂的VITS語音合成，這是Google AI 所推出的開源語音合成模型，他能夠讓將一段人聲進行相同的聲線與語氣能客製你想要說的話，所以我就踏出我人生第一件利用AI來學習來達成我的目標。

在這之前規劃一台伺服器需要評估很多考量，例如要能塞下我現有的機櫃畢竟我的家裡不像專業的機房能放大台的伺服器還要考量耗電量問題，基於種種原因我這邊想到了一個解決方案，就是使用1U型機器深度不能超過280mm，基礎規格選定好之後開始踏出我尋找料件之路。

萬物找淘寶~我決定的規格就是H97平台的ITX主板+XEON 1231V3 16G DDR3 RAM+Nvidia Tesla P4 +ADATA XPG 512 M2 SSD + 十銓 1TB 2.5吋 SSD + 1U型機櫃+PSU 全漢 300W 80+ ，大部分的規格在淘寶買的少數就在蝦皮買

接著就把機器組裝起來，其中Tesla P4 有特別用3D列印專用的導風罩增加空氣對流的流通性，畢竟這張顯卡沒有風扇

因為XEON 和 P4 這張顯卡不支援顯示輸出，在這過程我先換成一般顯卡來灌ESXI 6.7 並設定好IP後再換回P4這張顯卡，至於為何用ESXI 因為方便後續維護管理也方便未來移轉至更好的資源環境，所以就走虛擬化囉!

都準備就緒後就上架囉!~機櫃被塞滿了

接著開機之後就用剛剛設定好的固定IP連線至ESXI

虛擬機器我則是採用ubuntu server 因為真的用不太到GUI的功能，之後會採用Jupyter Lab的方式來做為主要操控介面

順帶一提這邊的虛擬機有掛P4顯卡做直通，直通的部分要稍微設定一下參數，要去主機>硬體這裡將P4顯卡切換傳遞也就是我們所謂的直通有顯示作用中即可。

接著虛擬機這邊就可以掛上顯卡了

接著確保開啟模式為UEFI之外還要特別在組態參數中添加3個特別參數

hypervisor.cpuid.v0 = FALSE //讓虛擬機以為是實體機來運作
pciPassthru.64bitMMIOSizeGB = 16 //設定顯卡的2倍記憶體值
pciPassthru.use64bitMMIO = TRUE

接著著跟著github 教程安裝設定Nvidia驅動 NVIDIA_Tesla-P4_Devices 都沒問題的話就會顯示下面這個畫面

這樣就成功完成建置深度學習主機了，就能執行網路上許多模型專案

執行測試溫度在55度左右，顯卡功耗也才30W 應該還不是極限

整體運作下來功耗約111W左右

下面這個就是這個專案下面的成果

基於這次的經驗讓我了解到虛擬機使用GPU支援要注意的眉角之外，不外乎就是找零件的千辛萬苦，我是阿俊謝謝大家觀看。

發佈留言 取消回覆

發佈留言取消回覆