全黄一级裸片视频在线观看_日本三级欧美视频_黄色小说在线看_亚洲熟女另类av_欧美丝美脚交footjob_成人午夜精品无码区不卡_亚洲国产精品懂色_日本麻豆一一在线观看黄色网

AIGC時代,基于云原生 MLOps 構建屬于你的大模型(下)
2023-06-21

為了滿足企業在數字化轉型過程中對更新迭代生產力工具的需求,靈雀云近日推出了Alauda MLOps 解決方案,幫助企業快速落地AI技術、實現智能化應用和服務。



AIGC大模型已成為企業創新引擎


隨著ChatGPT的爆火,越來越多的人考慮使用AI來提升我們日常工作的效率和質量,通過對話協助生成需要的文本數據。無論是將數據匯總成表格,還是根據提示編寫文章,或者進行專業知識問答,都可以通過合適的prompt工程,讓ChatGPT給出最佳的回答,甚至可以取代一部分人類的工作。


2 (5).png


此外,AI 生成的內容不僅限于文本數據,還包括 AI 繪畫(stable diffusion),樂曲創作(Amper Music),電影生成(Runway)等工具,這些都是 AIGC( AI Generated Content) 的范疇,它們也在不斷刷新許多行業的生產力。


3 (3).png


Alauda MLOps助力企業快速構建屬于自己的大模型


然而,企業需要一個自己擁有并管控的本地部署的模型來完成上述工作,因為這樣可以保證:


· 安全因素:在進行對話時,企業不希望把企業內部數據發送到互聯網上的 AI 模型;

· 功能定制:希望使用自己的數據,增強模型在特定場景的能力(fine tunning);

· 內容審查:根據法律法規要求,對輸入、輸出內容進行二次過濾。


那么,在這樣的場景下,企業如何快速搭建、定制這樣的模型呢?答案是使用云原生 MLOps + 公開模型!


根據OpenAI公司的介紹,其在訓練ChatGPT / GPT-4等超大規模模型時,使用了Azure + MPI的大規模 GPU 計算集群。在私有云原生環境,使用MLOps工具鏈,企業同樣可以擁有可以橫向擴展的大規模機器學習算力。在使用MLOps平臺時,可以獲得如下的提升:


· 更適合大規模預訓練模型的訓練和預測流程;

· 降低對大模型的應用門檻:內置使用預訓練大模型教程流程,一步上手;

· 完善的常規機器學習,深度學習平臺;

· 使用流水線+調度器統一編排大規模分布式訓練任務,支持自定義各種分布式訓練方法和框架,包括 DDP、Pipeline、ZERo、FSDP;

· 流程自定義:根據實際業務,選擇 MLOps 工具鏈條中的子集,構建合適的業務流程;

· 完善的MLOps平臺:提供順暢、完整的MLOps工具鏈。


接下來,我們以Alauda MLOps平臺為例,介紹如何在此之上基于LLaMa預訓練模型的chat模型(lora)來構建屬于你的“ChatGPT”,定制并啟動一個LLM對話模型。


此外,使用其他HuggingFace預訓練模型,也可以快速構建自己的模型,如Vicuna、 MPT等模型,請感興趣的讀者自行嘗試。


· 獲取方式 ·

企業版MLOps:

http://m.xiwusd.com.cn/open/detail/id/740.html

開源版MLOps:

https://github.com/alauda/kubeflow-chart


如何在云原生MLOps下完成大規模預chat模型的定制和部署?


首先,我們需要啟動一個Notebook環境,并為其分配必要的GPU資源(實測中,訓練 alpaca 7b 半精度模型需要4塊 K80,或一塊 4090,以及足夠的顯存大?。?/span>



4 (2).png

然后,我們需要從github和hugging face準備對應的代碼和模型文件。


· 下載項目:https://github.com/tloen/alpaca-lora,然后拖拽上傳到Notebook文件導航欄。也可以在Notebook內使用命令行執行git clone下載;

· 下載語言模型預訓練 weights:https://huggingface.co/decapoda-research/llama-7b-hf,并拖拽上傳到Notebook中。也可以在Notebook中使用 git lfs clone下載模型;

· 下載lora模型預訓練 weights: https://huggingface.co/tloen/alpaca-lora-7b,并拖拽上傳到Notebook中。也可以在Notebook中使用git lfs clone下載模型。


這里上傳較大的模型會有較長的等待時間,如果和huggingface網絡連接良好,可以選擇在Notebook內直接從網絡下載。


5.png


接著,我們先使用剛才下載的預訓練模型,啟動一個AI對話web應用驗證效果,掛載Notebook使用的磁盤以讀取這些模型文件:


6.png


然后我們就可以使用以上yaml配置或者原生應用創建表單方式創建預測服務。注意推理服務只需要使用1塊 K80 GPU 即可啟動。


7.png


這里我們使用的鏡像使用如下Dockerfile構建:

7.5.png


等待推理服務啟動完成,我們就可以在瀏覽器中訪問,并和這個模型開始做各種對話的嘗試。由于alpaca-lora模型對中文支持的不夠完善,盡管可以輸入中文,但輸出大多仍為英文。然而,該模型在一定程度上已經展現出了較好的能力。


8.png


最后,我們可以使用自己標注的數據,對模型進行優化和定制(finetunning)。根據alpaca-lora項目的說明,參考如下訓練數據的格式,增加finetune的訓練數據,然后開始訓練。此時模型訓練只會更新模型中的少量參數,基礎的預訓練語言模型(LLM)參數不會被更新,以保留LLM強大的底座能力。

9.png

10 (1).png



以上為在Notebook中直接訓練,如果訓練任務有逐步復雜的流水線,可以將訓練python程序定制成如下流水線并提交集群運行。如果任務是多機多卡+模型并行訓練框架,也可以通過配置訓練節點的個數,并在python代碼中根據框架實現對應分布式計算代碼即可,不需要根據 MLOps流水線調度做任何代碼改造。


以上為在Notebook中直接訓練,最多只能使用一臺物理節點上的所有GPU卡。如果訓練任務有跨物理節點分布式訓練的需求,可以將訓練的Python程序構建成如下流水線并提交集群運行。


注意MLOps支持直接在任務流水線中構建分布式訓練步驟,不同于Kubeflow Training Operator的模式需要用戶定義在Kubernetes上訓練的TFJob, PytorchJob的YAML配置文件,拖拽之后的Python程序作為一個工作流的步驟,可以單獨設置這個節點的并行度,即流水線的ParallelFor元語。這樣不論是數據并行(DDP),流水線并行(PipelineParallel),FSDP,還是其他分布式訓練方法,以及使用任意框架如 transformers, accelerate 完成的訓練,都可以在流水線內定制。


10.1.png


此外,在MLOps平臺構建的分布式訓練流水線,可以選擇使用Volcano調度器完成GPU和Pod的調度,防止多個任務相互占用資源導致的資源浪費。


這樣,我們在拖拽Python代碼之后,需要配置這個任務的并行度,每個節點需要的CPU,內存,顯卡的資源,運行時的鏡像,然后點擊界面上的 “提交運行” 按鈕,就可以啟動這個任務,并檢查任務的運行狀態。


11.png

12 (1).png


在執行完成finetunning訓練,就可以參照上面的步驟使用新的模型啟動推理服務開始驗證了。這時您已經擁有了一個屬于自己的“ChatGPT”?。?!


當然,如果您覺得當前的 7b (70億參數規模的模型) 能力有限,也可以嘗試更大的模型,如13B、30B、65B等,也可以使用alpaca-lora以外的模型結構實現,比如:


https://huggingface.co/tiiuae/falcon-40b

https://huggingface.co/lmsys/vicuna-13b-delta-v1.1

https://huggingface.co/mosaicml/mpt-7b-chat

https://github.com/ymcui/Chinese-LLaMA-Alpaca

https://huggingface.co/THUDM/chatglm-6b


此外,值得一提的是,我們會在未來的版本中支持更加流暢的大模型的訓練和預測方式(如下圖),請及時關注我們的更新。


13.png


如果希望驗證這些公開模型的能力,或者創造自己的ChatGPT,這些就交由云原生MLOps平臺來幫助您完成吧~


上一篇:AIGC時代,基于云原生 MLOps 構建屬于你的大模型(上)

為您數字化轉型提供更為完善的解決方案和更加優質的全棧服務。

申請試用
? 2026 All Rights Reserved. 靈雀云 版權所有 備案號:京ICP備15011102號-2      
電話咨詢 在線客服 微信咨詢 公眾號