午夜影院在线亚洲,日韩精选H片,亚洲精品无码专区78摸在线播放

本篇文章主要介紹如何使用新的Hugging Face LLM推理容器將開源LLMs，比如BLOOM大型語言模型部署到亞馬遜云科技Amazon SageMaker進行推理的示例。我們將部署12B Open Assistant Model，這是一款由開放助手計劃訓練的開源Chat LLM。

?這個示例包括：

設(shè)置開發(fā)環(huán)境
獲取全新Hugging Face LLM DLC
將開放助手12B部署到亞馬遜云科技Amazon SageMaker
進行推理并與我們的模型聊天
清理環(huán)境

??什么是Hugging Face LLM Inference DLC？

?Hugging Face LLM DLC是一款全新的專用推理容器，可在安全的托管環(huán)境中輕松部署LLM。DLC由文本生成推理（TGI）提供支持，這是一種用于部署和服務(wù)大型語言模型（LLM）的開源、專門構(gòu)建的解決方案。TGI使用張量并行和動態(tài)批處理為最受歡迎的開源LLM（包括StarCoder、BLOOM、GPT-Neox、Llama和T5）實現(xiàn)高性能文本生成。文本生成推理已被IBM、Grammarly等客戶使用，Open-Assistant計劃對所有支持的模型架構(gòu)進行了優(yōu)化，包括：

張量并行性和自定義cuda內(nèi)核
在最受歡迎的架構(gòu)上使用flash-attention優(yōu)化了用于推理的變形器代碼
使用bitsandbytes進行量化
連續(xù)批處理傳入的請求以增加總吞吐量
使用safetensors加速重量加載（啟動時間）
Logits扭曲器（溫度縮放、topk、重復懲罰…）
用大型語言模型的水印添加水印
停止序列，記錄概率
使用服務(wù)器發(fā)送事件（SSE）進行Token流式傳輸

?官方支持的模型架構(gòu)目前為：

BLOOM/BLOOMZ
MT0-XXL
Galactica
SantaCoder
gpt-Neox 20B（joi、pythia、lotus、rosey、chip、redPajama、open Assistant）
FLAN-T5-XXL（T5-11B）
Llama（vicuna、alpaca、koala）
Starcoder/santaCoder
Falcon 7B/Falcon 40B

?借助亞馬遜云科技Amazon SageMaker上推出的全新Hugging Face LLM Inference DLC，亞馬遜云科技客戶可以從支持高度并發(fā)、低延遲LLM體驗的相同技術(shù)中受益，例如HuggingChat、OpenAssistant和Hugging Face Hub上的LLM模型推理API。

?1.設(shè)置開發(fā)環(huán)境

?使用SageMaker python SDK將OpenAssistant/pythia-12b-sft-v8-7k-steps部署到亞馬遜云科技Amazon SageMaker。需要確保配置一個亞馬遜云科技賬戶并安裝SageMaker python SDK。

?如果打算在本地環(huán)境中使用SageMaker。需要訪問具有亞馬遜云科技Amazon SageMaker所需權(quán)限的IAM角色?？梢栽谶@里找到更多關(guān)于它的信息。

?2.獲取全新Hugging Face LLM DLC

?與部署常規(guī)的HuggingFace模型相比，首先需要檢索容器URI并將其提供給HuggingFaceModel模型類，并使用image_uri指向該鏡像。要在亞馬遜云科技Amazon SageMaker中檢索新的HuggingFace LLM DLC，可以使用SageMaker SDK 提供的get_huggingface_llm_image_uri方法。此方法允許根據(jù)指定的 “后端”、“會話”、“區(qū)域” 和 “版本”檢索所需的Hugging Face LLM DLC 的 URI。

?要將[Open Assistant Model]（openAssistant/Pythia-12b-sft-v8-7K-steps）部署到亞馬遜云科技Amazon SageMaker，創(chuàng)建一個HuggingFaceModel模型類并定義終端節(jié)點配置，包括hf_model_id、instance_type等。使用g5.4xlarge實例類型，它有1個NVIDIA A10G GPU和64GB的GPU內(nèi)存。

?亞馬遜云科技Amazon SageMaker現(xiàn)在創(chuàng)建端點并將模型部署到該端點。這可能需要10-15分鐘。

?4.進行推理并與模型聊天

?部署終端節(jié)點后，可以對其進行推理。使用predictor中的predict方法在端點上進行推理?？梢杂貌煌膮?shù)進行推斷來影響生成。參數(shù)可以設(shè)置在parameter中設(shè)置。

溫度：控制模型中的隨機性。較低的值將使模型更具確定性，而較高的值將使模型更隨機。默認值為0。
max_new_tokens：要生成的最大token數(shù)量。默認值為20，最大值為512。
repeption_penalty：控制重復的可能性，默認為null。
seed：用于隨機生成的種子，默認為null。
stop：用于停止生成的代幣列表。生成其中一個令牌后，生成將停止。
top_k：用于top-k篩選時保留的最高概率詞匯標記的數(shù)量。默認值為null，它禁用top-k過濾。
top_p：用于核采樣時保留的參數(shù)最高概率詞匯標記的累積概率，默認為null。
do_sample：是否使用采樣；否則使用貪婪的解碼。默認值為false。
best_of：生成best_of序列如果是最高標記logpros則返回序列，默認為null。
details：是否返回有關(guān)世代的詳細信息。默認值為false。
return_full_text：是返回全文還是只返回生成的部分。默認值為false。
truncate：是否將輸入截斷到模型的最大長度。默認值為true。
typical_p：代幣的典型概率。默認值null。
水?。荷蓵r使用的水印。默認值為false。

?可以在swagger文檔中找到TGI的開放api規(guī)范。

?openAssistant/Pythia-12b-sft-v8-7K-steps是一種對話式聊天模型，這意味著我們可以使用以下提示與它聊天：

?先試一試，問一下夏天可以做的一些很酷的想法：

?現(xiàn)在，使用不同的參數(shù)進行推理，以影響生成。參數(shù)可以通過輸入的parameters屬性定義。這可以用來讓模型在“機器人”回合后停止生成。

?現(xiàn)在構(gòu)建一個快速gradio應用程序來和它聊天。

?程序運行成功后，顯示如下聊天窗口：

?現(xiàn)在已經(jīng)成功地將Open Assistant模型部署到亞馬遜云科技Amazon SageMaker并對其進行了推理。此外，還構(gòu)建了一個快速的gradio應用程序，可以與模型聊天。

?現(xiàn)在，可以使用亞馬遜云科技Amazon SageMaker上全新Hugging Face LLM DLC構(gòu)建世代人工智能應用程序的時候了。

??5.清理環(huán)境

?刪除模型和端點。

??6.總結(jié)

?從上面的部署過程，可以看到整個部署大語言模型的過程非常簡單，這個主要得益于SageMaker Hugging Face LLM DLC的支持，還可以通過將Amazon SageMaker部署的端點與應用集成，滿足實際的業(yè)務(wù)需求。

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
MK70FN1M0VMJ12R	1	Freescale Semiconductor	32-BIT, FLASH, 120MHz, RISC MICROCONTROLLER, PBGA256, 17 X 17 MM, MAPBGA-256		暫無數(shù)據(jù)	查看
ATXMEGA64D4-AU	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 44TQFP		$3.44	查看
ATXMEGA32A4U-AU	1	Microchip Technology Inc	IC MCU 8BIT 32KB FLASH 44TQFP	ECAD模型下載ECAD模型	$3.78	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風險等級

參考價格

更多信息

MK70FN1M0VMJ12R

Freescale Semiconductor

32-BIT, FLASH, 120MHz, RISC MICROCONTROLLER, PBGA256, 17 X 17 MM, MAPBGA-256

暫無數(shù)據(jù)

查看

ATXMEGA64D4-AU

Microchip Technology Inc

IC MCU 8BIT 64KB FLASH 44TQFP

$3.44

查看

ATXMEGA32A4U-AU

Microchip Technology Inc

IC MCU 8BIT 32KB FLASH 44TQFP

$3.78

查看

實操如何用Hugging Face部署大語言模型到亞馬遜云科技Amazon SageMaker

推薦器件

相關(guān)推薦