vllm llama 3.1部署指南
与我之前写的部署qwen2一样步骤:
vllm+qwen2部署!_vllm部署qwen2-CSDN博客
须注意的是:
启动 llama3.1_8b_instruct 需要将 transfomers 更新到最新 4.43.2 版本!
pip install --upgrade transformers
参考:最新LLM Llama3.1 を AWQ で4bit量子化して GPUサーバーに乗せて チャットできるようにした #Python – Qiita
CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.openai.api_server –model /你自己的路径/modles/llama3.1_8b_instruct –served-model-name llama3.1_8b_instruct –max-model-len=2048 –dtype=half –tensor-parallel-size=2
成功启动!
作者:Q794469