与我之前写的部署qwen2一样步骤:
vllm+qwen2部署!_vllm部署qwen2-CSDN博客

须注意的是:
启动 llama3.1_8b_instruct  需要将 transfomers 更新到最新 4.43.2 版本!

pip install --upgrade transformers

参考:最新LLM Llama3.1 を AWQ で4bit量子化して GPUサーバーに乗せて チャットできるようにした #Python – Qiita

CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.openai.api_server –model /你自己的路径/modles/llama3.1_8b_instruct  –served-model-name llama3.1_8b_instruct –max-model-len=2048 –dtype=half –tensor-parallel-size=2

成功启动!

作者:Q794469

物联沃分享整理
物联沃-IOTWORD物联网 » vllm llama 3.1部署指南

发表回复