Skip to content

Commit 69a42c5

Browse files
Sunny-bot1lixcli
authored andcommitted
llm inference docs (PaddlePaddle#8976)
* update inference docs * update * update * update * update * fix comments * fix comments * fix comments * update inference.md
1 parent b13fd58 commit 69a42c5

File tree

11 files changed

+579
-284
lines changed

11 files changed

+579
-284
lines changed

README.md

Lines changed: 12 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -127,6 +127,18 @@ Unified Checkpoint 大模型存储格式在模型参数分布上支持动态扩
127127
| Yuan2 |||| 🚧 | 🚧 | 🚧 | 🚧 ||
128128
------------------------------------------------------------------------------------------
129129

130+
* [大模型推理](./llm/docs/predict/inference.md)已支持 LLaMA 系列、Qwen 系列、Mistral 系列、ChatGLM 系列、Bloom 系列和Baichuan 系列,支持Weight Only INT8及INT4推理,支持WAC(权重、激活、Cache KV)进行INT8、FP8量化的推理,【LLM】模型推理支持列表如下:
131+
132+
| 模型名称/量化类型支持 | FP16/BF16 | WINT8 | WINT4 | INT8-A8W8 | FP8-A8W8 | INT8-A8W8C8 |
133+
|:--------------------------------------------:|:---------:|:-----:|:-----:|:---------:|:--------:|:-----------:|
134+
| [LLaMA](./llm/docs/predict/llama.md) |||||||
135+
| [Qwen](./llm/docs/predict/qwen.md) |||||||
136+
| [Qwen-Moe](./llm/docs/predict/qwen.md) |||| 🚧 | 🚧 | 🚧 |
137+
| [Mixtral](./llm/docs/predict/mixtral.md) |||| 🚧 | 🚧 | 🚧 |
138+
| ChatGLM |||| 🚧 | 🚧 | 🚧 |
139+
| Bloom |||| 🚧 | 🚧 | 🚧 |
140+
| BaiChuan |||||| 🚧 |
141+
130142
## 安装
131143

132144
### 环境依赖

docs/llm/docs/inference.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1 +1 @@
1-
../../../llm/docs/inference.md
1+
../../../llm/docs/predict/inference.md

llm/README.md

Lines changed: 5 additions & 20 deletions
Original file line numberDiff line numberDiff line change
@@ -240,22 +240,7 @@ python run_finetune.py ./config/llama/fp8_ptq_argument.json
240240

241241
### 5. 推理
242242

243-
PaddleNLP 除了提供常用模型推理外,还提供了高性能推理,内置动态插入和全环节算子融合策略,极大加快并行推理的速度。
244-
245-
- **常用模型推理**:PaddleNLP 提供了动态图推理和静态图推理两种方式,方便用户快速验证模型推理效果(包含 LoRA、PrefixTuning)。
246-
247-
```shell
248-
# 动态图模型推理命令参考
249-
python ./predict/predictor.py --model_name_or_path meta-llama/Llama-2-7b-chat --data_file ./data/dev.json --dtype float16
250-
251-
# 静态图模型推理命令参考
252-
# step1 : 静态图导出
253-
python ./predict/export_model.py --model_name_or_path meta-llama/Llama-2-7b-chat --output_path ./inference --dtype float16
254-
# step2: 静态图推理
255-
python ./predict/predictor.py --model_name_or_path ./inference --data_file ./data/dev.json --dtype float16 --mode static
256-
```
257-
258-
- **InferenceModel 高性能推理**:PaddleNLP 还提供了高性能推理模型加快并行推理的速度,同时支持 FP16、Prefix Tuning、WINT8、A8W8多种推理方式。
243+
PaddleNLP 提供高性能推理,内置动态插入和全环节算子融合策略,极大加快并行推理的速度,同时支持 FP16/BF16、WINT8、WINT4、A8W8、A8W8C8多种推理方式。
259244

260245
<div align="center">
261246
<img width="500" alt="llm" src="https://github.com/PaddlePaddle/PaddleNLP/assets/63761690/fb248224-0ad1-4d6a-a1ca-3a8dd765c41d">
@@ -267,17 +252,17 @@ python ./predict/predictor.py --model_name_or_path ./inference --data_file ./dat
267252
</div>
268253

269254
```shell
270-
# 高性能动态图模型推理命令参考
255+
# 动态图模型推理命令参考
271256
python ./predict/predictor.py --model_name_or_path meta-llama/Llama-2-7b-chat --inference_model --dtype float16
272257

273-
# 高性能静态图模型推理命令参考
258+
# 静态图模型推理命令参考
274259
# step1 : 静态图导出
275260
python ./predict/export_model.py --model_name_or_path meta-llama/Llama-2-7b-chat --inference_model --output_path ./inference --dtype float16
276261
# step2: 静态图推理
277262
python ./predict/predictor.py --model_name_or_path ./inference --inference_model --dtype "float16" --mode "static"
278263
```
279264

280-
更多常用模型推理和高性能模型使用方法详见[大模型推理文档](./docs/inference.md)
265+
更多模型推理使用方法详见[大模型推理文档](./docs/predict/inference.md)
281266

282267
### 6. 服务化部署
283268

@@ -301,7 +286,7 @@ python -m paddle.distributed.launch --gpus "0,1,2,3,4,5,6,7" ./predict/flask_ser
301286

302287
- `port`: Gradio UI 服务端口号,默认8011。
303288
- `flask_port`: Flask 服务端口号,默认8010。
304-
- 其他参数请参见[推理文档](./docs/inference.md)中推理参数配置。
289+
- 其他参数请参见[推理文档](./docs/predict/inference.md)中推理参数配置。
305290

306291
此外,如果想通过 API 脚本的方式跑推理,可参考:`./predict/request_flask_server.py` 文件。
307292

llm/docs/dcu_install.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -64,4 +64,4 @@ cd -
6464
```
6565

6666
### 高性能推理:
67-
海光的推理命令与GPU推理命令一致,请参考[大模型推理教程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/inference.md).
67+
海光的推理命令与GPU推理命令一致,请参考[大模型推理教程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/inference.md).

0 commit comments

Comments
 (0)