Skip to content

Commit 18fac4a

Browse files
committed
Merge branch 'develop' of https://github.com/PaddlePaddle/PaddleNLP into support-qat
2 parents 96b116e + 988204d commit 18fac4a

30 files changed

+1018
-285
lines changed

docs/compression.md

Lines changed: 4 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -118,7 +118,7 @@ compression_args = parser.parse_args_into_dataclasses()
118118
#### Trainer 实例化参数介绍
119119

120120
- **--model** 待压缩的模型,目前支持 ERNIE、BERT、RoBERTa、ERNIE-M、ELECTRA、ERNIE-Gram、PP-MiniLM、TinyBERT 等结构相似的模型,是在下游任务中微调后的模型,当预训练模型选择 ERNIE 时,需要继承 `ErniePretrainedModel`。以分类任务为例,可通过`AutoModelForSequenceClassification.from_pretrained(model_name_or_path)` 等方式来获取,这种情况下,`model_name_or_path`目录下需要有 model_config.json, model_state.pdparams 文件;
121-
- **--data_collator** 三类任务均可使用 PaddleNLP 预定义好的 [DataCollator 类](../../paddlenlp/data/data_collator.py)`data_collator` 可对数据进行 `Pad` 等操作。使用方法参考 [示例代码](../model_zoo/ernie-3.0/compress_seq_cls.py) 即可;
121+
- **--data_collator** 三类任务均可使用 PaddleNLP 预定义好的 [DataCollator 类](../paddlenlp/data/data_collator.py)`data_collator` 可对数据进行 `Pad` 等操作。使用方法参考 [示例代码](../model_zoo/ernie-3.0/compress_seq_cls.py) 即可;
122122
- **--train_dataset** 裁剪训练需要使用的训练集,是任务相关的数据。自定义数据集的加载可参考 [文档](https://huggingface.co/docs/datasets/loading)。不启动裁剪时,可以为 None;
123123
- **--eval_dataset** 裁剪训练使用的评估集,也是量化使用的校准数据,是任务相关的数据。自定义数据集的加载可参考 [文档](https://huggingface.co/docs/datasets/loading)。是 Trainer 的必选参数;
124124
- **--tokenizer** 模型 `model` 对应的 `tokenizer`,可使用 `AutoTokenizer.from_pretrained(model_name_or_path)` 来获取。
@@ -208,15 +208,15 @@ trainer.compress()
208208
from paddle.metric import Accuracy
209209

210210
@paddle.no_grad()
211-
def evaluate_seq_cls(model, data_loader):
211+
def evaluate_seq_cls(self, model, data_loader):
212212
metric = Accuracy()
213213
model.eval()
214214
metric.reset()
215215
for batch in data_loader:
216216
logits = model(input_ids=batch['input_ids'],
217217
token_type_ids=batch['token_type_ids'])
218218
# Supports paddleslim.nas.ofa.OFA model and nn.layer model.
219-
if isinstance(model, OFA):
219+
if isinstance(model, paddleslim.nas.ofa.OFA):
220220
logits = logits[0]
221221
correct = metric.compute(logits, batch['labels'])
222222
metric.update(correct)
@@ -403,7 +403,7 @@ python compress_qa.py \
403403

404404
### Paddle2ONNX 部署
405405

406-
ONNX 导出及 ONNXRuntime 部署请参考:[ONNX 导出及 ONNXRuntime 部署指南](./deploy/paddle2onnx/README.md)
406+
ONNX 导出及 ONNXRuntime 部署请参考:[ONNX 导出及 ONNXRuntime 部署指南](../model_zoo/ernie-3.0/deploy/paddle2onnx/README.md)
407407

408408

409409
### Paddle Lite 移动端部署

docs/model_zoo/taskflow.md

Lines changed: 15 additions & 15 deletions
Original file line numberDiff line numberDiff line change
@@ -44,7 +44,7 @@ PaddleNLP提供**开箱即用**的产业级NLP预置任务能力,无需训练
4444
| [代码生成](#代码生成) | `Taskflow("code_generation")` |||| | | 代码生成大模型 |
4545
| [文图生成](#文图生成) | `Taskflow("text_to_image")` |||| | | 文图生成大模型 |
4646
| [文本摘要](#文本摘要) | `Taskflow("text_summarization")` ||||| | 文本摘要大模型 |
47-
| [文档智能](#文档智能) | `Taskflow("document_intelligence")` ||||| | 基于跨模态通用文档预训练模型ERNIE-LayoutX |
47+
| [文档智能](#文档智能) | `Taskflow("document_intelligence")` ||||| | 以多语言跨模态布局增强文档预训练模型ERNIE-Layout为核心底座 |
4848
| [问题生成](#问题生成) | `Taskflow("question_generation")` ||||| | 问题生成大模型 |
4949

5050
## QuickStart
@@ -1549,7 +1549,7 @@ from paddlenlp import Taskflow
15491549
</div></details>
15501550

15511551
### 文档智能
1552-
<details><summary>&emsp; 基于跨模态通用文档预训练模型ERNIE-LayoutX </summary><div>
1552+
<details><summary>&emsp; 以多语言跨模态布局增强文档预训练模型ERNIE-Layout为核心底座 </summary><div>
15531553

15541554
#### 输入格式
15551555

@@ -1573,7 +1573,7 @@ from paddlenlp import Taskflow
15731573
- 支持本地图片路径输入
15741574

15751575
<div align="center">
1576-
<img src=https://bj.bcebos.com/paddlenlp/taskflow/document_intelligence/images/resume.png height=800 hspace='20'/>
1576+
<img src=https://user-images.githubusercontent.com/40840292/194748579-f9e8aa86-7f65-4827-bfae-824c037228b3.png height=800 hspace='20'/>
15771577
</div>
15781578

15791579

@@ -1582,19 +1582,19 @@ from paddlenlp import Taskflow
15821582
>>> from paddlenlp import Taskflow
15831583

15841584
>>> docprompt = Taskflow("document_intelligence")
1585-
>>> docprompt([{"doc": "./resume.png", "prompt": ["五百丁本次想要担任的是什么职位?", "五百丁是在哪里上的大学?", "大学学的是什么专业?"]}])
1585+
>>> pprint(docprompt([{"doc": "./resume.png", "prompt": ["五百丁本次想要担任的是什么职位?", "五百丁是在哪里上的大学?", "大学学的是什么专业?"]}]))
15861586
[{'prompt': '五百丁本次想要担任的是什么职位?',
1587-
'result': [{'end': 183, 'prob': 1.0, 'start': 180, 'value': '客户经理'}]},
1588-
{'prompt': '五百丁是在哪里上的大学?',
1589-
'result': [{'end': 38, 'prob': 1.0, 'start': 32, 'value': '广州五百丁学院'}]},
1590-
{'prompt': '大学学的是什么专业?',
1591-
'result': [{'end': 45, 'prob': 0.74, 'start': 39, 'value': '金融学(本科)'}]}]
1587+
'result': [{'end': 7, 'prob': 1.0, 'start': 4, 'value': '客户经理'}]},
1588+
{'prompt': '五百丁是在哪里上的大学?',
1589+
'result': [{'end': 37, 'prob': 1.0, 'start': 31, 'value': '广州五百丁学院'}]},
1590+
{'prompt': '大学学的是什么专业?',
1591+
'result': [{'end': 44, 'prob': 0.82, 'start': 38, 'value': '金融学(本科)'}]}]
15921592
```
15931593

15941594
- http图片链接输入
15951595

15961596
<div align="center">
1597-
<img src=https://bj.bcebos.com/paddlenlp/taskflow/document_intelligence/images/invoice.jpg height=400 hspace='10'/>
1597+
<img src=https://user-images.githubusercontent.com/40840292/194748592-e20b2a5f-d36b-46fb-8057-86755d188af0.jpg height=400 hspace='10'/>
15981598
</div>
15991599

16001600

@@ -1603,13 +1603,13 @@ from paddlenlp import Taskflow
16031603
>>> from paddlenlp import Taskflow
16041604

16051605
>>> docprompt = Taskflow("document_intelligence")
1606-
>>> docprompt([{"doc": "https://bj.bcebos.com/paddlenlp/taskflow/document_intelligence/images/invoice.jpg", "prompt": ["发票号码是多少?", "校验码是多少?"]}])
1606+
>>> pprint(docprompt([{"doc": "https://bj.bcebos.com/paddlenlp/taskflow/document_intelligence/images/invoice.jpg", "prompt": ["发票号码是多少?", "校验码是多少?"]}]))
16071607
[{'prompt': '发票号码是多少?',
1608-
'result': [{'end': 10, 'prob': 0.96, 'start': 7, 'value': 'No44527206'}]},
1609-
{'prompt': '校验码是多少?',
1610-
'result': [{'end': 271,
1608+
'result': [{'end': 2, 'prob': 0.74, 'start': 2, 'value': 'No44527206'}]},
1609+
{'prompt': '校验码是多少?',
1610+
'result': [{'end': 233,
16111611
'prob': 1.0,
1612-
'start': 263,
1612+
'start': 231,
16131613
'value': '01107 555427109891646'}]}]
16141614
```
16151615

0 commit comments

Comments
 (0)