-
Notifications
You must be signed in to change notification settings - Fork 3.1k
Closed
Description
New Features
Prompt API
- Template String 新增支持关键字
prefix和options,新增position,token_type,length,encoder,hidden_size等7个属性 [prompt] update prompt api & add prefix template #3724 - 新增支持 PrefixTemplate
- 解除
InputExample和InputFeatures对输入数据关键字的限制
问答
- 新增无监督问答pipelines,pipeline运行示例和说明文档 Add unsupervised-qa pipelines #3605
- 新增节点QAFilter、AnswerExtractor、QuestionGenerator、AnswerExtractorPreprocessor、QAFilterPostprocessor
- 新增pipeline QAGenerationPipeline
- FastAPI后端代码,承接ElasticSearch ANN检索库、QAGenerationPipeline和SemanticSearchPipeline
- 无监督问答WEB可视化系统,功能如下:问答检索、在线问答对生成、在线更新索引库、文件上传并自动生成和载入问答对、问答对生成可选择过滤、问答检索可选择返回答案数量和最大检索数量
Trainer
- 新增sharding支持,目前支持sharding stage1、stage2。 [Trainer] support sharding for trainer. #3352
- 新增bf16训练支持,可支持单卡、多卡训练。完善了pure_fp16训练支持。
- 新增IterableDataset支持,支持传入Iterable的数据集。
- 新增Seq2SeqTrainer,支持seq2seq任务训练。
FasterGeneration
- 解除 Transformer FFN 中间隐层维度是
d_model4 倍的限制,新增导入model_state方式加载模型 Lift restrictions to support more d_inner_hid #3592
FastTokenizer
- AutoTokenizer新增
use_fast参数,指定使用fast_tokenizer完成高性能分词。目前ERNIE,BERT,TinyBert以及ERNIE-M可开启该选项。[FastTokenizer] Add clip fast tokenizer #3746 - 发布高性能分词工具FastTokenizer 1.0.0 正式版,包含C++预编译包以及Python包 [FastTokenizer] faster to fast #3762
基础底座
- UNIMO 新增支持获取中间输出选项和支持输入 label 并自动计算 loss Unimo output loss #3450
- CodeGen 新增支持获取中间输出选项和支持输入 label 并自动计算 loss add Codegen output & loss #3465
- UnifiedTransformer 新增支持获取中间输出选项和支持输入 label 并自动计算 loss add unified transformer more output & loss #3459
- BART 新增支持获取中间输出选项和支持输入 label 并自动计算 loss add Bart more output & loss #3436
- MBART 新增支持获取中间输出选项和支持输入 label 并自动计算 loss add Bart more output & loss #3436
- T5 支持直接输入 encoder & decoder embedding 结果 Add embedding inputs to T5 model #3668
- 新增paddlenlp cli工具 [NewFeature] add paddlenlp command #3538
- 添加 7 个 P1 级别模型的单测 add p1 features to six models #3462
UIE
- 新增 UIE 量化训练和部署 Add compression for UIE #3496
Neural Search
- 新增Gradicent Cache和Recompute支持单卡超大batch size的训练。 Add Gradient Cache&Recompute into Neural Search #3697
Text Classification
- 新增语义索引的多标签文本分类。Add Retrieval based multi label classification #3656
- 新增单词和句子级别的可解释性分析 add bad case analysis for text classification #3385
- 修复文本分类部署相关问题 text_classification_application_bug_fix #3765
- 基于 Trainer API 更新多分类实现 Upgrade applications/text_classifications/multi_class to use Trainer API #3679
Bug Fix
- 修复 FasterEncoder 预测结果异常问题 Fix missing comma in FE #3606
- 修复 FasterGeneration PrefixLM 类模型在 beam search 解码策略下显存分配问题 Fix FT malloc size for beam search. #3662
- 修复Windows平台下载社区模型失败的问题 Fix Auto download url #3670 Fix download url on Windows #3640
- Pipelines修复文件重复上传的问题。Fix the file upload multiple times of Pipelines #3568
- Pipelines修复word文档解析异常的问题。Fix FAQ docx ui upload parsing support and reformat docx.py #3645
- PIpelines修复批量预测异常的问题。Fix batch prediction bug and FAQ README of Pipelines #3712
- 修复问题生成模版相关的bug .fix bug about template 3 #3646
- TIPC中gpt动转静。[TIPC]Fix dy2st tipc gpt 8 error #3586
- 添加CLIPText,CLIPVision进入auto/modeling,支持AutoModel加载,修改CLIP的默认NEG INF为-1e4,这样fp16 O2不会异常。 Fix #3768 #3789
- 修复 pypi 自动化发包流程配置 [Bug Fix] update pypi workflow #3626
PPDiffusers
- 将diffusers_paddle重命名为ppdiffusers。[PPDiffusers] rename ppdiffusers #3601
- 修复bug支持中文Stable Diffusion, 发布ppdiffusers0.6.1。 [PPDiffusers] Fix ppdiffusers bug and support ZH stablediffusion #3663
- 发布ppdiffusers0.6.2 [PPDiffusers] fix small bug and release 0.6.2 #3737
- 增加laion400m文生图训练脚本。[ppdiffusers] add text_to_image_laion400m example #3693 [PPDiffusers] update ldm train code #3772
- 支持 EulerAncestralDiscreteScheduler 和 DPMSolverMultistepScheduler [ppdiffusers] support EulerAncestralDiscreteScheduler #3708 [PPDiffusers] add DPMSolverMultistepScheduler #3764
- 增加fid计算代码。[New Features] Add FID score #3685
- 增加ldm超分的pipeline。 add ldm superresolution #3710
- 增加ppdiffusers推理pipeline使用代码。 add ppdiffusers inference and pipelines-doc #3759
- 添加 ppdiffusers CD workflow [NewFeature] add ppdiffusers CD workflow #3604