File tree Expand file tree Collapse file tree 11 files changed +131
-5
lines changed Expand file tree Collapse file tree 11 files changed +131
-5
lines changed Original file line number Diff line number Diff line change
1
+ # Stable Diffusion + LoRA
2
+
3
+
4
+ # 参考
5
+ 1 . [ 使用SD+LoRA训练IP角色出图] ( https://juejin.cn/post/7490854985819799552 )
6
+ 2 . https://zhuanlan.zhihu.com/p/639229126
7
+ 3 . [ 从零开发基于 Stable diffusion 的在线 AI 绘图工具,定制专属龙年新春海报] ( https://juejin.cn/post/7332495238877233204#heading-0 )
Original file line number Diff line number Diff line change
1
+ # AI辅助编程
2
+
3
+ - 需求分析:用什么AI工具进行需求分析
4
+ - 概要设计:用什么AI工具进行概要设计
5
+ - 详细设计:用什么AI工具进行详细设计
6
+ - UI生成:用什么AI工具进行UI生成
7
+ - 代码生成:用什么AI工具进行代码生成
8
+
9
+ ## 需求分析
Original file line number Diff line number Diff line change
1
+ # 内容
2
+ 1 . 基于 Linux 平台的开源 LLM 环境配置指南,针对不同模型要求提供不同的详细环境配置步骤;
3
+ 2 . 针对国内外主流开源 LLM 的部署使用教程,包括 LLaMA、ChatGLM、InternLM 等;
4
+ 3 . 开源 LLM 的部署应用指导,包括命令行调用、在线 Demo 部署、LangChain 框架集成等;
5
+ 4 . 开源 LLM 的全量微调、高效微调方法,包括分布式全量微调、LoRA、ptuning 等。
6
+
7
+
8
+
9
+
10
+ # 参考
11
+ 1 . https://github.com/datawhalechina/self-llm
Original file line number Diff line number Diff line change
1
+ # 内容
2
+ 1 . 前言 本项目的缘起、背景及读者建议
3
+ 2 . 第一章 NLP 基础概念 什么是 NLP、发展历程、任务分类、文本表示演进
4
+ 3 . 第二章 Transformer 架构 注意力机制、Encoder-Decoder、手把手搭建 Transformer
5
+ 4 . 第三章 预训练语言模型 Encoder-only、Encoder-Decoder、Decoder-Only 模型对比
6
+ 5 . 第四章 大语言模型 LLM 定义、训练策略、涌现能力分析
7
+ 6 . 第五章 动手搭建大模型 实现 LLaMA2、训练 Tokenizer、预训练小型 LLM
8
+ 7 . 第六章 大模型训练实践 预训练、有监督微调、LoRA/QLoRA 高效微调
9
+ 8 . 第七章 大模型应用 模型评测、RAG 检索增强、Agent 智能体
10
+ 9 . Extra Chapter LLM Blog 优秀的大模型 学习笔记/Blog
11
+
12
+ # 参考
13
+ 1 . https://datawhalechina.github.io/happy-llm/#/
Original file line number Diff line number Diff line change
1
+ # 实施&运维
2
+
3
+ 1 . 下载模型的地址?
4
+ 2 . 如何运行模型?
5
+ 3 . 模型启动文件?
6
+ 4 . 模型的加载方式?
7
+ 5 . 需要安装的环境?
8
+ 6 . 如何检测错误?
9
+
10
+
11
+
Original file line number Diff line number Diff line change
1
+ # 微调
2
+
3
+ ** 基本流程:**
4
+ - 选择预训练模型
5
+ - 准备好用于模型微调的数据集
6
+ - 准备微调前的测试问题集,并且测试结果(方便微调后进行对比)
7
+ - 设定模型微调需要的超参数
8
+ - 执行模型微调
9
+ - 微调前的测试问题集再度进行测试,对比效果
10
+ - 效果不满意,调整数据集/超参数,再度进行执行模型微调
11
+ - 结束:得到满意的模型
12
+
13
+ ## 通过平台微调大模型
14
+ - 硅基流动
15
+
16
+
17
+ ## 常见问题
18
+ * 为什么我的微调效果不好?跟数据集有关系吗?
19
+ * 数据集的格式是固定的吗?我要弄成什么样子?
20
+ * 数据集还分很多种类?测试集、训练集、验证集的区别是啥?
21
+ * 我想要微调特定领域的模型?去哪获取这个领域公开的数据集?
22
+ * 手动整理数据集太累了,有没有什么快速标注数据集的方法?
23
+ * 数据集可以用 AI 生成吗?怎么把领域的文献转成可供模型微调的数据集?
24
+
25
+
26
+ ## 寻找数据集
27
+ * 前置知识:了解常见的微调任务类型,根据特定任务选择适合的数据集
28
+ * 前置知识:了解常见的数据集格式,数据集的类型
29
+ * 学会怎么找:一些推荐的获取公开数据集的途径
30
+ * 学会这么标:基于标注工具半自动标注数据集
31
+ * 学会怎么做:将特定领域的文献转换为目标格式的数据集
32
+ * 学会怎么做:基于 AI 全自动生成模型蒸馏数据集
33
+
34
+
35
+ ## 监督微调
36
+
37
+ - 指令微调:输入格式、输出格式等转化的微调
38
+ - 对话微调:包含角色身份、多轮对话上下文,让模型学会在不同场景下如何生成合适的回复
39
+ - 领域适配:模型在特定领域的数据上进行微调,使其更好地适应特定领域的任务和需求
40
+ - 文本分类:学习文本特征 => 类别的关系,比如 ` "text": "这款手机续航长达48小时,拍照效果惊艳", "label": "positive" `
41
+ - 思考链推理能力的微调:学会分布思考+复杂逻辑推理
42
+
43
+
44
+ ## 强化学习微调
45
+
46
+ 在监督微调的基础上,通过人类来主动反馈优化模型生成质量来进行微调
47
+
48
+
49
+
50
+
51
+ # 不进行微调如何强化模型的方法
52
+
53
+ ## 蒸馏
54
+ 如果大模型已经完全可以满足你在特定任务上的诉求,但是部署成本又太高了,你完全可以选择一个小模型,然后从大模型里把你任务里需要用到的领域知识提取出来,构造成数据集,再去微调小模型,从而让这个小模型也能在你的特定领域完成任务
55
+
56
+
Original file line number Diff line number Diff line change
1
+ ## RAG解析文档的衡量标准
2
+
3
+
4
+ ## 检索的召回率与准确率
5
+
6
+
7
+
8
+ ## 知识图谱是如何解决多跳问答和跨文档查询的
9
+
10
+ > if 文档满足以下任意条件:
11
+ > 1 . 含超过50个实体互连
12
+ > 2 . 需处理NLP时间表达式(如"三个月前"→2024-03-01)
13
+ > 3 . 查询含2层以上逻辑嵌套
14
+ > 4 . 涉及跨表/跨文档关系验证
15
+ >
16
+ > then 启用知识图谱
17
+ >
18
+ > else 使用传统检索
19
+
20
+
21
+ RAGFlow的检索优势不仅源于多模态检索架构(知识图谱+关键词+向量),更核心的是在语义理解层实现了三重降噪:
22
+ ▸ 词形归一化(Porter+WordNet)消除词法干扰
23
+ ▸ 简繁/全半角转换突破字符形态壁垒
24
+ ▸ 动态Trie树支持用户词典的实时热加载
Load Diff This file was deleted.
You can’t perform that action at this time.
0 commit comments