lora微调笔记
微调笔记
分类:
fine tuning 传统全量微调,(高质量微调)
prompt tuning(提示词微调)
技术:指令微调
上下文学习
chain of thought(思维链)
PET模型(Pattern-Exploiting Training)
POFT方法:分成三种类型:(面向提示的微调)
- 全量微调(Full Fine-Tuning):模型所有参数都参与更新,包括预训练模型参数和下游任务层参数。如PET模型。
- 部分参数微调(Partial Fine-Tuning):只更新预训练模型中的一部分参数,比如高层 transformer block、某些 attention 层或特定模块,其余参数冻结。如Adapter Tuning。
- 仅提示参数微调(Prompt-Only Tuning):冻结原始预训练模型参数,只训练 prompt 参数。如P-tuning、Prompt Tuning等。
Soft Prompt及微调方法
PEFT(参数高效微调)
conda env export > /ptune_chatglm/execute_successful_requir.txt
autodl-tmp/llm_tuning/ptune_chatglm
LoRA
三元组提取(基于用户的输入prompt,送给大模型,做实体提取预测。)
文本分类
问题:
请基于这个html文件,告诉我这是什么任务,基于用户评论的情感分类吗?
lora_rank中lora的每个单词是什么意思
THUDM是什么意思?是组合缩略词吗?拆解开来是哪些单词组成的。合起来是什么意思。尤其在代码中是什么意思?
done
谷歌浏览器的添加网页功能很单一,加到一定数量之后,一些网址就隐藏到可视列表之下了,需要滚轮向下翻。我想知道如何把这些添加的网页管理起来,把相似的网页,放到同一个目录下。
请基于上传的两个html文件,告诉我data_process.py文件中,读取的数据
请告诉我在json文件中 \n和\n\n符号的区别?
{“context”: “Instruction: 你现在是一个很厉害的阅读理解器,严格按照人类指令进行回答。\nInput: 句子中包含了哪些信息,输出json:\n\n江立,男,瑶族,1978年1月出生,广西恭城人。\nAnswer: “, “target”: “json\n[{\"predicate\": \"出生日期\", \"object_type\": \"Date\", \"subject_type\": \"人物\", \"object\": \"1978年1月\", \"subject\": \"江立\"}, {\"predicate\": \"民族\", \"object_type\": \"Text\", \"subject_type\": \"人物\", \"object\": \"瑶族\", \"subject\": \"江立\"}, {\"predicate\": \"出生地\", \"object_type\": \"地点\", \"subject_type\": \"人物\", \"object\": \"广西恭城\", \"subject\": \"江立\"}]\n
“}
上述句子中句尾\n后的三撇是什么符号?
pandoc “D:\software\fine_tuning\01_课件\site\01-大模型微调主要方式\01-大模型Prompt-Tuning方法.html” -f html -t markdown –wrap=preserve -o “C:\Users\gan\Desktop\输出文件.md”
批量转换(在 PowerShell 中):
打开 PowerShell,导航到你的 HTML 文件所在的文件夹,然后运行:
powershell
复制
下载
1 | Get-ChildItem *.html | ForEach-Object { pandoc $_.Name -f html -t markdown -o ($_.BaseName + ".md") } |
1 | nvidia-smi 查看cuda版本号 |