Seikaijyu commited on
Commit
8139ca6
·
verified ·
1 Parent(s): 48b9b54

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +7 -7
README.md CHANGED
@@ -15,14 +15,14 @@ language:
15
  | <div style="text-align: left;">配置项</div> | <div style="text-align: left;">说明</div> |
16
  |---|---|
17
  |语料|使用5904条基于Gemini-1.5-Pro蒸馏下来的单轮DCoT语料,经过人工正则批量筛洗,每条语料的长度在2000-4820token之间,大部分回答集中在3000token以上。|
18
- |微调方法|state tuning|
19
- |是否量化|使用int8量化微调|
20
- |微批次大小|4|
21
- |梯度累计|2,以保证微批次和梯度累计相乘最少达到8,增强模型微调效果|
22
  |loss mask|启用|
23
- |学习率|state tuning微调标准值:1-0.01|
24
- |微调回合|2|
25
- |最终loss|0.549287|
26
 
27
  ### 结论
28
  微调达到的CoT可以用于展示其思考过程以得知模型理解什么,不理解什么,同时,一定程度上可以增强模型能力,但是如果模型本身就没有在预训练中包含的内容,这样的思考只会让你看到奇怪的中间过程,如图(RWKV6-v2.1数据集的数学知识很少)。
 
15
  | <div style="text-align: left;">配置项</div> | <div style="text-align: left;">说明</div> |
16
  |---|---|
17
  |语料|使用5904条基于Gemini-1.5-Pro蒸馏下来的单轮DCoT语料,经过人工正则批量筛洗,每条语料的长度在2000-4820token之间,大部分回答集中在3000token以上。|
18
+ |peft|state tuning|
19
+ |quant|使用int8量化微调|
20
+ |micro batch size|4|
21
+ |gradient accumulation|2,以保证微批次和梯度累计相乘最少达到8,增强模型微调效果|
22
  |loss mask|启用|
23
+ |lr|state tuning微调标准值:1-0.01|
24
+ |finetune epoch|2|
25
+ |finished loss|0.549287|
26
 
27
  ### 结论
28
  微调达到的CoT可以用于展示其思考过程以得知模型理解什么,不理解什么,同时,一定程度上可以增强模型能力,但是如果模型本身就没有在预训练中包含的内容,这样的思考只会让你看到奇怪的中间过程,如图(RWKV6-v2.1数据集的数学知识很少)。