Update README.md
Browse files
README.md
CHANGED
@@ -15,14 +15,14 @@ language:
|
|
15 |
| <div style="text-align: left;">配置项</div> | <div style="text-align: left;">说明</div> |
|
16 |
|---|---|
|
17 |
|语料|使用5904条基于Gemini-1.5-Pro蒸馏下来的单轮DCoT语料,经过人工正则批量筛洗,每条语料的长度在2000-4820token之间,大部分回答集中在3000token以上。|
|
18 |
-
|
19 |
-
|
20 |
-
|
21 |
-
|
22 |
|loss mask|启用|
|
23 |
-
|
24 |
-
|
25 |
-
|
26 |
|
27 |
### 结论
|
28 |
微调达到的CoT可以用于展示其思考过程以得知模型理解什么,不理解什么,同时,一定程度上可以增强模型能力,但是如果模型本身就没有在预训练中包含的内容,这样的思考只会让你看到奇怪的中间过程,如图(RWKV6-v2.1数据集的数学知识很少)。
|
|
|
15 |
| <div style="text-align: left;">配置项</div> | <div style="text-align: left;">说明</div> |
|
16 |
|---|---|
|
17 |
|语料|使用5904条基于Gemini-1.5-Pro蒸馏下来的单轮DCoT语料,经过人工正则批量筛洗,每条语料的长度在2000-4820token之间,大部分回答集中在3000token以上。|
|
18 |
+
|peft|state tuning|
|
19 |
+
|quant|使用int8量化微调|
|
20 |
+
|micro batch size|4|
|
21 |
+
|gradient accumulation|2,以保证微批次和梯度累计相乘最少达到8,增强模型微调效果|
|
22 |
|loss mask|启用|
|
23 |
+
|lr|state tuning微调标准值:1-0.01|
|
24 |
+
|finetune epoch|2|
|
25 |
+
|finished loss|0.549287|
|
26 |
|
27 |
### 结论
|
28 |
微调达到的CoT可以用于展示其思考过程以得知模型理解什么,不理解什么,同时,一定程度上可以增强模型能力,但是如果模型本身就没有在预训练中包含的内容,这样的思考只会让你看到奇怪的中间过程,如图(RWKV6-v2.1数据集的数学知识很少)。
|