Seikaijyu
/

RWKV6-7B-v2.1-DCoT.state

Model card Files Files and versions Community

Seikaijyu commited on Oct 1, 2024

Commit

8139ca6

·

verified ·

1 Parent(s): 48b9b54

Update README.md

Files changed (1) hide show

README.md +7 -7

README.md CHANGED Viewed

@@ -15,14 +15,14 @@ language:
 | <div style="text-align: left;">配置项</div> | <div style="text-align: left;">说明</div> |
 |---|---|
 |语料|使用5904条基于Gemini-1.5-Pro蒸馏下来的单轮DCoT语料，经过人工正则批量筛洗，每条语料的长度在2000-4820token之间，大部分回答集中在3000token以上。|
-|微调方法|state tuning|
-|是否量化|使用int8量化微调|
-|微批次大小|4|
-|梯度累计|2，以保证微批次和梯度累计相乘最少达到8，增强模型微调效果|
 |loss mask|启用|
-|学习率|state tuning微调标准值：1-0.01|
-|微调回合|2|
-|最终loss|0.549287|
 ### 结论
 微调达到的CoT可以用于展示其思考过程以得知模型理解什么，不理解什么，同时，一定程度上可以增强模型能力，但是如果模型本身就没有在预训练中包含的内容，这样的思考只会让你看到奇怪的中间过程，如图（RWKV6-v2.1数据集的数学知识很少）。

 | <div style="text-align: left;">配置项</div> | <div style="text-align: left;">说明</div> |
 |---|---|
 |语料|使用5904条基于Gemini-1.5-Pro蒸馏下来的单轮DCoT语料，经过人工正则批量筛洗，每条语料的长度在2000-4820token之间，大部分回答集中在3000token以上。|
+|peft|state tuning|
+|quant|使用int8量化微调|
+|micro batch size|4|
+|gradient accumulation|2，以保证微批次和梯度累计相乘最少达到8，增强模型微调效果|
 |loss mask|启用|
+|lr|state tuning微调标准值：1-0.01|
+|finetune epoch|2|
+|finished loss|0.549287|
 ### 结论
 微调达到的CoT可以用于展示其思考过程以得知模型理解什么，不理解什么，同时，一定程度上可以增强模型能力，但是如果模型本身就没有在预训练中包含的内容，这样的思考只会让你看到奇怪的中间过程，如图（RWKV6-v2.1数据集的数学知识很少）。