Seikaijyu
/

RWKV6-7B-v2.1-DCoT.state

Model card Files Files and versions Community

Seikaijyu commited on Oct 1, 2024

Commit

a1f4c41

·

verified ·

1 Parent(s): c7a8686

Update README.md

Files changed (1) hide show

README.md +7 -1

README.md CHANGED Viewed

@@ -22,4 +22,10 @@ language:
 |loss mask|启用|
 |学习率|state tuning微调标准值：1-0.01|
 |微调回合|2|
-|最终loss||

 |loss mask|启用|
 |学习率|state tuning微调标准值：1-0.01|
 |微调回合|2|
+|最终loss|0.549287|
+### 结论
+微调达到的CoT可以用于展示其思考过程以得知模型理解什么，不理解什么，同时，一定程度上可以增强模型能力，但是如果模型本身就没有在预训练中包含的内容，这样的思考只会让你看到奇怪的中间过程，如图（RWKV6-v2.1数据集的数学知识很少）。
+另外，模型的最终回答似乎并不一定会遵守之前的思考过程，可能会在最终回复时回复完全不同的内容，这点在使用prompt让Gemini-1.5-pro，GPT4o，gemma2-27B，Claude3.5Sonnet让闭源或者开源大模型进行思考时也会出现，个人认为这是因为模型只思考一次，在回答时发现之前的思考只考虑了回答提问的因素，与自身道德，回复逻辑不够相符，所以完全不依赖思考过程，重新回答了一遍，在此情况下，以上思考完全作废。
+但是，因为我对CoT进行了调整，主要目的从**分步执行**转变为了**思维发散**，所以我认为可以通过多次发散思维并进行多步CoT得到多个思考过程，让模型进行路由选择可以极大幅度降低此问题的触发概率。