Seikaijyu
/

RWKV6-7B-v2.1-DCoT.state

Model card Files Files and versions Community

Seikaijyu commited on Oct 1, 2024

Commit

063f1ad

·

verified ·

1 Parent(s): a1f4c41

Update README.md

Files changed (1) hide show

README.md +2 -0

README.md CHANGED Viewed

@@ -27,5 +27,7 @@ language:
 ### 结论
 微调达到的CoT可以用于展示其思考过程以得知模型理解什么，不理解什么，同时，一定程度上可以增强模型能力，但是如果模型本身就没有在预训练中包含的内容，这样的思考只会让你看到奇怪的中间过程，如图（RWKV6-v2.1数据集的数学知识很少）。
 另外，模型的最终回答似乎并不一定会遵守之前的思考过程，可能会在最终回复时回复完全不同的内容，这点在使用prompt让Gemini-1.5-pro，GPT4o，gemma2-27B，Claude3.5Sonnet让闭源或者开源大模型进行思考时也会出现，个人认为这是因为模型只思考一次，在回答时发现之前的思考只考虑了回答提问的因素，与自身道德，回复逻辑不够相符，所以完全不依赖思考过程，重新回答了一遍，在此情况下，以上思考完全作废。
 但是，因为我对CoT进行了调整，主要目的从**分步执行**转变为了**思维发散**，所以我认为可以通过多次发散思维并进行多步CoT得到多个思考过程，让模型进行路由选择可以极大幅度降低此问题的触发概率。

 ### 结论
 微调达到的CoT可以用于展示其思考过程以得知模型理解什么，不理解什么，同时，一定程度上可以增强模型能力，但是如果模型本身就没有在预训练中包含的内容，这样的思考只会让你看到奇怪的中间过程，如图（RWKV6-v2.1数据集的数学知识很少）。
+![image/png](https://cdn-uploads.huggingface.co/production/uploads/6417b108b03817ada6444bb8/disoWuBKyvS1HsPfLzxhf.png)
 另外，模型的最终回答似乎并不一定会遵守之前的思考过程，可能会在最终回复时回复完全不同的内容，这点在使用prompt让Gemini-1.5-pro，GPT4o，gemma2-27B，Claude3.5Sonnet让闭源或者开源大模型进行思考时也会出现，个人认为这是因为模型只思考一次，在回答时发现之前的思考只考虑了回答提问的因素，与自身道德，回复逻辑不够相符，所以完全不依赖思考过程，重新回答了一遍，在此情况下，以上思考完全作废。
 但是，因为我对CoT进行了调整，主要目的从**分步执行**转变为了**思维发散**，所以我认为可以通过多次发散思维并进行多步CoT得到多个思考过程，让模型进行路由选择可以极大幅度降低此问题的触发概率。