Seikaijyu
/

RWKV6-7B-v2.1-DCoT.state

Model card Files Files and versions Community

Seikaijyu commited on Oct 1, 2024

Commit

2ee2261

·

verified ·

1 Parent(s): 0aa505e

Update README.md

Files changed (1) hide show

README.md +5 -0

README.md CHANGED Viewed

@@ -39,3 +39,8 @@ PS: state tuning ≈ prompt tuning, prefex tuning
 另外，模型的最终回答似乎并不一定会遵守之前的思考过程，可能会在最终回复时回复完全不同的内容，这点在使用prompt让Gemini-1.5-pro，GPT4o，gemma2-27B，Claude3.5Sonnet等闭源或者开源大模型进行思考时也会出现，个人认为这是因为模型只思考一次，在回答时发现之前的思考只考虑了回答提问的因素，与自身道德，回复逻辑不够相符，所以完全不依赖思考过程，重新回答了一遍，在此情况下，以上思考完全作废。
 但是，因为我对CoT进行了调整，主要目的从**分步执行**转变为了**思维发散**，所以我认为可以通过多次发散思维并进行多步CoT得到多个思考过程，让模型进行路由选择可以极大幅度降低此问题的触发概率。

 另外，模型的最终回答似乎并不一定会遵守之前的思考过程，可能会在最终回复时回复完全不同的内容，这点在使用prompt让Gemini-1.5-pro，GPT4o，gemma2-27B，Claude3.5Sonnet等闭源或者开源大模型进行思考时也会出现，个人认为这是因为模型只思考一次，在回答时发现之前的思考只考虑了回答提问的因素，与自身道德，回复逻辑不够相符，所以完全不依赖思考过程，重新回答了一遍，在此情况下，以上思考完全作废。
 但是，因为我对CoT进行了调整，主要目的从**分步执行**转变为了**思维发散**，所以我认为可以通过多次发散思维并进行多步CoT得到多个思考过程，让模型进行路由选择可以极大幅度降低此问题的触发概率。
+附图：
+![image/png](https://cdn-uploads.huggingface.co/production/uploads/6417b108b03817ada6444bb8/86p_1wTLW7XRObpH5puOi.png)
+![image/png](https://cdn-uploads.huggingface.co/production/uploads/6417b108b03817ada6444bb8/PxYMhgdUw0LkwegAZgQ-c.png)