Update README.md
Browse files
README.md
CHANGED
@@ -39,3 +39,8 @@ PS: state tuning ≈ prompt tuning, prefex tuning
|
|
39 |
另外,模型的最终回答似乎并不一定会遵守之前的思考过程,可能会在最终回复时回复完全不同的内容,这点在使用prompt让Gemini-1.5-pro,GPT4o,gemma2-27B,Claude3.5Sonnet等闭源或者开源大模型进行思考时也会出现,个人认为这是因为模型只思考一次,在回答时发现之前的思考只考虑了回答提问的因素,与自身道德,回复逻辑不够相符,所以完全不依赖思考过程,重新回答了一遍,在此情况下,以上思考完全作废。
|
40 |
但是,因为我对CoT进行了调整,主要目的从**分步执行**转变为了**思维发散**,所以我认为可以通过多次发散思维并进行多步CoT得到多个思考过程,让模型进行路由选择可以极大幅度降低此问题的触发概率。
|
41 |
|
|
|
|
|
|
|
|
|
|
|
|
39 |
另外,模型的最终回答似乎并不一定会遵守之前的思考过程,可能会在最终回复时回复完全不同的内容,这点在使用prompt让Gemini-1.5-pro,GPT4o,gemma2-27B,Claude3.5Sonnet等闭源或者开源大模型进行思考时也会出现,个人认为这是因为模型只思考一次,在回答时发现之前的思考只考虑了回答提问的因素,与自身道德,回复逻辑不够相符,所以完全不依赖思考过程,重新回答了一遍,在此情况下,以上思考完全作废。
|
40 |
但是,因为我对CoT进行了调整,主要目的从**分步执行**转变为了**思维发散**,所以我认为可以通过多次发散思维并进行多步CoT得到多个思考过程,让模型进行路由选择可以极大幅度降低此问题的触发概率。
|
41 |
|
42 |
+
附图:
|
43 |
+
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6417b108b03817ada6444bb8/86p_1wTLW7XRObpH5puOi.png)
|
44 |
+
|
45 |
+
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6417b108b03817ada6444bb8/PxYMhgdUw0LkwegAZgQ-c.png)
|
46 |
+
|