Seikaijyu commited on
Commit
a1f4c41
·
verified ·
1 Parent(s): c7a8686

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +7 -1
README.md CHANGED
@@ -22,4 +22,10 @@ language:
22
  |loss mask|启用|
23
  |学习率|state tuning微调标准值:1-0.01|
24
  |微调回合|2|
25
- |最终loss||
 
 
 
 
 
 
 
22
  |loss mask|启用|
23
  |学习率|state tuning微调标准值:1-0.01|
24
  |微调回合|2|
25
+ |最终loss|0.549287|
26
+
27
+ ### 结论
28
+ 微调达到的CoT可以用于展示其思考过程以得知模型理解什么,不理解什么,同时,一定程度上可以增强模型能力,但是如果模型本身就没有在预训练中包含的内容,这样的思考只会让你看到奇怪的中间过程,如图(RWKV6-v2.1数据集的数学知识很少)。
29
+
30
+ 另外,模型的最终回答似乎并不一定会遵守之前的思考过程,可能会在最终回复时回复完全不同的内容,这点在使用prompt让Gemini-1.5-pro,GPT4o,gemma2-27B,Claude3.5Sonnet让闭源或者开源大模型进行思考时也会出现,个人认为这是因为模型只思考一次,在回答时发现之前的思考只考虑了回答提问的因素,与自身道德,回复逻辑不够相符,所以完全不依赖思考过程,重新回答了一遍,在此情况下,以上思考完全作废。
31
+ 但是,因为我对CoT进行了调整,主要目的从**分步执行**转变为了**思维发散**,所以我认为可以通过多次发散思维并进行多步CoT得到多个思考过程,让模型进行路由选择可以极大幅度降低此问题的触发概率。