Update README.md
Browse files
README.md
CHANGED
@@ -26,11 +26,13 @@ PS: state tuning ≈ prompt tuning, prefex tuning
|
|
26 |
|finished loss|0.549287|
|
27 |
|
28 |
### 结论
|
29 |
-
|
30 |
|
31 |
-
|
|
|
32 |
|
33 |
-
|
|
|
34 |
|
35 |
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6417b108b03817ada6444bb8/_slVGcjHz0ZiEMjOJW58y.png)
|
36 |
|
|
|
26 |
|finished loss|0.549287|
|
27 |
|
28 |
### 结论
|
29 |
+
微调DCoT(或者CoT)可以用于展示其思考过程以得知模型理解什么,不理解什么,同时,一定程度上可以增强模型能力,但是如果模型本身就没有在预训练中包含的内容,这样的思考只会让你看到奇怪的中间过程
|
30 |
|
31 |
+
当然,我也测试过热门问题,如:“9.8和9.11哪个大?”这样的问题在RWKV的过程表示中则显得更加奇怪,甚至有时不会回答大或者小。
|
32 |
+
这基本归咎于RWKV6-v2.1数据集的数学知识很少,除了和训练语料有关系,和词表也有关系,在RWKV6的词表中,从0-99的数字都有一个对应的词元,这显然会让模型分不清0-99之间的区别,以及如“1122”这样的数字和其它如“119”的区别,这样的词表和语料问题共同导致了RWKV6的数学能力低下的发生。
|
33 |
|
34 |
+
如图:
|
35 |
+
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6417b108b03817ada6444bb8/disoWuBKyvS1HsPfLzxhf.png)
|
36 |
|
37 |
![image/png](https://cdn-uploads.huggingface.co/production/uploads/6417b108b03817ada6444bb8/_slVGcjHz0ZiEMjOJW58y.png)
|
38 |
|