JosephusCheung
commited on
Commit
·
a0e926c
1
Parent(s):
97ca638
Update README.md
Browse files
README.md
CHANGED
@@ -188,6 +188,18 @@ STEM准确率:66.71
|
|
188 |
|
189 |
在 [AlpacaEval Leaderboard](https://tatsu-lab.github.io/alpaca_eval/) 胜率 **88.26%** [view raw](https://github.com/tatsu-lab/alpaca_eval/blob/3a47dcd81c56f6a8e6a5711f2754013919fbe90a/results/causallm-14b/model_outputs.json)
|
190 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
191 |
## 其他语言
|
192 |
我们目前无法为非 QA 任务(英语和中文以外的语言)生成准确的基准模板。 不过,我们将在不久的将来开发其他语言版本的 QA-Task 挑战。
|
193 |
### 日文基准
|
|
|
188 |
|
189 |
在 [AlpacaEval Leaderboard](https://tatsu-lab.github.io/alpaca_eval/) 胜率 **88.26%** [view raw](https://github.com/tatsu-lab/alpaca_eval/blob/3a47dcd81c56f6a8e6a5711f2754013919fbe90a/results/causallm-14b/model_outputs.json)
|
190 |
|
191 |
+
## DPO 版本的 MT-Behch
|
192 |
+
| Model | MT-Bench |
|
193 |
+
| ------------------------- | ------------ |
|
194 |
+
| GPT-4 | 8.99 |
|
195 |
+
| GPT-3.5-Turbo | 7.94 |
|
196 |
+
| | |
|
197 |
+
| Zephyr-7b-β (Overfitting) | 7.34 |
|
198 |
+
| Zephyr-7b-α | 6.88 |
|
199 |
+
| | |
|
200 |
+
| **[CausalLM/14B-DPO-α](https://huggingface.co/CausalLM/14B-DPO-alpha)** | **7.618868** |
|
201 |
+
| **[CausalLM/7B-DPO-α](https://huggingface.co/CausalLM/7B-DPO-alpha)** | **7.038125** |
|
202 |
+
|
203 |
## 其他语言
|
204 |
我们目前无法为非 QA 任务(英语和中文以外的语言)生成准确的基准模板。 不过,我们将在不久的将来开发其他语言版本的 QA-Task 挑战。
|
205 |
### 日文基准
|