JosephusCheung commited on
Commit
a0e926c
·
1 Parent(s): 97ca638

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +12 -0
README.md CHANGED
@@ -188,6 +188,18 @@ STEM准确率:66.71
188
 
189
  在 [AlpacaEval Leaderboard](https://tatsu-lab.github.io/alpaca_eval/) 胜率 **88.26%** [view raw](https://github.com/tatsu-lab/alpaca_eval/blob/3a47dcd81c56f6a8e6a5711f2754013919fbe90a/results/causallm-14b/model_outputs.json)
190
 
 
 
 
 
 
 
 
 
 
 
 
 
191
  ## 其他语言
192
  我们目前无法为非 QA 任务(英语和中文以外的语言)生成准确的基准模板。 不过,我们将在不久的将来开发其他语言版本的 QA-Task 挑战。
193
  ### 日文基准
 
188
 
189
  在 [AlpacaEval Leaderboard](https://tatsu-lab.github.io/alpaca_eval/) 胜率 **88.26%** [view raw](https://github.com/tatsu-lab/alpaca_eval/blob/3a47dcd81c56f6a8e6a5711f2754013919fbe90a/results/causallm-14b/model_outputs.json)
190
 
191
+ ## DPO 版本的 MT-Behch
192
+ | Model | MT-Bench |
193
+ | ------------------------- | ------------ |
194
+ | GPT-4 | 8.99 |
195
+ | GPT-3.5-Turbo | 7.94 |
196
+ | | |
197
+ | Zephyr-7b-β (Overfitting) | 7.34 |
198
+ | Zephyr-7b-α | 6.88 |
199
+ | | |
200
+ | **[CausalLM/14B-DPO-α](https://huggingface.co/CausalLM/14B-DPO-alpha)** | **7.618868** |
201
+ | **[CausalLM/7B-DPO-α](https://huggingface.co/CausalLM/7B-DPO-alpha)** | **7.038125** |
202
+
203
  ## 其他语言
204
  我们目前无法为非 QA 任务(英语和中文以外的语言)生成准确的基准模板。 不过,我们将在不久的将来开发其他语言版本的 QA-Task 挑战。
205
  ### 日文基准