Update README.md
Browse files
README.md
CHANGED
@@ -1,3 +1,6 @@
|
|
|
|
|
|
|
|
1 |
<p align="left">
|
2 |
中文</a>  |  <a href="README_EN.md">English</a> 
|
3 |
</p>
|
@@ -51,7 +54,7 @@
|
|
51 |
# 下载地址
|
52 |
本次发布版本和下载链接见下表:
|
53 |
| Size | Model | BF16 | Int4|
|
54 |
-
|
55 |
| 7B | 360Zhinao-7B-Base | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Base/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Base">🤗</a> | |
|
56 |
| 7B | 360Zhinao-7B-Chat-4K | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Chat-4K/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Chat-4K">🤗</a> | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Chat-4K-Int4/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Chat-4K-Int4">🤗</a> |
|
57 |
| 7B | 360Zhinao-7B-Chat-32K | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Chat-32K/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Chat-32K">🤗</a> | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Chat-32K-Int4/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Chat-32K-Int4">🤗</a> |
|
@@ -64,23 +67,24 @@
|
|
64 |
## 基础模型
|
65 |
我们在OpenCompass的主流评测数据集上验证了我们的模型性能,包括C-Eval、AGIEval、MMLU、CMMLU、HellaSwag、MATH、GSM8K、HumanEval、MBPP、BBH、LAMBADA,考察的能力包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。
|
66 |
|
67 |
-
|
68 |
-
|
|
69 |
-
|
70 |
-
|
|
71 |
-
|
|
72 |
-
|
|
73 |
-
|
|
74 |
-
|
|
75 |
-
|
|
76 |
-
| LLaMA-7B
|
77 |
-
|
|
78 |
-
|
|
79 |
-
|
|
80 |
-
|
|
81 |
-
|
|
82 |
-
|
|
83 |
-
|
|
|
|
84 |
|
85 |
以上结果,在官方[Opencompass](https://rank.opencompass.org.cn/leaderboard-llm)上可查询或可复现。
|
86 |
|
@@ -89,21 +93,20 @@
|
|
89 |
我们在多种长度和多种任务的评测Benchmark上验证不同版本模型的性能。
|
90 |
|
91 |
- ### Chat模型对话能力评测
|
92 |
-
为了验证模型多轮对话效果,这里我们使用了MT-Bench数据集。[MT-bench](https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge)一个由80个高质量的多轮对话问题组成的基准,旨在测试多轮对话和指令遵循能力。在数据集的构造上,确定了8个常见的用户提示类别:写作、角色扮演、提取、推理、数学、编码、知识I(STEM)和知识II(人文/社会科学)。每个类别,手动设计了10个多轮的问题,每一轮有2个问题,问题评分使用GPT4进行自动打分机制。
|
93 |
| Model | turn1 | turn2 | average |
|
94 |
-
| --------------------
|
95 |
| Qwen7b-chat | 6.5725 | 5.4000 | 5.9862 |
|
96 |
| Baichuan2-7B-Chat | 6.4562 | 5.5562 | 6.0062 |
|
97 |
| InternLM-7B-Chat | 5.5625 | 4.0696 | 4.8207 |
|
98 |
-
|
|
99 |
-
| 360Zhinao-7B-Chat | 6.5062 | 5.8762 | 6.1962 |
|
100 |
|
101 |
- ### Chat模型长文本能力评测
|
102 |
|
103 |
为了验证长序列的效果,这里我们使用了LongBench数据集。[LongBench](https://github.com/THUDM/LongBench)是第一个多任务、中英双语、针对大语言模型长文本理解能力的评测基准。LongBench由六大类、二十一个不同的任务组成,我们选择其中与中文长文本应用最密切相关的中文单文档问答、多文档问答、摘要、Few shot等任务场景进行评测。
|
104 |
|
105 |
-
| Model | Avg | 单文档QA
|
106 |
-
|
|
107 |
| GPT-3.5-Turbo-16k | 37.84 | 61.2 | 28.7 | 16 | 29.2 | 54.1 |
|
108 |
| ChatGLM2-6B-32k | 37.16 | 51.6 | 37.6 | 16.2 | 27.7 | 52.7 |
|
109 |
| ChatGLM3-6B-32k | 44.62 | **62.3** | 44.8 | 17.8 | 42 | 56.2 |
|
@@ -346,6 +349,17 @@ curl --location --request POST 'http://localhost:8360/v1/chat/completions' \
|
|
346 |
<br>
|
347 |
|
348 |
# 模型推理
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
349 |
## 模型部署
|
350 |
### vLLM安装环境
|
351 |
如希望部署及加速推理,我们建议你使用 `vLLM==0.3.3`。
|
|
|
1 |
+
---
|
2 |
+
{}
|
3 |
+
---
|
4 |
<p align="left">
|
5 |
中文</a>  |  <a href="README_EN.md">English</a> 
|
6 |
</p>
|
|
|
54 |
# 下载地址
|
55 |
本次发布版本和下载链接见下表:
|
56 |
| Size | Model | BF16 | Int4|
|
57 |
+
|:-:|-|:-:|:-:|
|
58 |
| 7B | 360Zhinao-7B-Base | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Base/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Base">🤗</a> | |
|
59 |
| 7B | 360Zhinao-7B-Chat-4K | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Chat-4K/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Chat-4K">🤗</a> | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Chat-4K-Int4/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Chat-4K-Int4">🤗</a> |
|
60 |
| 7B | 360Zhinao-7B-Chat-32K | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Chat-32K/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Chat-32K">🤗</a> | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Chat-32K-Int4/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Chat-32K-Int4">🤗</a> |
|
|
|
67 |
## 基础模型
|
68 |
我们在OpenCompass的主流评测数据集上验证了我们的模型性能,包括C-Eval、AGIEval、MMLU、CMMLU、HellaSwag、MATH、GSM8K、HumanEval、MBPP、BBH、LAMBADA,考察的能力包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。
|
69 |
|
70 |
+
|
71 |
+
| <div style="width: 100pt">Model</div> | AVG | CEval | AGIEval | MMLU | CMMLU | HellaSwag | MATH | GSM8K | HumanEval | MBPP | BBH | LAMBADA |
|
72 |
+
|:----------------------|:---------:|:---------:|:---------:|:---------:|:---------:|:---------:|:---------:|:---------:|:---------:|:---------:|:---------:|:---------:|
|
73 |
+
| Baichuan2-7B | 41.49 | 56.3 | 34.6 | 54.7 | 57 | 67 | 5.4 | 24.6 | 17.7 | 24 | 41.8 | 73.3 |
|
74 |
+
| Baichuan-7B | 31.94 | 44.7 | 24.6 | 41.5 | 44.6 | 68.4 | 2.5 | 9.6 | 9.1 | 6.4 | 32.8 | 67.1 |
|
75 |
+
| ChatGLM3-6B | **58.67** | 67 | 47.4 | 62.8 | 66.5 | 76.5 | 19.2 | 61 | 44.5 | **57.2** | **66.2** | 77.1 |
|
76 |
+
| DeepSeek-7B | 39.8 | 45 | 24 | 49.3 | 46.8 | 73.4 | 4.2 | 18.3 | 25 | 36.4 | 42.8 | 72.6 |
|
77 |
+
| InternLM2-7B | 58.01 | 65.7 | 50.2 | 65.5 | 66.2 | 79.6 | 19.9 | **70.6** | 41.5 | 42.4 | 64.4 | 72.1 |
|
78 |
+
| InternLM-7B | 39.33 | 53.4 | 36.9 | 51 | 51.8 | 70.6 | 6.3 | 31.2 | 13.4 | 14 | 37 | 67 |
|
79 |
+
| LLaMA-2-7B | 33.27 | 32.5 | 21.8 | 46.8 | 31.8 | 74 | 3.3 | 16.7 | 12.8 | 14.8 | 38.2 | 73.3 |
|
80 |
+
| LLaMA-7B | 30.35 | 27.3 | 20.6 | 35.6 | 26.8 | 74.3 | 2.9 | 10 | 12.8 | 16.8 | 33.5 | 73.3 |
|
81 |
+
| Mistral-7B-v0.1 | 47.67 | 47.4 | 32.8 | 64.1 | 44.7 | 78.9 | 11.3 | 47.5 | 27.4 | 38.6 | 56.7 | 75 |
|
82 |
+
| MPT-7B | 30.06 | 23.5 | 21.3 | 27.5 | 25.9 | 75 | 2.9 | 9.1 | 17.1 | 22.8 | 35.6 | 70 |
|
83 |
+
| Qwen1.5-7B | 55.12 | 73.57 | **50.8** | 62.15 | 71.84 | 72.62 | **20.36** | 54.36 | **53.05** | 36.8 | 40.01 | 70.74 |
|
84 |
+
| Qwen-7B | 49.53 | 63.4 | 45.3 | 59.7 | 62.5 | 75 | 13.3 | 54.1 | 27.4 | 31.4 | 45.2 | 67.5 |
|
85 |
+
| XVERSE-7B | 34.27 | 61.1 | 39 | 58.4 | 60.8 | 73.7 | 2.2 | 11.7 | 4.9 | 10.2 | 31 | 24 |
|
86 |
+
| Yi-6B | 47.8 | 73 | 44.3 | 64 | **73.5** | 73.1 | 6.3 | 39.9 | 15.2 | 23.6 | 44.9 | 68 |
|
87 |
+
| **360Zhinao-7B** | 56.15 | **74.11** | 49.49 | **67.44** | 72.38 | **83.05** | 16.38 | 53.83 | 35.98 | 42.4 | 43.95 | **78.59** |
|
88 |
|
89 |
以上结果,在官方[Opencompass](https://rank.opencompass.org.cn/leaderboard-llm)上可查询或可复现。
|
90 |
|
|
|
93 |
我们在多种长度和多种任务的评测Benchmark上验证不同版本模型的性能。
|
94 |
|
95 |
- ### Chat模型对话能力评测
|
96 |
+
为了验证模型多轮对话效果,这里我们使用了MT-Bench数据集。[MT-bench](https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge)一个由80个高质量的多轮对话问题组成的基准,旨在测试多轮对话和指令遵循能力。在数据集的构造上,确定了8个常见的用户提示类别:写作、角色扮演、提取、推理、数学、编码、知识I(STEM)和知识II(人文/社会科学)。每个类别,手动设计了10个多轮的问题,每一轮有2个问题,问题评分使用GPT4(2024年4月最新版本)进行自动打分机制。
|
97 |
| Model | turn1 | turn2 | average |
|
98 |
+
| -------------------- |:---------:|:---------:|:---------:|
|
99 |
| Qwen7b-chat | 6.5725 | 5.4000 | 5.9862 |
|
100 |
| Baichuan2-7B-Chat | 6.4562 | 5.5562 | 6.0062 |
|
101 |
| InternLM-7B-Chat | 5.5625 | 4.0696 | 4.8207 |
|
102 |
+
| 360Zhinao-7B-Chat | 6.5062 | **5.8762** | **6.1962** |
|
|
|
103 |
|
104 |
- ### Chat模型长文本能力评测
|
105 |
|
106 |
为了验证长序列的效果,这里我们使用了LongBench数据集。[LongBench](https://github.com/THUDM/LongBench)是第一个多任务、中英双语、针对大语言模型长文本理解能力的评测基准。LongBench由六大类、二十一个不同的任务组成,我们选择其中与中文长文本应用最密切相关的中文单文档问答、多文档问答、摘要、Few shot等任务场景进行评测。
|
107 |
|
108 |
+
| Model | Avg | 单文档QA | 多文档QA | 摘要 | Few-shot学习 | 代码补全 |
|
109 |
+
| :------------------------ |:---------:|:--------:|:---------:|:---------:|:------------:|:---------:|
|
110 |
| GPT-3.5-Turbo-16k | 37.84 | 61.2 | 28.7 | 16 | 29.2 | 54.1 |
|
111 |
| ChatGLM2-6B-32k | 37.16 | 51.6 | 37.6 | 16.2 | 27.7 | 52.7 |
|
112 |
| ChatGLM3-6B-32k | 44.62 | **62.3** | 44.8 | 17.8 | 42 | 56.2 |
|
|
|
349 |
<br>
|
350 |
|
351 |
# 模型推理
|
352 |
+
## 模型量化
|
353 |
+
我们提供了基于AutoGPTQ的量化方案,并开源了Int4量化模型。模型的效果损失很小,但能显著降低显存占用并提升推理速度。
|
354 |
+
|
355 |
+
对BF16,Int8和Int4模型在基准评测上做了测试,结果如下所示:
|
356 |
+
|
357 |
+
| Quantization | MMLU | CEval (val) | GSM8K | Humaneval |
|
358 |
+
|-|-|-|-|-|
|
359 |
+
| 360Zhinao-7B-Chat-4K (BF16) |-|-|-|-|
|
360 |
+
| 360Zhinao-7B-Chat-4K (Int8) |-|-|-|-|
|
361 |
+
| 360Zhinao-7B-Chat-4K (Int4) |-|-|-|-|
|
362 |
+
|
363 |
## 模型部署
|
364 |
### vLLM安装环境
|
365 |
如希望部署及加速推理,我们建议你使用 `vLLM==0.3.3`。
|