zhaicunqi commited on
Commit
29770d7
·
verified ·
1 Parent(s): 9f6e680

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +38 -24
README.md CHANGED
@@ -1,3 +1,6 @@
 
 
 
1
  <p align="left">
2
  中文</a>&nbsp | &nbsp<a href="README_EN.md">English</a>&nbsp
3
  </p>
@@ -51,7 +54,7 @@
51
  # 下载地址
52
  本次发布版本和下载链接见下表:
53
  | Size | Model | BF16 | Int4|
54
- |-|-|-|-|
55
  | 7B | 360Zhinao-7B-Base | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Base/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Base">🤗</a> | |
56
  | 7B | 360Zhinao-7B-Chat-4K | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Chat-4K/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Chat-4K">🤗</a> | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Chat-4K-Int4/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Chat-4K-Int4">🤗</a> |
57
  | 7B | 360Zhinao-7B-Chat-32K | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Chat-32K/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Chat-32K">🤗</a> | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Chat-32K-Int4/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Chat-32K-Int4">🤗</a> |
@@ -64,23 +67,24 @@
64
  ## 基础模型
65
  我们在OpenCompass的主流评测数据集上验证了我们的模型性能,包括C-Eval、AGIEval、MMLU、CMMLU、HellaSwag、MATH、GSM8K、HumanEval、MBPP、BBH、LAMBADA,考察的能力包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。
66
 
67
- | Model | AVG | C-Eval | AGIEval | MMLU | CMMLU | HellaSwag | MATH | GSM8K | HumanEval | MBPP | BBH | LAMBADA |
68
- | ----------------- | ----- | ----- | ----- | ----- | ----- | ----- | ------ | ---- | ------ | ---- | ----- | ----- |
69
- | Baichuan2-7B | 41.49 | 56.3 | 34.6 | 54.7 | 57 | 67 | 5.4 | 24.6 | 17.7 | 24 | 41.8 | 73.3 |
70
- | Baichuan-7B | 31.94 | 44.7 | 24.6 | 41.5 | 44.6 | 68.4 | 2.5 | 9.6 | 9.1 | 6.4 | 32.8 | 67.1 |
71
- | ChatGLM3-6B | 58.67 | 67 | 47.4 | 62.8 | 66.5 | 76.5 | 19.2 | 61 | 44.5 | 57.2 | 66.2 | 77.1 |
72
- | DeepSeek-7B | 39.8 | 45 | 24 | 49.3 | 46.8 | 73.4 | 4.2 | 18.3 | 25 | 36.4 | 42.8 | 72.6 |
73
- | InternLM2-7B | 58.01 | 65.7 | 50.2 | 65.5 | 66.2 | 79.6 | 19.9 | 70.6 | 41.5 | 42.4 | 64.4 | 72.1 |
74
- | InternLM-7B | 39.33 | 53.4 | 36.9 | 51 | 51.8 | 70.6 | 6.3 | 31.2 | 13.4 | 14 | 37 | 67 |
75
- | LLaMA-2-7B | 33.27 | 32.5 | 21.8 | 46.8 | 31.8 | 74 | 3.3 | 16.7 | 12.8 | 14.8 | 38.2 | 73.3 |
76
- | LLaMA-7B | 30.35 | 27.3 | 20.6 | 35.6 | 26.8 | 74.3 | 2.9 | 10 | 12.8 | 16.8 | 33.5 | 73.3 |
77
- | Mistral-7B-v0.1 | 47.67 | 47.4 | 32.8 | 64.1 | 44.7 | 78.9 | 11.3 | 47.5 | 27.4 | 38.6 | 56.7 | 75 |
78
- | MPT-7B | 30.06 | 23.5 | 21.3 | 27.5 | 25.9 | 75 | 2.9 | 9.1 | 17.1 | 22.8 | 35.6 | 70 |
79
- | Qwen1.5-7B | 55.12 | 73.57 | 50.8 | 62.15 | 71.84 | 72.62 | 20.36 | 54.36 | 53.05 | 36.8 | 40.01 | 70.74 |
80
- | Qwen-7B | 49.53 | 63.4 | 45.3 | 59.7 | 62.5 | 75 | 13.3 | 54.1 | 27.4 | 31.4 | 45.2 | 67.5 |
81
- | XVERSE-7B | 34.27 | 61.1 | 39 | 58.4 | 60.8 | 73.7 | 2.2 | 11.7 | 4.9 | 10.2 | 31 | 24 |
82
- | Yi-6B | 47.8 | 73 | 44.3 | 64 | 73.5 | 73.1 | 6.3 | 39.9 | 15.2 | 23.6 | 44.9 | 68 |
83
- | 360Zhinao-7B | 56.15 | 74.11 | 49.49 | 67.44 | 72.38 | 83.05 | 16.38 | 53.83 | 35.98 | 42.4 | 43.95 | 78.59 |
 
84
 
85
  以上结果,在官方[Opencompass](https://rank.opencompass.org.cn/leaderboard-llm)上可查询或可复现。
86
 
@@ -89,21 +93,20 @@
89
  我们在多种长度和多种任务的评测Benchmark上验证不同版本模型的性能。
90
 
91
  - ### Chat模型对话能力评测
92
- 为了验证模型多轮对话效果,这里我们使用了MT-Bench数据集。[MT-bench](https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge)一个由80个高质量的多轮对话问题组成的基准,旨在测试多轮对话和指令遵循能力。在数据集的构造上,确定了8个常见的用户提示类别:写作、角色扮演、提取、推理、数学、编码、知识I(STEM)和知识II(人文/社会科学)。每个类别,手动设计了10个多轮的问题,每一轮有2个问题,问题评分使用GPT4进行自动打分机制。
93
  | Model | turn1 | turn2 | average |
94
- | -------------------- | --------- | -------- | --------- |
95
  | Qwen7b-chat | 6.5725 | 5.4000 | 5.9862 |
96
  | Baichuan2-7B-Chat | 6.4562 | 5.5562 | 6.0062 |
97
  | InternLM-7B-Chat | 5.5625 | 4.0696 | 4.8207 |
98
- | Llama2-7B-Chat | 0 | 0 | 0 |
99
- | 360Zhinao-7B-Chat | 6.5062 | 5.8762 | 6.1962 |
100
 
101
  - ### Chat模型长文本能力评测
102
 
103
  为了验证长序列的效果,这里我们使用了LongBench数据集。[LongBench](https://github.com/THUDM/LongBench)是第一个多任务、中英双语、针对大语言模型长文本理解能力的评测基准。LongBench由六大类、二十一个不同的任务组成,我们选择其中与中文长文本应用最密切相关的中文单文档问答、多文档问答、摘要、Few shot等任务场景进行评测。
104
 
105
- | Model | Avg | 单文档QA | 多文档QA | 摘要 | Few-shot学习 | 代码补全 |
106
- | -------------------- | --------- | -------- | --------- | --------- | ------------ | --------- |
107
  | GPT-3.5-Turbo-16k | 37.84 | 61.2 | 28.7 | 16 | 29.2 | 54.1 |
108
  | ChatGLM2-6B-32k | 37.16 | 51.6 | 37.6 | 16.2 | 27.7 | 52.7 |
109
  | ChatGLM3-6B-32k | 44.62 | **62.3** | 44.8 | 17.8 | 42 | 56.2 |
@@ -346,6 +349,17 @@ curl --location --request POST 'http://localhost:8360/v1/chat/completions' \
346
  <br>
347
 
348
  # 模型推理
 
 
 
 
 
 
 
 
 
 
 
349
  ## 模型部署
350
  ### vLLM安装环境
351
  如希望部署及加速推理,我们建议你使用 `vLLM==0.3.3`。
 
1
+ ---
2
+ {}
3
+ ---
4
  <p align="left">
5
  中文</a>&nbsp | &nbsp<a href="README_EN.md">English</a>&nbsp
6
  </p>
 
54
  # 下载地址
55
  本次发布版本和下载链接见下表:
56
  | Size | Model | BF16 | Int4|
57
+ |:-:|-|:-:|:-:|
58
  | 7B | 360Zhinao-7B-Base | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Base/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Base">🤗</a> | |
59
  | 7B | 360Zhinao-7B-Chat-4K | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Chat-4K/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Chat-4K">🤗</a> | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Chat-4K-Int4/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Chat-4K-Int4">🤗</a> |
60
  | 7B | 360Zhinao-7B-Chat-32K | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Chat-32K/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Chat-32K">🤗</a> | <a href="https://www.modelscope.cn/models/qihoo360/360Zhinao-7B-Chat-32K-Int4/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao-7B-Chat-32K-Int4">🤗</a> |
 
67
  ## 基础模型
68
  我们在OpenCompass的主流评测数据集上验证了我们的模型性能,包括C-Eval、AGIEval、MMLU、CMMLU、HellaSwag、MATH、GSM8K、HumanEval、MBPP、BBH、LAMBADA,考察的能力包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。
69
 
70
+
71
+ | <div style="width: 100pt">Model</div> | AVG | CEval | AGIEval | MMLU | CMMLU | HellaSwag | MATH | GSM8K | HumanEval | MBPP | BBH | LAMBADA |
72
+ |:----------------------|:---------:|:---------:|:---------:|:---------:|:---------:|:---------:|:---------:|:---------:|:---------:|:---------:|:---------:|:---------:|
73
+ | Baichuan2-7B | 41.49 | 56.3 | 34.6 | 54.7 | 57 | 67 | 5.4 | 24.6 | 17.7 | 24 | 41.8 | 73.3 |
74
+ | Baichuan-7B | 31.94 | 44.7 | 24.6 | 41.5 | 44.6 | 68.4 | 2.5 | 9.6 | 9.1 | 6.4 | 32.8 | 67.1 |
75
+ | ChatGLM3-6B | **58.67** | 67 | 47.4 | 62.8 | 66.5 | 76.5 | 19.2 | 61 | 44.5 | **57.2** | **66.2** | 77.1 |
76
+ | DeepSeek-7B | 39.8 | 45 | 24 | 49.3 | 46.8 | 73.4 | 4.2 | 18.3 | 25 | 36.4 | 42.8 | 72.6 |
77
+ | InternLM2-7B | 58.01 | 65.7 | 50.2 | 65.5 | 66.2 | 79.6 | 19.9 | **70.6** | 41.5 | 42.4 | 64.4 | 72.1 |
78
+ | InternLM-7B | 39.33 | 53.4 | 36.9 | 51 | 51.8 | 70.6 | 6.3 | 31.2 | 13.4 | 14 | 37 | 67 |
79
+ | LLaMA-2-7B | 33.27 | 32.5 | 21.8 | 46.8 | 31.8 | 74 | 3.3 | 16.7 | 12.8 | 14.8 | 38.2 | 73.3 |
80
+ | LLaMA-7B | 30.35 | 27.3 | 20.6 | 35.6 | 26.8 | 74.3 | 2.9 | 10 | 12.8 | 16.8 | 33.5 | 73.3 |
81
+ | Mistral-7B-v0.1 | 47.67 | 47.4 | 32.8 | 64.1 | 44.7 | 78.9 | 11.3 | 47.5 | 27.4 | 38.6 | 56.7 | 75 |
82
+ | MPT-7B | 30.06 | 23.5 | 21.3 | 27.5 | 25.9 | 75 | 2.9 | 9.1 | 17.1 | 22.8 | 35.6 | 70 |
83
+ | Qwen1.5-7B | 55.12 | 73.57 | **50.8** | 62.15 | 71.84 | 72.62 | **20.36** | 54.36 | **53.05** | 36.8 | 40.01 | 70.74 |
84
+ | Qwen-7B | 49.53 | 63.4 | 45.3 | 59.7 | 62.5 | 75 | 13.3 | 54.1 | 27.4 | 31.4 | 45.2 | 67.5 |
85
+ | XVERSE-7B | 34.27 | 61.1 | 39 | 58.4 | 60.8 | 73.7 | 2.2 | 11.7 | 4.9 | 10.2 | 31 | 24 |
86
+ | Yi-6B | 47.8 | 73 | 44.3 | 64 | **73.5** | 73.1 | 6.3 | 39.9 | 15.2 | 23.6 | 44.9 | 68 |
87
+ | **360Zhinao-7B** | 56.15 | **74.11** | 49.49 | **67.44** | 72.38 | **83.05** | 16.38 | 53.83 | 35.98 | 42.4 | 43.95 | **78.59** |
88
 
89
  以上结果,在官方[Opencompass](https://rank.opencompass.org.cn/leaderboard-llm)上可查询或可复现。
90
 
 
93
  我们在多种长度和多种任务的评测Benchmark上验证不同版本模型的性能。
94
 
95
  - ### Chat模型对话能力评测
96
+ 为了验证模型多轮对话效果,这里我们使用了MT-Bench数据集。[MT-bench](https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge)一个由80个高质量的多轮对话问题组成的基准,旨在测试多轮对话和指令遵循能力。在数据集的构造上,确定了8个常见的用户提示类别:写作、角色扮演、提取、推理、数学、编码、知识I(STEM)和知识II(人文/社会科学)。每个类别,手动设计了10个多轮的问题,每一轮有2个问题,问题评分使用GPT4(2024年4月最新版本)进行自动打分机制。
97
  | Model | turn1 | turn2 | average |
98
+ | -------------------- |:---------:|:---------:|:---------:|
99
  | Qwen7b-chat | 6.5725 | 5.4000 | 5.9862 |
100
  | Baichuan2-7B-Chat | 6.4562 | 5.5562 | 6.0062 |
101
  | InternLM-7B-Chat | 5.5625 | 4.0696 | 4.8207 |
102
+ | 360Zhinao-7B-Chat | 6.5062 | **5.8762** | **6.1962** |
 
103
 
104
  - ### Chat模型长文本能力评测
105
 
106
  为了验证长序列的效果,这里我们使用了LongBench数据集。[LongBench](https://github.com/THUDM/LongBench)是第一个多任务、中英双语、针对大语言模型长文本理解能力的评测基准。LongBench由六大类、二十一个不同的任务组成,我们选择其中与中文长文本应用最密切相关的中文单文档问答、多文档问答、摘要、Few shot等任务场景进行评测。
107
 
108
+ | Model | Avg | 单文档QA | 多文档QA | 摘要 | Few-shot学习 | 代码补全 |
109
+ | :------------------------ |:---------:|:--------:|:---------:|:---------:|:------------:|:---------:|
110
  | GPT-3.5-Turbo-16k | 37.84 | 61.2 | 28.7 | 16 | 29.2 | 54.1 |
111
  | ChatGLM2-6B-32k | 37.16 | 51.6 | 37.6 | 16.2 | 27.7 | 52.7 |
112
  | ChatGLM3-6B-32k | 44.62 | **62.3** | 44.8 | 17.8 | 42 | 56.2 |
 
349
  <br>
350
 
351
  # 模型推理
352
+ ## 模型量化
353
+ 我们提供了基于AutoGPTQ的量化方案,并开源了Int4量化模型。模型的效果损失很小,但能显著降低显存占用并提升推理速度。
354
+
355
+ 对BF16,Int8和Int4模型在基准评测上做了测试,结果如下所示:
356
+
357
+ | Quantization | MMLU | CEval (val) | GSM8K | Humaneval |
358
+ |-|-|-|-|-|
359
+ | 360Zhinao-7B-Chat-4K (BF16) |-|-|-|-|
360
+ | 360Zhinao-7B-Chat-4K (Int8) |-|-|-|-|
361
+ | 360Zhinao-7B-Chat-4K (Int4) |-|-|-|-|
362
+
363
  ## 模型部署
364
  ### vLLM安装环境
365
  如希望部署及加速推理,我们建议你使用 `vLLM==0.3.3`。