eaalghamdi commited on
Commit
e209022
·
verified ·
1 Parent(s): a2fb0de

Upload 11 files

Browse files
README.md CHANGED
@@ -1,3 +1,95 @@
1
- ---
2
- license: apache-2.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ language:
4
+ - ar
5
+ - zh
6
+ - en
7
+ ---
8
+
9
+ # <b>AceGPT</b>
10
+
11
+ AceGPT is a fully fine-tuned generative text model collection, particularly focused on the Arabic language domain.
12
+ This is the repository for version 2 of the 32B pre-trained model, developed based on Qwen1.5-32B.
13
+
14
+ ---
15
+ ## Model Details
16
+ We have released the AceGPT family of large language models, which is a collection of fully fine-tuned generative text models, ranging from 7B to 70B parameters. Our models include two main categories: AceGPT and AceGPT-chat. AceGPT-chat is an optimized version specifically designed for dialogue applications. It is worth mentioning that our models have demonstrated superior performance compared to all currently available open-source Arabic dialogue models in multiple benchmark tests.
17
+ ## Model Developers
18
+ We are from the King Abdullah University of Science and Technology (KAUST), the Chinese University of Hong Kong, Shenzhen (CUHKSZ), the Shenzhen Research Institute of Big Data (SRIBD), and King Abdulaziz University (KAU).
19
+ ## Variations
20
+ AceGPT families come in a range of parameter sizes —— 7B, 8B, 13B, 32B and 70B, each model size has a base category and a -chat category.
21
+ ## Paper
22
+ The paper can be accessed at [link](https://huggingface.co/FreedomIntelligence/AceGPT-v2-32B-Chat/blob/main/Second_Language__Arabic__Acquisition_of_LLMs_via_Progressive_Vocabulary_Expansion.pdf).
23
+ ## Input
24
+ Models input text only.
25
+ ## Output
26
+ Models output text only.
27
+ ## Model Evaluation Results
28
+
29
+ Arabic Benchmark evaluations on [Arabic MMLU](https://github.com/FreedomIntelligence/AceGPT) are conducted using accuracy scores as metrics, following the evaluation framework available at https://github.com/FreedomIntelligence/AceGPT/tree/main.
30
+
31
+ | | Arabic-trans MMLU | ArabicMMLU (koto et al.) | Arabic EXAMS | Arabic ACVA clean | Arabic ACVA all | Arabic AraTrust | Arabic ARC-C | Arabic Avg. |
32
+ | ----------------- | :-----------------: | :------------------------: | :------------: | :-----------------: | :---------------: | :---------------: | :------------: | :------------: |
33
+ | Qwen1.5-7B | 42.14 | 46.41 | 38.34 | 75.17 | 75.88 | 54.21 | 45.56 | 53.96 |
34
+ | Jais-30B-v3 | 43.42 | 44.47 | 45.78 | 83.39 | 79.51 | 62.64 | 45.56 | 57.82 |
35
+ | Llama3-8B | 47.22 | 45.78 | 46.34 | 77.49 | 76.68 | 67.82 | 47.53 | 58.41 |
36
+ | **AceGPT-v2-8B** | 48.41 | 50.17 | 46.15 | 80.14 | 78.84 | 65.90 | 49.91 | 59.93 |
37
+ | ChatGPT 3.5 Turbo | 49.07 | 57.70 | 45.93 | 74.45 | 76.88 | 65.13 | 60.24 | 61.34 |
38
+ | Qwen1.5-32B | 55.90 | 55.94 | 52.84 | 78.91 | 80.07 | 69.34 | 67.66 | 65.81 |
39
+ | Qwen1.5-72B | 60.24 | 61.23 | 54.41 | 82.98 | <u>81.20</u> | 75.93 | 76.79 | 70.40 |
40
+ | **AceGPT-v2-32B** | 58.71 | 65.67 | 52.74 | 82.66 | 81.04 | 80.46 | 71.69 | 70.42 |
41
+ | Llama3-70B | <u>65.16</u> | 65.67 | 54.78 | 83.48 | **82.92** | 74.84 | 77.30 | 72.02 |
42
+ | **AceGPT-v2-70B** | **65.19** | <u>67.71</u> | <u>56.19</u> | **84.79** | 80.93 | <u>80.93</u> | <u>80.93</u> | <u>73.81</u> |
43
+ | GPT-4 | 65.06 | **72.50** | **57.76** | <u>84.06</u> | 79.43 | **90.04** | **85.67** | **76.36** |
44
+
45
+ Benchmarks for English and Chinese are conducted using the [OpenCompass](https://github.com/open-compass/OpenCompass/) framework.
46
+
47
+ | | MMLU | RACE | English Avg. | CMMLU | CEval | Chinese Avg. | Avg. |
48
+ | ----------------- | :------------: | :------------: | :------------: | :-------------: | :-------------: | :------------: | :------------: |
49
+ | Jais-30B-v3 | 42.53 | 30.96 | 36.75 | 25.26 | 22.17 | 23.72 |30.23|
50
+ | **AceGPT-v2-8B** | 65.48 | 60.49 | 62.99 | 53.44 | 50.37 | 51.91 |57.45|
51
+ | Llama3-8B | 66.57 | 65.92 | 66.25 | 50.70 | 49.78 | 50.24 |58.24|
52
+ | ChatGPT 3.5 Turbo | 69.03 | 83.00 | 76.02 | 53.90 | 52.50 | 53.20 |64.60|
53
+ | Qwen1.5-7B | 62.15 | 82.19 | 72.17 | 71.79 | 73.61 | 72.70 |72.44|
54
+ | **AceGPT-v2-70B** | 76.71 | 80.48 | 78.60 | 68.97 | 66.87 | 67.92 |73.26|
55
+ | GPT-4 | **83.00** | **91.00** | **87.00** | 71.00 | 69.90 | 70.45 |78.73|
56
+ | Llama3-70B | <u>79.34</u> | 84.76 | <u>82.05</u> | 68.29 | 67.21 | 67.75 |74.90|
57
+ | Qwen1.5-32B | 75.10 | 83.29 | 79.20 | **83.12** | <u>82.68</u> | <u>82.90</u> |81.05|
58
+ | **AceGPT-v2-32B** | 74.52 | <u>88.68</u> | 81.60 | 81.36 | 82.41 | 81.89 |<u>81.74</u>|
59
+ | Qwen1.5-72B | 75.78 | 88.23 | 82.01 | <u>83.11</u> | **83.04** | **83.08** |**82.54**|
60
+
61
+
62
+
63
+ ## Samples
64
+ #### Sample1(abstract_algebra)
65
+ * <b>input:</b>
66
+ "فيما يلي أسئلة الاختيار من متعدد (مع الإجابات) حول جبر تجريدي\n\nسؤال: العثور على جميع قيم c في Z_3 بحيث يكون Z_3 [x]/(x^2+c) حقلًا.\nA. 0\nB. 1\nC. 2\nD. 3\nإجابة: B\n\nسؤال: البيان رقم 1 | إذا كان aH عنصرًا في مجموعة العوامل ، فإن | aH | يقسم | a |. البيان رقم 2 | إذا كانت H و K مجموعات فرعية لـ G ، فإن HK مجموعة فرعية لـ G.\nA. صحيح ، صحيح\nB. خطأ ، خطأ\nC. صحيح ، خطأ\nD. خطأ ، صحيح\nإجابة: B\n\nسؤال: العبارة 1 | كل عنصر من مجموعة يولد مجموعة دورية من المجموعة. العبارة 2 | المجموعة المتناظرة S_10 لديها 10 عناصر.\nA. صحيح، صحيح\nB. خطأ، خطأ\nC. صحيح، خطأ\nD. خطأ، صحيح\nإجابة: C\n\nسؤال: البيان 1| كل وظيفة من مجموعة محدودة على نفسها يجب أن تكون واحدة لكل مجموعة. البيان 2 | كل فرع فرعي لمجموعة أبيلية هو أبيلي.\nA. صحيح, صحيح\nB. خاطئ, خاطئ\nC. صحيح, خاطئ\nD. خاطئ, صحيح\nإجابة: A\n\nسؤال: اعثر على خاصية الحلقة 2Z.\nA. 0\nB. 3\nC. 12\nD. 30\nإجابة: A\n\nسؤال: ما هو الدرجة للامتداد الميداني الناتج من Q(sqrt(2), sqrt(3), sqrt(18)) على Q؟\nA. 0\nB. 4\nC. 2\nD. 6\nإجابة:"
67
+
68
+ * <b>output:</b>
69
+ " D\n\nسؤال: ما هو عدد المجموعات"
70
+
71
+ #### Sample2(business_ethics)
72
+ * <b>input:</b>
73
+ "فيما يلي أسئلة الاختيار من متعدد (مع الإجابات) حول أخلاقيات الأعمال\n\nسؤال: ما هي الحجج الأخلاقية المتعلقة بالمسؤولية الاجتماعية للشركات؟\nA. التكاليف الخارجية، القوة، الاستقلالية\nB. الإعلام، الموارد الضعيفة، التبادل التعاوني\nC. الإعلام، القوة، الاستقلالية\nD. التكاليف الخارجية، القوة، التبادل التعاوني\nإجابة: D\n\nسؤال: _______ هو المحاولة المباشرة لإدارة القضايا الأخلاقية أو المشاكل، سواء بشكل رسمي أو غير رسمي، من خلال سياسات وممارسات وبرامج محددة.\nA. المسؤولية الاجتماعية للشركات\nB. إدارة الأخلاقيات العملية\nC. الاستدامة\nD. إدارة البيئة\nإجابة: B\n\nسؤال: لضمان استقلال أعضاء مجلس الإدارة غير التنفيذية ، هناك عدد من الخطوات التي يمكن اتخاذها ، والتي تشمل اختيار الغير التنفيذيين من _______ الشركة ، وتعيينهم لمدة _________ ، وكذلك تعيينهم _________.\nA. خارج الشركة ، محدودة ، بشكل مستقل\nB. من الداخل ، محدودة ، بشكل متقطع\nC. خارج الشركة ، غير محدودة ، بشكل متقطع\nD. من الداخل ، غير محدودة ، بشكل مستقل\nإجابة: A\n\nسؤال: ما هي الأساليب التي يمكن للمدير الأمني الذي يسعى لتحقيق أهدافه الاختيار بينها؟\nA. العمل المباشر الغير عنيف ، العمل المباشر العنيف ، العمل غير المباشر ، الحملة الدعائية\nB. العمل غير المباشر ، العمل الأوتيل ، العمل المباشر الغير عنيف ، الحملة الإعلامية\nC. العمل غير المباشر ، العمل المباشر العنيف ، العمل المباشر غير العنيف المباشر ، الحملة الدعائية\nD. العمل المباشر الغير عنيف ، العمل الأوتيل ، العمل غير المباشر ، الحملة الإعلامية\nإجابة: C\n\nسؤال: على عكس _______ ، تهدف _______ إلى مكافأة السلوك الإيجابي للشركات. تم تعزيز نجاح مثل هذه الحملات من خلال استخدام ___________, الذي يتيح للحملات تيسير تحقيق الشركة لــ _________ .\nA. الحملات الاستهلاكية، الحملات الاستهلاكية العامة، تكنولوجيا سلسلة الكتل، التبرعات الخيرية\nB. الحملات التحفيزية، الحملات الاستهلاكية العامة، التكنولوجيا الرقمية، زيادة المبيعات\nC. الحملات الاستهلاكية، الحملات الشرائية، تكنولوجيا سلسلة الكتل، التبرعات الخيرية\nD. المقاطعات، الحملات التحفيزية، الحملات الرقمية، زيادة المبيعات\nإجابة: D\n\nسؤال: تُصبح _______ مثل البيتكوين أكثر انتشارًا وتحمل مجموعة كبيرة من الآثار الأخلاقية المرتبطة بها، على سبيل المثال، إنها _______ وأكثر _______. ومع ذلك، تم استخدامها أيضًا للمشاركة في _______.\nA. العملات الرقمية، مكلفة، آمنة، جرائم مالية\nB. العملات التقليدية، رخيصة، غير آمنة، العطاء الخيري\nC. العملات الرقمية، رخيصة، آمنة، جرائم مالية\nD. العملات التقليدية، مكلفة، غير آمنة، العطاء الخيري\nإجابة:"
74
+
75
+ * <b>output:</b>
76
+ " C\n\nسؤال: ما هي بعض الطرق التي"
77
+
78
+
79
+ # Reference
80
+ <!-- ```
81
+ @article{liang2024alignment,
82
+ title={Alignment at Pre-training! Towards Native Alignment for Arabic LLMs},
83
+ author={Liang, Juhao and Cai, Zhenyang and Zhu, Jianqing and Huang, Huang and Zong, Kewei and An, Bang and Alharthi, Mosen and He, Juncai and Zhang, Lian and Li, Haizhou and Wang, Benyou and Xu, Jinchao},
84
+ journal={},
85
+ year={2024}
86
+ }
87
+ ``` -->
88
+ ```
89
+ @article{zhu2024second,
90
+ title={Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion},
91
+ author={Zhu, Jianqing and Huang, Huang and Lin, Zhihang and Liang, Juhao and Tang, Zhengyang and Almubarak, Khalid and Alharthi, Mosen and An, Bang and He, Juncai and Wu, Xiangbo and Yu, Fei and Chen, Junying and Ma, Zhuoheng and Du, Yuhao and Hu, Yan and Zhang, He and Alghamdi, Emad A. and Zhang, Lian and Sun, Ruoyu and Li, Haizhou and Wang, Benyou and Xu, Jinchao},
92
+ journal={},
93
+ year={2024}
94
+ }
95
+ ```
added_tokens.json ADDED
@@ -0,0 +1,5 @@
 
 
 
 
 
 
1
+ {
2
+ "<|endoftext|>": 151643,
3
+ "<|im_end|>": 151645,
4
+ "<|im_start|>": 151644
5
+ }
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "LlamaForCausalLM"
4
+ ],
5
+ "attention_bias": true,
6
+ "attention_dropout": 0.0,
7
+ "bos_token_id": 151643,
8
+ "eos_token_id": 151643,
9
+ "hidden_act": "silu",
10
+ "hidden_size": 5120,
11
+ "initializer_range": 0.02,
12
+ "intermediate_size": 27392,
13
+ "max_position_embeddings": 32768,
14
+ "model_type": "llama",
15
+ "num_attention_heads": 40,
16
+ "num_hidden_layers": 64,
17
+ "num_key_value_heads": 8,
18
+ "pad_token_id": 0,
19
+ "pretraining_tp": 1,
20
+ "rms_norm_eps": 1e-06,
21
+ "rope_scaling": null,
22
+ "rope_theta": 1000000.0,
23
+ "tie_word_embeddings": false,
24
+ "torch_dtype": "float16",
25
+ "transformers_version": "4.38.1",
26
+ "use_cache": true,
27
+ "vocab_size": 152064
28
+ }
generation_config.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "bos_token_id": 151643,
4
+ "eos_token_id": 151643,
5
+ "pad_token_id": 0,
6
+ "transformers_version": "4.38.1"
7
+ }
gitattributes ADDED
@@ -0,0 +1,35 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ *.7z filter=lfs diff=lfs merge=lfs -text
2
+ *.arrow filter=lfs diff=lfs merge=lfs -text
3
+ *.bin filter=lfs diff=lfs merge=lfs -text
4
+ *.bz2 filter=lfs diff=lfs merge=lfs -text
5
+ *.ckpt filter=lfs diff=lfs merge=lfs -text
6
+ *.ftz filter=lfs diff=lfs merge=lfs -text
7
+ *.gz filter=lfs diff=lfs merge=lfs -text
8
+ *.h5 filter=lfs diff=lfs merge=lfs -text
9
+ *.joblib filter=lfs diff=lfs merge=lfs -text
10
+ *.lfs.* filter=lfs diff=lfs merge=lfs -text
11
+ *.mlmodel filter=lfs diff=lfs merge=lfs -text
12
+ *.model filter=lfs diff=lfs merge=lfs -text
13
+ *.msgpack filter=lfs diff=lfs merge=lfs -text
14
+ *.npy filter=lfs diff=lfs merge=lfs -text
15
+ *.npz filter=lfs diff=lfs merge=lfs -text
16
+ *.onnx filter=lfs diff=lfs merge=lfs -text
17
+ *.ot filter=lfs diff=lfs merge=lfs -text
18
+ *.parquet filter=lfs diff=lfs merge=lfs -text
19
+ *.pb filter=lfs diff=lfs merge=lfs -text
20
+ *.pickle filter=lfs diff=lfs merge=lfs -text
21
+ *.pkl filter=lfs diff=lfs merge=lfs -text
22
+ *.pt filter=lfs diff=lfs merge=lfs -text
23
+ *.pth filter=lfs diff=lfs merge=lfs -text
24
+ *.rar filter=lfs diff=lfs merge=lfs -text
25
+ *.safetensors filter=lfs diff=lfs merge=lfs -text
26
+ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
27
+ *.tar.* filter=lfs diff=lfs merge=lfs -text
28
+ *.tar filter=lfs diff=lfs merge=lfs -text
29
+ *.tflite filter=lfs diff=lfs merge=lfs -text
30
+ *.tgz filter=lfs diff=lfs merge=lfs -text
31
+ *.wasm filter=lfs diff=lfs merge=lfs -text
32
+ *.xz filter=lfs diff=lfs merge=lfs -text
33
+ *.zip filter=lfs diff=lfs merge=lfs -text
34
+ *.zst filter=lfs diff=lfs merge=lfs -text
35
+ *tfevents* filter=lfs diff=lfs merge=lfs -text
merges.txt ADDED
The diff for this file is too large to render. See raw diff
 
model-00001-of-00014.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c168adf91bf2e653938c84b255979d57ee73b479c4698c05d47b81c1d8c5af76
3
+ size 4865557944
special_tokens_map.json ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "eos_token": {
3
+ "content": "<|endoftext|>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "pad_token": {
10
+ "content": "<|endoftext|>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ }
16
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,40 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_prefix_space": false,
3
+ "added_tokens_decoder": {
4
+ "151643": {
5
+ "content": "<|endoftext|>",
6
+ "lstrip": false,
7
+ "normalized": false,
8
+ "rstrip": false,
9
+ "single_word": false,
10
+ "special": true
11
+ },
12
+ "151644": {
13
+ "content": "<|im_start|>",
14
+ "lstrip": false,
15
+ "normalized": false,
16
+ "rstrip": false,
17
+ "single_word": false,
18
+ "special": true
19
+ },
20
+ "151645": {
21
+ "content": "<|im_end|>",
22
+ "lstrip": false,
23
+ "normalized": false,
24
+ "rstrip": false,
25
+ "single_word": false,
26
+ "special": true
27
+ }
28
+ },
29
+ "additional_special_tokens": [],
30
+ "bos_token": null,
31
+ "chat_template": "{% for message in messages %}{% if loop.first and messages[0]['role'] != 'system' %}{{ '<|im_start|>system\nYou are a helpful assistant<|im_end|>\n' }}{% endif %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
32
+ "clean_up_tokenization_spaces": false,
33
+ "eos_token": "<|endoftext|>",
34
+ "errors": "replace",
35
+ "model_max_length": 32768,
36
+ "pad_token": "<|endoftext|>",
37
+ "split_special_tokens": false,
38
+ "tokenizer_class": "Qwen2Tokenizer",
39
+ "unk_token": null
40
+ }
vocab.json ADDED
The diff for this file is too large to render. See raw diff