Upload folder using huggingface_hub

Browse files

Files changed (11) hide show

config.json +5 -20
generation_config.json +3 -3
model-00001-of-00005.safetensors +3 -0
model-00002-of-00005.safetensors +3 -0
model-00003-of-00005.safetensors +3 -0
model-00004-of-00005.safetensors +3 -0
model-00005-of-00005.safetensors +3 -0
model.safetensors.index.json +171 -0
special_tokens_map.json +21 -19
tokenizer.json +2 -2
tokenizer_config.json +3 -24

config.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-  "_name_or_path": "merged_model_DPO",
   "architectures": [
     "GemmaForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
-  "bos_token_id": 256000,
-  "eos_token_id": 256001,
   "head_dim": 256,
   "hidden_act": "gelu",
   "hidden_activation": null,
@@ -18,22 +18,7 @@
   "num_attention_heads": 8,
   "num_hidden_layers": 18,
   "num_key_value_heads": 1,
-  "pad_token_id": 256001,
-  "quantization_config": {
-    "_load_in_4bit": true,
-    "_load_in_8bit": false,
-    "bnb_4bit_compute_dtype": "float16",
-    "bnb_4bit_quant_storage": "uint8",
-    "bnb_4bit_quant_type": "nf4",
-    "bnb_4bit_use_double_quant": true,
-    "llm_int8_enable_fp32_cpu_offload": false,
-    "llm_int8_has_fp16_weight": false,
-    "llm_int8_skip_modules": null,
-    "llm_int8_threshold": 6.0,
-    "load_in_4bit": true,
-    "load_in_8bit": false,
-    "quant_method": "bitsandbytes"
-  },
   "return_dict": false,
   "rms_norm_eps": 1e-06,
   "rope_scaling": null,
@@ -41,5 +26,5 @@
   "torch_dtype": "float16",
   "transformers_version": "4.40.2",
   "use_cache": true,
-  "vocab_size": 256002
 }

 {
+  "_name_or_path": "merged_model",
   "architectures": [
     "GemmaForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
+  "bos_token_id": 2,
+  "eos_token_id": 1,
   "head_dim": 256,
   "hidden_act": "gelu",
   "hidden_activation": null,
   "num_attention_heads": 8,
   "num_hidden_layers": 18,
   "num_key_value_heads": 1,
+  "pad_token_id": 0,
   "return_dict": false,
   "rms_norm_eps": 1e-06,
   "rope_scaling": null,
   "torch_dtype": "float16",
   "transformers_version": "4.40.2",
   "use_cache": true,
+  "vocab_size": 256000
 }

generation_config.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "_from_model_config": true,
-  "bos_token_id": 256000,
   "do_sample": true,
-  "eos_token_id": 256001,
-  "pad_token_id": 256001,
   "transformers_version": "4.40.2"
 }

 {
   "_from_model_config": true,
+  "bos_token_id": 2,
   "do_sample": true,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
   "transformers_version": "4.40.2"
 }

model-00001-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f13b34122bc3c66a108037a0117cfea7b471906b7781208b00f24cccc0f3716e
+size 1967147584

model-00002-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d36bcf8800fd86f7e63d1b0d795153713fae28b520445e3ddc61cb0e323b48b
+size 1895862424

model-00003-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d00f9c660f98e8b6e05e2ecea666553424fde3aa6126664e0454efadd104c88
+size 1895862424

model-00004-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa2a61a5e6bbf6f8cb911e66f5e1a563c6b08b881b863964ae4c78dbe0f649bf
+size 1933620088

model-00005-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:985ffff454f468218c60d03c28c6ec01119cc06e198b75a91067e643dc141637
+size 1283488456

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,171 @@

+{
+  "metadata": {
+    "total_size": 8975962112
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00005.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00005.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00005.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00005-of-00005.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00005-of-00005.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00005.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00005.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00005.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00005.safetensors",
+    "model.norm.weight": "model-00005-of-00005.safetensors"
+  }
+}

special_tokens_map.json CHANGED Viewed

@@ -1,23 +1,25 @@
 {
-  "additional_special_tokens": [
-    {
-      "content": "<|im_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false
-    },
-    {
-      "content": "<|im_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false
-    }
-  ],
-  "bos_token": "<|im_start|>",
-  "eos_token": "<|im_end|>",
-  "pad_token": "<|im_end|>",
   "unk_token": {
     "content": "<unk>",
     "lstrip": false,

 {
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
   "unk_token": {
     "content": "<unk>",
     "lstrip": false,

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e82c3743f5f34d61f8163d293ef1a45e8c289e7033b07b41ac181a2fc4ca184
-size 17477957

 version https://git-lfs.github.com/spec/v1
+oid sha256:4db21bfaffa1fd75fd741df2d95dc51e539d5cc38b07934bae0d7d129db90662
+size 17477581

tokenizer_config.json CHANGED Viewed

@@ -33,35 +33,14 @@
       "rstrip": false,
       "single_word": false,
       "special": true
-    },
-    "256000": {
-      "content": "<|im_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "256001": {
-      "content": "<|im_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
     }
   },
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>"
-  ],
-  "bos_token": "<|im_start|>",
-  "chat_template": "{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
   "clean_up_tokenization_spaces": false,
-  "eos_token": "<|im_end|>",
   "legacy": null,
   "model_max_length": 1000000000000000019884624838656,
-  "pad_token": "<|im_end|>",
   "sp_model_kwargs": {},
   "spaces_between_special_tokens": false,
   "tokenizer_class": "GemmaTokenizer",

       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
+  "bos_token": "<bos>",
   "clean_up_tokenization_spaces": false,
+  "eos_token": "<eos>",
   "legacy": null,
   "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
   "sp_model_kwargs": {},
   "spaces_between_special_tokens": false,
   "tokenizer_class": "GemmaTokenizer",