ZwwWayne commited on Mar 19

Commit

e5524ae

•

1 Parent(s): 71f7e15

update model weights

Browse files

Files changed (46) hide show

.gitattributes +21 -0
config.json +4 -6
generation_config.json +1 -1
pytorch_model-00001-of-00021.bin → model-00001-of-00021.safetensors +2 -2
pytorch_model-00002-of-00021.bin → model-00002-of-00021.safetensors +2 -2
pytorch_model-00003-of-00021.bin → model-00003-of-00021.safetensors +2 -2
pytorch_model-00004-of-00021.bin → model-00004-of-00021.safetensors +2 -2
model-00005-of-00021.safetensors +3 -0
model-00006-of-00021.safetensors +3 -0
model-00007-of-00021.safetensors +3 -0
model-00008-of-00021.safetensors +3 -0
model-00009-of-00021.safetensors +3 -0
model-00010-of-00021.safetensors +3 -0
model-00011-of-00021.safetensors +3 -0
model-00012-of-00021.safetensors +3 -0
model-00013-of-00021.safetensors +3 -0
model-00014-of-00021.safetensors +3 -0
model-00015-of-00021.safetensors +3 -0
model-00016-of-00021.safetensors +3 -0
model-00017-of-00021.safetensors +3 -0
model-00018-of-00021.safetensors +3 -0
model-00019-of-00021.safetensors +3 -0
model-00020-of-00021.safetensors +3 -0
model-00021-of-00021.safetensors +3 -0
model.safetensors.index.json +346 -0
pytorch_model-00005-of-00021.bin +0 -3
pytorch_model-00006-of-00021.bin +0 -3
pytorch_model-00007-of-00021.bin +0 -3
pytorch_model-00008-of-00021.bin +0 -3
pytorch_model-00009-of-00021.bin +0 -3
pytorch_model-00010-of-00021.bin +0 -3
pytorch_model-00011-of-00021.bin +0 -3
pytorch_model-00012-of-00021.bin +0 -3
pytorch_model-00013-of-00021.bin +0 -3
pytorch_model-00014-of-00021.bin +0 -3
pytorch_model-00015-of-00021.bin +0 -3
pytorch_model-00016-of-00021.bin +0 -3
pytorch_model-00017-of-00021.bin +0 -3
pytorch_model-00018-of-00021.bin +0 -3
pytorch_model-00019-of-00021.bin +0 -3
pytorch_model-00020-of-00021.bin +0 -3
pytorch_model-00021-of-00021.bin +0 -3
pytorch_model.bin.index.json +0 -346
special_tokens_map.json +28 -4
tokenization_internlm2_fast.py +8 -8
tokenizer_config.json +31 -27

.gitattributes CHANGED Viewed

@@ -55,3 +55,24 @@ pytorch_model-00016-of-00021.bin filter=lfs diff=lfs merge=lfs -text
 pytorch_model-00019-of-00021.bin filter=lfs diff=lfs merge=lfs -text
 pytorch_model-00004-of-00021.bin filter=lfs diff=lfs merge=lfs -text
 tokenizer.model filter=lfs diff=lfs merge=lfs -text

 pytorch_model-00019-of-00021.bin filter=lfs diff=lfs merge=lfs -text
 pytorch_model-00004-of-00021.bin filter=lfs diff=lfs merge=lfs -text
 tokenizer.model filter=lfs diff=lfs merge=lfs -text
+model-00020-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00006-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00016-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00009-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00011-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00012-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00018-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00002-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00008-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00005-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00007-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00010-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00013-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00017-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00021-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00001-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00003-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00015-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00019-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00004-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00014-of-00021.safetensors filter=lfs diff=lfs merge=lfs -text

config.json CHANGED Viewed

@@ -2,6 +2,7 @@
   "architectures": [
     "InternLM2ForCausalLM"
   ],
   "auto_map": {
     "AutoConfig": "configuration_internlm2.InternLM2Config",
     "AutoModelForCausalLM": "modeling_internlm2.InternLM2ForCausalLM",
@@ -21,14 +22,11 @@
   "num_key_value_heads": 8,
   "pad_token_id": 2,
   "rms_norm_eps": 1e-05,
-  "rope_scaling": {
-    "factor": 3.0,
-    "type": "dynamic"
-  },
   "rope_theta": 1000000,
   "tie_word_embeddings": false,
-  "torch_dtype": "float16",
-  "transformers_version": "4.33.2",
   "use_cache": true,
   "vocab_size": 92544
 }

   "architectures": [
     "InternLM2ForCausalLM"
   ],
+  "attn_implementation": "eager",
   "auto_map": {
     "AutoConfig": "configuration_internlm2.InternLM2Config",
     "AutoModelForCausalLM": "modeling_internlm2.InternLM2ForCausalLM",
   "num_key_value_heads": 8,
   "pad_token_id": 2,
   "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
   "rope_theta": 1000000,
   "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.37.1",
   "use_cache": true,
   "vocab_size": 92544
 }

generation_config.json CHANGED Viewed

@@ -3,5 +3,5 @@
   "bos_token_id": 1,
   "eos_token_id": 2,
   "pad_token_id": 2,
-  "transformers_version": "4.33.2"
 }

   "bos_token_id": 1,
   "eos_token_id": 2,
   "pad_token_id": 2,
+  "transformers_version": "4.37.1"
 }

pytorch_model-00001-of-00021.bin → model-00001-of-00021.safetensors RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dc80ec4d1dc1a57cc5cfadc95fb798f0a2abb1f011c7e1a294292f5e42883fd
-size 1917348897

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5576467c269334c009a7d229bc5d0abce41ba7044979da530fe01f1ac67da15
+size 1917346712

pytorch_model-00002-of-00021.bin → model-00002-of-00021.safetensors RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58051399e3f5149eb2ba89fbb8bbc444e3131dcdaea357dd5108aa88ca48188f
-size 1937823489

 version https://git-lfs.github.com/spec/v1
+oid sha256:674315c2069d2973305678c7f1e2cb3fb4994fe58719d9d426b3eff693fc1ab2
+size 1937819544

pytorch_model-00003-of-00021.bin → model-00003-of-00021.safetensors RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5fcb4bef436ce8ff8cd51bbad453adcd96f7a08e79e218ef48bcc4d0b0432cd7
-size 1963014163

 version https://git-lfs.github.com/spec/v1
+oid sha256:91686cb494478ba12fac1d8e7a628a5e7b14641f6890ac16fe527abea36aba22
+size 1963010040

pytorch_model-00004-of-00021.bin → model-00004-of-00021.safetensors RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c9c3dd5ebecff3e41a35935cae0ad1b8f4bdc19231606f05747b4f7454d2c83
-size 1937823489

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd04d907604711df81cc3a40e874efa52c086a16e4b463ccd7a6d3cda66531f0
+size 1937819544

model-00005-of-00021.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e3b96946b266de05a3c390cb32d15bc7e370265f1eb13d16b6f969010a43d94
+size 1963010056

model-00006-of-00021.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:965f4af2ef5af732c7276431ce25cc27860f474fbee8e3d573fc6bdb0fd6b3a9
+size 1937819560

model-00007-of-00021.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50dd1045672b61c141a575a54a9548688cf80124bf5d197e3840151ad2d4398a
+size 1963010064

model-00008-of-00021.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b89d5907d2c44b7fb965262b77a7f92c4bc6f5182db48b45daaa97b4a89dfb2
+size 1937819560

model-00009-of-00021.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b38253a903962ab219412efe429731be5ef1fb689aff32c2ff38418ac7ad98df
+size 1963010064

model-00010-of-00021.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3d5b03d0924926038b3d21d4682ecfe65df25e5fa74be41ec00fae6bf443c0b
+size 1937819560

model-00011-of-00021.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ec4fc9ed15fc676826f659d68ec0552f799029dc96f10001de4763d8e00cfb6
+size 1963010064

model-00012-of-00021.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f29d3fa67ecf0b879c25cb93ce76c95c604fdc4533dfafed453a7ecc898c6816
+size 1937819560

model-00013-of-00021.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10c56860bb2cbf272e9f71bf18de886422339692dd7b49dddc9a7ee39d1efab5
+size 1963010064

model-00014-of-00021.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:99b97b839daed64265b158cc2786a32467e526753e5f32ebd5e73f4f807544e6
+size 1937819560

model-00015-of-00021.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61511808d4d20ae753b53c7bf9617a6f638fae362fe3ddb530354fc69dd69a5b
+size 1963010064

model-00016-of-00021.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0c986108a83e1f421b487e3be4a5fc7c0522b5d5b67a9e44f317359b484876a
+size 1937819560

model-00017-of-00021.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3bd5e35512c3735df024b1afb8015ede02d7c11d2880edd1d6ed46020fb39b2a
+size 1963010064

model-00018-of-00021.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:760b92ec2db54695bee91135f35e10e57c66be37427da705b8bc787b9197eac5
+size 1937819560

model-00019-of-00021.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a727ca447feb95811e63b3d9b29af923c55e80f04a44e2f4c30ed7875ae2b8c
+size 1963010064

model-00020-of-00021.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0248d10e0d2ae209a6fbfbf1b77f40cabb1a2ed86511db280f02a286012b257e
+size 1560344232

model-00021-of-00021.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:722ca3ebce898272c82f0ca6953d86e740042f3dedb864c685c94a2ac91f0594
+size 1137180800

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,346 @@

+{
+  "metadata": {
+    "total_size": 39722299392
+  },
+  "weight_map": {
+    "model.layers.0.attention.wo.weight": "model-00001-of-00021.safetensors",
+    "model.layers.0.attention.wqkv.weight": "model-00001-of-00021.safetensors",
+    "model.layers.0.attention_norm.weight": "model-00001-of-00021.safetensors",
+    "model.layers.0.feed_forward.w1.weight": "model-00001-of-00021.safetensors",
+    "model.layers.0.feed_forward.w2.weight": "model-00001-of-00021.safetensors",
+    "model.layers.0.feed_forward.w3.weight": "model-00001-of-00021.safetensors",
+    "model.layers.0.ffn_norm.weight": "model-00001-of-00021.safetensors",
+    "model.layers.1.attention.wo.weight": "model-00002-of-00021.safetensors",
+    "model.layers.1.attention.wqkv.weight": "model-00002-of-00021.safetensors",
+    "model.layers.1.attention_norm.weight": "model-00002-of-00021.safetensors",
+    "model.layers.1.feed_forward.w1.weight": "model-00002-of-00021.safetensors",
+    "model.layers.1.feed_forward.w2.weight": "model-00002-of-00021.safetensors",
+    "model.layers.1.feed_forward.w3.weight": "model-00002-of-00021.safetensors",
+    "model.layers.1.ffn_norm.weight": "model-00002-of-00021.safetensors",
+    "model.layers.10.attention.wo.weight": "model-00005-of-00021.safetensors",
+    "model.layers.10.attention.wqkv.weight": "model-00005-of-00021.safetensors",
+    "model.layers.10.attention_norm.weight": "model-00005-of-00021.safetensors",
+    "model.layers.10.feed_forward.w1.weight": "model-00005-of-00021.safetensors",
+    "model.layers.10.feed_forward.w2.weight": "model-00005-of-00021.safetensors",
+    "model.layers.10.feed_forward.w3.weight": "model-00005-of-00021.safetensors",
+    "model.layers.10.ffn_norm.weight": "model-00005-of-00021.safetensors",
+    "model.layers.11.attention.wo.weight": "model-00006-of-00021.safetensors",
+    "model.layers.11.attention.wqkv.weight": "model-00006-of-00021.safetensors",
+    "model.layers.11.attention_norm.weight": "model-00006-of-00021.safetensors",
+    "model.layers.11.feed_forward.w1.weight": "model-00006-of-00021.safetensors",
+    "model.layers.11.feed_forward.w2.weight": "model-00006-of-00021.safetensors",
+    "model.layers.11.feed_forward.w3.weight": "model-00006-of-00021.safetensors",
+    "model.layers.11.ffn_norm.weight": "model-00006-of-00021.safetensors",
+    "model.layers.12.attention.wo.weight": "model-00006-of-00021.safetensors",
+    "model.layers.12.attention.wqkv.weight": "model-00006-of-00021.safetensors",
+    "model.layers.12.attention_norm.weight": "model-00006-of-00021.safetensors",
+    "model.layers.12.feed_forward.w1.weight": "model-00006-of-00021.safetensors",
+    "model.layers.12.feed_forward.w2.weight": "model-00006-of-00021.safetensors",
+    "model.layers.12.feed_forward.w3.weight": "model-00006-of-00021.safetensors",
+    "model.layers.12.ffn_norm.weight": "model-00006-of-00021.safetensors",
+    "model.layers.13.attention.wo.weight": "model-00006-of-00021.safetensors",
+    "model.layers.13.attention.wqkv.weight": "model-00006-of-00021.safetensors",
+    "model.layers.13.attention_norm.weight": "model-00007-of-00021.safetensors",
+    "model.layers.13.feed_forward.w1.weight": "model-00006-of-00021.safetensors",
+    "model.layers.13.feed_forward.w2.weight": "model-00007-of-00021.safetensors",
+    "model.layers.13.feed_forward.w3.weight": "model-00007-of-00021.safetensors",
+    "model.layers.13.ffn_norm.weight": "model-00007-of-00021.safetensors",
+    "model.layers.14.attention.wo.weight": "model-00007-of-00021.safetensors",
+    "model.layers.14.attention.wqkv.weight": "model-00007-of-00021.safetensors",
+    "model.layers.14.attention_norm.weight": "model-00007-of-00021.safetensors",
+    "model.layers.14.feed_forward.w1.weight": "model-00007-of-00021.safetensors",
+    "model.layers.14.feed_forward.w2.weight": "model-00007-of-00021.safetensors",
+    "model.layers.14.feed_forward.w3.weight": "model-00007-of-00021.safetensors",
+    "model.layers.14.ffn_norm.weight": "model-00007-of-00021.safetensors",
+    "model.layers.15.attention.wo.weight": "model-00007-of-00021.safetensors",
+    "model.layers.15.attention.wqkv.weight": "model-00007-of-00021.safetensors",
+    "model.layers.15.attention_norm.weight": "model-00007-of-00021.safetensors",
+    "model.layers.15.feed_forward.w1.weight": "model-00007-of-00021.safetensors",
+    "model.layers.15.feed_forward.w2.weight": "model-00007-of-00021.safetensors",
+    "model.layers.15.feed_forward.w3.weight": "model-00007-of-00021.safetensors",
+    "model.layers.15.ffn_norm.weight": "model-00007-of-00021.safetensors",
+    "model.layers.16.attention.wo.weight": "model-00008-of-00021.safetensors",
+    "model.layers.16.attention.wqkv.weight": "model-00008-of-00021.safetensors",
+    "model.layers.16.attention_norm.weight": "model-00008-of-00021.safetensors",
+    "model.layers.16.feed_forward.w1.weight": "model-00008-of-00021.safetensors",
+    "model.layers.16.feed_forward.w2.weight": "model-00008-of-00021.safetensors",
+    "model.layers.16.feed_forward.w3.weight": "model-00008-of-00021.safetensors",
+    "model.layers.16.ffn_norm.weight": "model-00008-of-00021.safetensors",
+    "model.layers.17.attention.wo.weight": "model-00008-of-00021.safetensors",
+    "model.layers.17.attention.wqkv.weight": "model-00008-of-00021.safetensors",
+    "model.layers.17.attention_norm.weight": "model-00008-of-00021.safetensors",
+    "model.layers.17.feed_forward.w1.weight": "model-00008-of-00021.safetensors",
+    "model.layers.17.feed_forward.w2.weight": "model-00008-of-00021.safetensors",
+    "model.layers.17.feed_forward.w3.weight": "model-00008-of-00021.safetensors",
+    "model.layers.17.ffn_norm.weight": "model-00008-of-00021.safetensors",
+    "model.layers.18.attention.wo.weight": "model-00008-of-00021.safetensors",
+    "model.layers.18.attention.wqkv.weight": "model-00008-of-00021.safetensors",
+    "model.layers.18.attention_norm.weight": "model-00009-of-00021.safetensors",
+    "model.layers.18.feed_forward.w1.weight": "model-00008-of-00021.safetensors",
+    "model.layers.18.feed_forward.w2.weight": "model-00009-of-00021.safetensors",
+    "model.layers.18.feed_forward.w3.weight": "model-00009-of-00021.safetensors",
+    "model.layers.18.ffn_norm.weight": "model-00009-of-00021.safetensors",
+    "model.layers.19.attention.wo.weight": "model-00009-of-00021.safetensors",
+    "model.layers.19.attention.wqkv.weight": "model-00009-of-00021.safetensors",
+    "model.layers.19.attention_norm.weight": "model-00009-of-00021.safetensors",
+    "model.layers.19.feed_forward.w1.weight": "model-00009-of-00021.safetensors",
+    "model.layers.19.feed_forward.w2.weight": "model-00009-of-00021.safetensors",
+    "model.layers.19.feed_forward.w3.weight": "model-00009-of-00021.safetensors",
+    "model.layers.19.ffn_norm.weight": "model-00009-of-00021.safetensors",
+    "model.layers.2.attention.wo.weight": "model-00002-of-00021.safetensors",
+    "model.layers.2.attention.wqkv.weight": "model-00002-of-00021.safetensors",
+    "model.layers.2.attention_norm.weight": "model-00002-of-00021.safetensors",
+    "model.layers.2.feed_forward.w1.weight": "model-00002-of-00021.safetensors",
+    "model.layers.2.feed_forward.w2.weight": "model-00002-of-00021.safetensors",
+    "model.layers.2.feed_forward.w3.weight": "model-00002-of-00021.safetensors",
+    "model.layers.2.ffn_norm.weight": "model-00002-of-00021.safetensors",
+    "model.layers.20.attention.wo.weight": "model-00009-of-00021.safetensors",
+    "model.layers.20.attention.wqkv.weight": "model-00009-of-00021.safetensors",
+    "model.layers.20.attention_norm.weight": "model-00009-of-00021.safetensors",
+    "model.layers.20.feed_forward.w1.weight": "model-00009-of-00021.safetensors",
+    "model.layers.20.feed_forward.w2.weight": "model-00009-of-00021.safetensors",
+    "model.layers.20.feed_forward.w3.weight": "model-00009-of-00021.safetensors",
+    "model.layers.20.ffn_norm.weight": "model-00009-of-00021.safetensors",
+    "model.layers.21.attention.wo.weight": "model-00010-of-00021.safetensors",
+    "model.layers.21.attention.wqkv.weight": "model-00010-of-00021.safetensors",
+    "model.layers.21.attention_norm.weight": "model-00010-of-00021.safetensors",
+    "model.layers.21.feed_forward.w1.weight": "model-00010-of-00021.safetensors",
+    "model.layers.21.feed_forward.w2.weight": "model-00010-of-00021.safetensors",
+    "model.layers.21.feed_forward.w3.weight": "model-00010-of-00021.safetensors",
+    "model.layers.21.ffn_norm.weight": "model-00010-of-00021.safetensors",
+    "model.layers.22.attention.wo.weight": "model-00010-of-00021.safetensors",
+    "model.layers.22.attention.wqkv.weight": "model-00010-of-00021.safetensors",
+    "model.layers.22.attention_norm.weight": "model-00010-of-00021.safetensors",
+    "model.layers.22.feed_forward.w1.weight": "model-00010-of-00021.safetensors",
+    "model.layers.22.feed_forward.w2.weight": "model-00010-of-00021.safetensors",
+    "model.layers.22.feed_forward.w3.weight": "model-00010-of-00021.safetensors",
+    "model.layers.22.ffn_norm.weight": "model-00010-of-00021.safetensors",
+    "model.layers.23.attention.wo.weight": "model-00010-of-00021.safetensors",
+    "model.layers.23.attention.wqkv.weight": "model-00010-of-00021.safetensors",
+    "model.layers.23.attention_norm.weight": "model-00011-of-00021.safetensors",
+    "model.layers.23.feed_forward.w1.weight": "model-00010-of-00021.safetensors",
+    "model.layers.23.feed_forward.w2.weight": "model-00011-of-00021.safetensors",
+    "model.layers.23.feed_forward.w3.weight": "model-00011-of-00021.safetensors",
+    "model.layers.23.ffn_norm.weight": "model-00011-of-00021.safetensors",
+    "model.layers.24.attention.wo.weight": "model-00011-of-00021.safetensors",
+    "model.layers.24.attention.wqkv.weight": "model-00011-of-00021.safetensors",
+    "model.layers.24.attention_norm.weight": "model-00011-of-00021.safetensors",
+    "model.layers.24.feed_forward.w1.weight": "model-00011-of-00021.safetensors",
+    "model.layers.24.feed_forward.w2.weight": "model-00011-of-00021.safetensors",
+    "model.layers.24.feed_forward.w3.weight": "model-00011-of-00021.safetensors",
+    "model.layers.24.ffn_norm.weight": "model-00011-of-00021.safetensors",
+    "model.layers.25.attention.wo.weight": "model-00011-of-00021.safetensors",
+    "model.layers.25.attention.wqkv.weight": "model-00011-of-00021.safetensors",
+    "model.layers.25.attention_norm.weight": "model-00011-of-00021.safetensors",
+    "model.layers.25.feed_forward.w1.weight": "model-00011-of-00021.safetensors",
+    "model.layers.25.feed_forward.w2.weight": "model-00011-of-00021.safetensors",
+    "model.layers.25.feed_forward.w3.weight": "model-00011-of-00021.safetensors",
+    "model.layers.25.ffn_norm.weight": "model-00011-of-00021.safetensors",
+    "model.layers.26.attention.wo.weight": "model-00012-of-00021.safetensors",
+    "model.layers.26.attention.wqkv.weight": "model-00012-of-00021.safetensors",
+    "model.layers.26.attention_norm.weight": "model-00012-of-00021.safetensors",
+    "model.layers.26.feed_forward.w1.weight": "model-00012-of-00021.safetensors",
+    "model.layers.26.feed_forward.w2.weight": "model-00012-of-00021.safetensors",
+    "model.layers.26.feed_forward.w3.weight": "model-00012-of-00021.safetensors",
+    "model.layers.26.ffn_norm.weight": "model-00012-of-00021.safetensors",
+    "model.layers.27.attention.wo.weight": "model-00012-of-00021.safetensors",
+    "model.layers.27.attention.wqkv.weight": "model-00012-of-00021.safetensors",
+    "model.layers.27.attention_norm.weight": "model-00012-of-00021.safetensors",
+    "model.layers.27.feed_forward.w1.weight": "model-00012-of-00021.safetensors",
+    "model.layers.27.feed_forward.w2.weight": "model-00012-of-00021.safetensors",
+    "model.layers.27.feed_forward.w3.weight": "model-00012-of-00021.safetensors",
+    "model.layers.27.ffn_norm.weight": "model-00012-of-00021.safetensors",
+    "model.layers.28.attention.wo.weight": "model-00012-of-00021.safetensors",
+    "model.layers.28.attention.wqkv.weight": "model-00012-of-00021.safetensors",
+    "model.layers.28.attention_norm.weight": "model-00013-of-00021.safetensors",
+    "model.layers.28.feed_forward.w1.weight": "model-00012-of-00021.safetensors",
+    "model.layers.28.feed_forward.w2.weight": "model-00013-of-00021.safetensors",
+    "model.layers.28.feed_forward.w3.weight": "model-00013-of-00021.safetensors",
+    "model.layers.28.ffn_norm.weight": "model-00013-of-00021.safetensors",
+    "model.layers.29.attention.wo.weight": "model-00013-of-00021.safetensors",
+    "model.layers.29.attention.wqkv.weight": "model-00013-of-00021.safetensors",
+    "model.layers.29.attention_norm.weight": "model-00013-of-00021.safetensors",
+    "model.layers.29.feed_forward.w1.weight": "model-00013-of-00021.safetensors",
+    "model.layers.29.feed_forward.w2.weight": "model-00013-of-00021.safetensors",
+    "model.layers.29.feed_forward.w3.weight": "model-00013-of-00021.safetensors",
+    "model.layers.29.ffn_norm.weight": "model-00013-of-00021.safetensors",
+    "model.layers.3.attention.wo.weight": "model-00002-of-00021.safetensors",
+    "model.layers.3.attention.wqkv.weight": "model-00002-of-00021.safetensors",
+    "model.layers.3.attention_norm.weight": "model-00003-of-00021.safetensors",
+    "model.layers.3.feed_forward.w1.weight": "model-00002-of-00021.safetensors",
+    "model.layers.3.feed_forward.w2.weight": "model-00003-of-00021.safetensors",
+    "model.layers.3.feed_forward.w3.weight": "model-00003-of-00021.safetensors",
+    "model.layers.3.ffn_norm.weight": "model-00003-of-00021.safetensors",
+    "model.layers.30.attention.wo.weight": "model-00013-of-00021.safetensors",
+    "model.layers.30.attention.wqkv.weight": "model-00013-of-00021.safetensors",
+    "model.layers.30.attention_norm.weight": "model-00013-of-00021.safetensors",
+    "model.layers.30.feed_forward.w1.weight": "model-00013-of-00021.safetensors",
+    "model.layers.30.feed_forward.w2.weight": "model-00013-of-00021.safetensors",
+    "model.layers.30.feed_forward.w3.weight": "model-00013-of-00021.safetensors",
+    "model.layers.30.ffn_norm.weight": "model-00013-of-00021.safetensors",
+    "model.layers.31.attention.wo.weight": "model-00014-of-00021.safetensors",
+    "model.layers.31.attention.wqkv.weight": "model-00014-of-00021.safetensors",
+    "model.layers.31.attention_norm.weight": "model-00014-of-00021.safetensors",
+    "model.layers.31.feed_forward.w1.weight": "model-00014-of-00021.safetensors",
+    "model.layers.31.feed_forward.w2.weight": "model-00014-of-00021.safetensors",
+    "model.layers.31.feed_forward.w3.weight": "model-00014-of-00021.safetensors",
+    "model.layers.31.ffn_norm.weight": "model-00014-of-00021.safetensors",
+    "model.layers.32.attention.wo.weight": "model-00014-of-00021.safetensors",
+    "model.layers.32.attention.wqkv.weight": "model-00014-of-00021.safetensors",
+    "model.layers.32.attention_norm.weight": "model-00014-of-00021.safetensors",
+    "model.layers.32.feed_forward.w1.weight": "model-00014-of-00021.safetensors",
+    "model.layers.32.feed_forward.w2.weight": "model-00014-of-00021.safetensors",
+    "model.layers.32.feed_forward.w3.weight": "model-00014-of-00021.safetensors",
+    "model.layers.32.ffn_norm.weight": "model-00014-of-00021.safetensors",
+    "model.layers.33.attention.wo.weight": "model-00014-of-00021.safetensors",
+    "model.layers.33.attention.wqkv.weight": "model-00014-of-00021.safetensors",
+    "model.layers.33.attention_norm.weight": "model-00015-of-00021.safetensors",
+    "model.layers.33.feed_forward.w1.weight": "model-00014-of-00021.safetensors",
+    "model.layers.33.feed_forward.w2.weight": "model-00015-of-00021.safetensors",
+    "model.layers.33.feed_forward.w3.weight": "model-00015-of-00021.safetensors",
+    "model.layers.33.ffn_norm.weight": "model-00015-of-00021.safetensors",
+    "model.layers.34.attention.wo.weight": "model-00015-of-00021.safetensors",
+    "model.layers.34.attention.wqkv.weight": "model-00015-of-00021.safetensors",
+    "model.layers.34.attention_norm.weight": "model-00015-of-00021.safetensors",
+    "model.layers.34.feed_forward.w1.weight": "model-00015-of-00021.safetensors",
+    "model.layers.34.feed_forward.w2.weight": "model-00015-of-00021.safetensors",
+    "model.layers.34.feed_forward.w3.weight": "model-00015-of-00021.safetensors",
+    "model.layers.34.ffn_norm.weight": "model-00015-of-00021.safetensors",
+    "model.layers.35.attention.wo.weight": "model-00015-of-00021.safetensors",
+    "model.layers.35.attention.wqkv.weight": "model-00015-of-00021.safetensors",
+    "model.layers.35.attention_norm.weight": "model-00015-of-00021.safetensors",
+    "model.layers.35.feed_forward.w1.weight": "model-00015-of-00021.safetensors",
+    "model.layers.35.feed_forward.w2.weight": "model-00015-of-00021.safetensors",
+    "model.layers.35.feed_forward.w3.weight": "model-00015-of-00021.safetensors",
+    "model.layers.35.ffn_norm.weight": "model-00015-of-00021.safetensors",
+    "model.layers.36.attention.wo.weight": "model-00016-of-00021.safetensors",
+    "model.layers.36.attention.wqkv.weight": "model-00016-of-00021.safetensors",
+    "model.layers.36.attention_norm.weight": "model-00016-of-00021.safetensors",
+    "model.layers.36.feed_forward.w1.weight": "model-00016-of-00021.safetensors",
+    "model.layers.36.feed_forward.w2.weight": "model-00016-of-00021.safetensors",
+    "model.layers.36.feed_forward.w3.weight": "model-00016-of-00021.safetensors",
+    "model.layers.36.ffn_norm.weight": "model-00016-of-00021.safetensors",
+    "model.layers.37.attention.wo.weight": "model-00016-of-00021.safetensors",
+    "model.layers.37.attention.wqkv.weight": "model-00016-of-00021.safetensors",
+    "model.layers.37.attention_norm.weight": "model-00016-of-00021.safetensors",
+    "model.layers.37.feed_forward.w1.weight": "model-00016-of-00021.safetensors",
+    "model.layers.37.feed_forward.w2.weight": "model-00016-of-00021.safetensors",
+    "model.layers.37.feed_forward.w3.weight": "model-00016-of-00021.safetensors",
+    "model.layers.37.ffn_norm.weight": "model-00016-of-00021.safetensors",
+    "model.layers.38.attention.wo.weight": "model-00016-of-00021.safetensors",
+    "model.layers.38.attention.wqkv.weight": "model-00016-of-00021.safetensors",
+    "model.layers.38.attention_norm.weight": "model-00017-of-00021.safetensors",
+    "model.layers.38.feed_forward.w1.weight": "model-00016-of-00021.safetensors",
+    "model.layers.38.feed_forward.w2.weight": "model-00017-of-00021.safetensors",
+    "model.layers.38.feed_forward.w3.weight": "model-00017-of-00021.safetensors",
+    "model.layers.38.ffn_norm.weight": "model-00017-of-00021.safetensors",
+    "model.layers.39.attention.wo.weight": "model-00017-of-00021.safetensors",
+    "model.layers.39.attention.wqkv.weight": "model-00017-of-00021.safetensors",
+    "model.layers.39.attention_norm.weight": "model-00017-of-00021.safetensors",
+    "model.layers.39.feed_forward.w1.weight": "model-00017-of-00021.safetensors",
+    "model.layers.39.feed_forward.w2.weight": "model-00017-of-00021.safetensors",
+    "model.layers.39.feed_forward.w3.weight": "model-00017-of-00021.safetensors",
+    "model.layers.39.ffn_norm.weight": "model-00017-of-00021.safetensors",
+    "model.layers.4.attention.wo.weight": "model-00003-of-00021.safetensors",
+    "model.layers.4.attention.wqkv.weight": "model-00003-of-00021.safetensors",
+    "model.layers.4.attention_norm.weight": "model-00003-of-00021.safetensors",
+    "model.layers.4.feed_forward.w1.weight": "model-00003-of-00021.safetensors",
+    "model.layers.4.feed_forward.w2.weight": "model-00003-of-00021.safetensors",
+    "model.layers.4.feed_forward.w3.weight": "model-00003-of-00021.safetensors",
+    "model.layers.4.ffn_norm.weight": "model-00003-of-00021.safetensors",
+    "model.layers.40.attention.wo.weight": "model-00017-of-00021.safetensors",
+    "model.layers.40.attention.wqkv.weight": "model-00017-of-00021.safetensors",
+    "model.layers.40.attention_norm.weight": "model-00017-of-00021.safetensors",
+    "model.layers.40.feed_forward.w1.weight": "model-00017-of-00021.safetensors",
+    "model.layers.40.feed_forward.w2.weight": "model-00017-of-00021.safetensors",
+    "model.layers.40.feed_forward.w3.weight": "model-00017-of-00021.safetensors",
+    "model.layers.40.ffn_norm.weight": "model-00017-of-00021.safetensors",
+    "model.layers.41.attention.wo.weight": "model-00018-of-00021.safetensors",
+    "model.layers.41.attention.wqkv.weight": "model-00018-of-00021.safetensors",
+    "model.layers.41.attention_norm.weight": "model-00018-of-00021.safetensors",
+    "model.layers.41.feed_forward.w1.weight": "model-00018-of-00021.safetensors",
+    "model.layers.41.feed_forward.w2.weight": "model-00018-of-00021.safetensors",
+    "model.layers.41.feed_forward.w3.weight": "model-00018-of-00021.safetensors",
+    "model.layers.41.ffn_norm.weight": "model-00018-of-00021.safetensors",
+    "model.layers.42.attention.wo.weight": "model-00018-of-00021.safetensors",
+    "model.layers.42.attention.wqkv.weight": "model-00018-of-00021.safetensors",
+    "model.layers.42.attention_norm.weight": "model-00018-of-00021.safetensors",
+    "model.layers.42.feed_forward.w1.weight": "model-00018-of-00021.safetensors",
+    "model.layers.42.feed_forward.w2.weight": "model-00018-of-00021.safetensors",
+    "model.layers.42.feed_forward.w3.weight": "model-00018-of-00021.safetensors",
+    "model.layers.42.ffn_norm.weight": "model-00018-of-00021.safetensors",
+    "model.layers.43.attention.wo.weight": "model-00018-of-00021.safetensors",
+    "model.layers.43.attention.wqkv.weight": "model-00018-of-00021.safetensors",
+    "model.layers.43.attention_norm.weight": "model-00019-of-00021.safetensors",
+    "model.layers.43.feed_forward.w1.weight": "model-00018-of-00021.safetensors",
+    "model.layers.43.feed_forward.w2.weight": "model-00019-of-00021.safetensors",
+    "model.layers.43.feed_forward.w3.weight": "model-00019-of-00021.safetensors",
+    "model.layers.43.ffn_norm.weight": "model-00019-of-00021.safetensors",
+    "model.layers.44.attention.wo.weight": "model-00019-of-00021.safetensors",
+    "model.layers.44.attention.wqkv.weight": "model-00019-of-00021.safetensors",
+    "model.layers.44.attention_norm.weight": "model-00019-of-00021.safetensors",
+    "model.layers.44.feed_forward.w1.weight": "model-00019-of-00021.safetensors",
+    "model.layers.44.feed_forward.w2.weight": "model-00019-of-00021.safetensors",
+    "model.layers.44.feed_forward.w3.weight": "model-00019-of-00021.safetensors",
+    "model.layers.44.ffn_norm.weight": "model-00019-of-00021.safetensors",
+    "model.layers.45.attention.wo.weight": "model-00019-of-00021.safetensors",
+    "model.layers.45.attention.wqkv.weight": "model-00019-of-00021.safetensors",
+    "model.layers.45.attention_norm.weight": "model-00019-of-00021.safetensors",
+    "model.layers.45.feed_forward.w1.weight": "model-00019-of-00021.safetensors",
+    "model.layers.45.feed_forward.w2.weight": "model-00019-of-00021.safetensors",
+    "model.layers.45.feed_forward.w3.weight": "model-00019-of-00021.safetensors",
+    "model.layers.45.ffn_norm.weight": "model-00019-of-00021.safetensors",
+    "model.layers.46.attention.wo.weight": "model-00020-of-00021.safetensors",
+    "model.layers.46.attention.wqkv.weight": "model-00020-of-00021.safetensors",
+    "model.layers.46.attention_norm.weight": "model-00020-of-00021.safetensors",
+    "model.layers.46.feed_forward.w1.weight": "model-00020-of-00021.safetensors",
+    "model.layers.46.feed_forward.w2.weight": "model-00020-of-00021.safetensors",
+    "model.layers.46.feed_forward.w3.weight": "model-00020-of-00021.safetensors",
+    "model.layers.46.ffn_norm.weight": "model-00020-of-00021.safetensors",
+    "model.layers.47.attention.wo.weight": "model-00020-of-00021.safetensors",
+    "model.layers.47.attention.wqkv.weight": "model-00020-of-00021.safetensors",
+    "model.layers.47.attention_norm.weight": "model-00020-of-00021.safetensors",
+    "model.layers.47.feed_forward.w1.weight": "model-00020-of-00021.safetensors",
+    "model.layers.47.feed_forward.w2.weight": "model-00020-of-00021.safetensors",
+    "model.layers.47.feed_forward.w3.weight": "model-00020-of-00021.safetensors",
+    "model.layers.47.ffn_norm.weight": "model-00020-of-00021.safetensors",
+    "model.layers.5.attention.wo.weight": "model-00003-of-00021.safetensors",
+    "model.layers.5.attention.wqkv.weight": "model-00003-of-00021.safetensors",
+    "model.layers.5.attention_norm.weight": "model-00003-of-00021.safetensors",
+    "model.layers.5.feed_forward.w1.weight": "model-00003-of-00021.safetensors",
+    "model.layers.5.feed_forward.w2.weight": "model-00003-of-00021.safetensors",
+    "model.layers.5.feed_forward.w3.weight": "model-00003-of-00021.safetensors",
+    "model.layers.5.ffn_norm.weight": "model-00003-of-00021.safetensors",
+    "model.layers.6.attention.wo.weight": "model-00004-of-00021.safetensors",
+    "model.layers.6.attention.wqkv.weight": "model-00004-of-00021.safetensors",
+    "model.layers.6.attention_norm.weight": "model-00004-of-00021.safetensors",
+    "model.layers.6.feed_forward.w1.weight": "model-00004-of-00021.safetensors",
+    "model.layers.6.feed_forward.w2.weight": "model-00004-of-00021.safetensors",
+    "model.layers.6.feed_forward.w3.weight": "model-00004-of-00021.safetensors",
+    "model.layers.6.ffn_norm.weight": "model-00004-of-00021.safetensors",
+    "model.layers.7.attention.wo.weight": "model-00004-of-00021.safetensors",
+    "model.layers.7.attention.wqkv.weight": "model-00004-of-00021.safetensors",
+    "model.layers.7.attention_norm.weight": "model-00004-of-00021.safetensors",
+    "model.layers.7.feed_forward.w1.weight": "model-00004-of-00021.safetensors",
+    "model.layers.7.feed_forward.w2.weight": "model-00004-of-00021.safetensors",
+    "model.layers.7.feed_forward.w3.weight": "model-00004-of-00021.safetensors",
+    "model.layers.7.ffn_norm.weight": "model-00004-of-00021.safetensors",
+    "model.layers.8.attention.wo.weight": "model-00004-of-00021.safetensors",
+    "model.layers.8.attention.wqkv.weight": "model-00004-of-00021.safetensors",
+    "model.layers.8.attention_norm.weight": "model-00005-of-00021.safetensors",
+    "model.layers.8.feed_forward.w1.weight": "model-00004-of-00021.safetensors",
+    "model.layers.8.feed_forward.w2.weight": "model-00005-of-00021.safetensors",
+    "model.layers.8.feed_forward.w3.weight": "model-00005-of-00021.safetensors",
+    "model.layers.8.ffn_norm.weight": "model-00005-of-00021.safetensors",
+    "model.layers.9.attention.wo.weight": "model-00005-of-00021.safetensors",
+    "model.layers.9.attention.wqkv.weight": "model-00005-of-00021.safetensors",
+    "model.layers.9.attention_norm.weight": "model-00005-of-00021.safetensors",
+    "model.layers.9.feed_forward.w1.weight": "model-00005-of-00021.safetensors",
+    "model.layers.9.feed_forward.w2.weight": "model-00005-of-00021.safetensors",
+    "model.layers.9.feed_forward.w3.weight": "model-00005-of-00021.safetensors",
+    "model.layers.9.ffn_norm.weight": "model-00005-of-00021.safetensors",
+    "model.norm.weight": "model-00020-of-00021.safetensors",
+    "model.tok_embeddings.weight": "model-00001-of-00021.safetensors",
+    "output.weight": "model-00021-of-00021.safetensors"
+  }
+}

pytorch_model-00005-of-00021.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:e841af81817e88638c3738f20158505fabc6bb1e00a787a13ed665486e57b540
-size 1963014163

pytorch_model-00006-of-00021.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:40ec893c12a091be2883882052263ab5c93902381d91a143ceaa3c9a673438a4
-size 1937823489

pytorch_model-00007-of-00021.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:984e23d2e0cd59f0480601787f5a31e92bb1733d5c06611d2b97a4c4d5aeae67
-size 1963014227

pytorch_model-00008-of-00021.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:716ef2a0f79ff76c548a8c472857853de233ac3e36aa91afaa6608e7acee307a
-size 1937823489

pytorch_model-00009-of-00021.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:2a95dac42bffe70eeea93f5662b37fcd55762d969091e54561fb9a08e38f660b
-size 1963014227

pytorch_model-00010-of-00021.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:936e5df992bd76075a253e9a90b0854ca327fa4e7be35ccb2b7dac5d145beae5
-size 1937823489

pytorch_model-00011-of-00021.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:d06c613bd8081c8af1426f59a8772660296094e527a66a8e5207426ebd7f6e8d
-size 1963014227

pytorch_model-00012-of-00021.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:ada67e3633e2b7ea9af8da90cf81109b3fb04e177d2e00bc07020a9ecb553c1a
-size 1937823489

pytorch_model-00013-of-00021.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:85722ac568f1e9d61d3c6256d735ab03553d0eaed7e15a746e5b2fc7f62460bd
-size 1963014227

pytorch_model-00014-of-00021.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:9a336156ecdd54edea0ef2650d552e5e33507709f20ec9a7e6e1909ebe686968
-size 1937823489

pytorch_model-00015-of-00021.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:94f907877aaafad25727406e66eafe47c2125e13dd16e93defe01c8dc97d4a32
-size 1963014227

pytorch_model-00016-of-00021.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:0d0de1be1c1dc29b6e62f7ca0931c19f89b1b7d375ddc8ec5d040bd78bd774ae
-size 1937823489

pytorch_model-00017-of-00021.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:fbe517c87c0ba6a023014c21bcffa913a1f6088ffe2572c50fd4435b4333a4e7
-size 1963014227

pytorch_model-00018-of-00021.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:514f83ea9b341b66823521514c14438798c3e2dc5ac0d2e80775c3f8adf33720
-size 1937823489

pytorch_model-00019-of-00021.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:10c50e316c9b0aa1e7d9576bbe0017ef55a794b21857cc883f1c4f808003c7e9
-size 1963014227

pytorch_model-00020-of-00021.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:7bfd3af08569ca849d92ff8ba2c01160f4ad93a56e17445eac1fb82830edcaa7
-size 1560347805

pytorch_model-00021-of-00021.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:3b995107db0d5fd06884e8a7cac4a940faf5e71cfc785f13b81d6dfa5d6ff8e0
-size 1137181610

pytorch_model.bin.index.json DELETED Viewed

@@ -1,346 +0,0 @@
-{
-  "metadata": {
-    "total_size": 39722299392
-  },
-  "weight_map": {
-    "model.layers.0.attention.wo.weight": "pytorch_model-00001-of-00021.bin",
-    "model.layers.0.attention.wqkv.weight": "pytorch_model-00001-of-00021.bin",
-    "model.layers.0.attention_norm.weight": "pytorch_model-00001-of-00021.bin",
-    "model.layers.0.feed_forward.w1.weight": "pytorch_model-00001-of-00021.bin",
-    "model.layers.0.feed_forward.w2.weight": "pytorch_model-00001-of-00021.bin",
-    "model.layers.0.feed_forward.w3.weight": "pytorch_model-00001-of-00021.bin",
-    "model.layers.0.ffn_norm.weight": "pytorch_model-00001-of-00021.bin",
-    "model.layers.1.attention.wo.weight": "pytorch_model-00002-of-00021.bin",
-    "model.layers.1.attention.wqkv.weight": "pytorch_model-00002-of-00021.bin",
-    "model.layers.1.attention_norm.weight": "pytorch_model-00002-of-00021.bin",
-    "model.layers.1.feed_forward.w1.weight": "pytorch_model-00002-of-00021.bin",
-    "model.layers.1.feed_forward.w2.weight": "pytorch_model-00002-of-00021.bin",
-    "model.layers.1.feed_forward.w3.weight": "pytorch_model-00002-of-00021.bin",
-    "model.layers.1.ffn_norm.weight": "pytorch_model-00002-of-00021.bin",
-    "model.layers.10.attention.wo.weight": "pytorch_model-00005-of-00021.bin",
-    "model.layers.10.attention.wqkv.weight": "pytorch_model-00005-of-00021.bin",
-    "model.layers.10.attention_norm.weight": "pytorch_model-00005-of-00021.bin",
-    "model.layers.10.feed_forward.w1.weight": "pytorch_model-00005-of-00021.bin",
-    "model.layers.10.feed_forward.w2.weight": "pytorch_model-00005-of-00021.bin",
-    "model.layers.10.feed_forward.w3.weight": "pytorch_model-00005-of-00021.bin",
-    "model.layers.10.ffn_norm.weight": "pytorch_model-00005-of-00021.bin",
-    "model.layers.11.attention.wo.weight": "pytorch_model-00006-of-00021.bin",
-    "model.layers.11.attention.wqkv.weight": "pytorch_model-00006-of-00021.bin",
-    "model.layers.11.attention_norm.weight": "pytorch_model-00006-of-00021.bin",
-    "model.layers.11.feed_forward.w1.weight": "pytorch_model-00006-of-00021.bin",
-    "model.layers.11.feed_forward.w2.weight": "pytorch_model-00006-of-00021.bin",
-    "model.layers.11.feed_forward.w3.weight": "pytorch_model-00006-of-00021.bin",
-    "model.layers.11.ffn_norm.weight": "pytorch_model-00006-of-00021.bin",
-    "model.layers.12.attention.wo.weight": "pytorch_model-00006-of-00021.bin",
-    "model.layers.12.attention.wqkv.weight": "pytorch_model-00006-of-00021.bin",
-    "model.layers.12.attention_norm.weight": "pytorch_model-00006-of-00021.bin",
-    "model.layers.12.feed_forward.w1.weight": "pytorch_model-00006-of-00021.bin",
-    "model.layers.12.feed_forward.w2.weight": "pytorch_model-00006-of-00021.bin",
-    "model.layers.12.feed_forward.w3.weight": "pytorch_model-00006-of-00021.bin",
-    "model.layers.12.ffn_norm.weight": "pytorch_model-00006-of-00021.bin",
-    "model.layers.13.attention.wo.weight": "pytorch_model-00006-of-00021.bin",
-    "model.layers.13.attention.wqkv.weight": "pytorch_model-00006-of-00021.bin",
-    "model.layers.13.attention_norm.weight": "pytorch_model-00007-of-00021.bin",
-    "model.layers.13.feed_forward.w1.weight": "pytorch_model-00006-of-00021.bin",
-    "model.layers.13.feed_forward.w2.weight": "pytorch_model-00007-of-00021.bin",
-    "model.layers.13.feed_forward.w3.weight": "pytorch_model-00007-of-00021.bin",
-    "model.layers.13.ffn_norm.weight": "pytorch_model-00007-of-00021.bin",
-    "model.layers.14.attention.wo.weight": "pytorch_model-00007-of-00021.bin",
-    "model.layers.14.attention.wqkv.weight": "pytorch_model-00007-of-00021.bin",
-    "model.layers.14.attention_norm.weight": "pytorch_model-00007-of-00021.bin",
-    "model.layers.14.feed_forward.w1.weight": "pytorch_model-00007-of-00021.bin",
-    "model.layers.14.feed_forward.w2.weight": "pytorch_model-00007-of-00021.bin",
-    "model.layers.14.feed_forward.w3.weight": "pytorch_model-00007-of-00021.bin",
-    "model.layers.14.ffn_norm.weight": "pytorch_model-00007-of-00021.bin",
-    "model.layers.15.attention.wo.weight": "pytorch_model-00007-of-00021.bin",
-    "model.layers.15.attention.wqkv.weight": "pytorch_model-00007-of-00021.bin",
-    "model.layers.15.attention_norm.weight": "pytorch_model-00007-of-00021.bin",
-    "model.layers.15.feed_forward.w1.weight": "pytorch_model-00007-of-00021.bin",
-    "model.layers.15.feed_forward.w2.weight": "pytorch_model-00007-of-00021.bin",
-    "model.layers.15.feed_forward.w3.weight": "pytorch_model-00007-of-00021.bin",
-    "model.layers.15.ffn_norm.weight": "pytorch_model-00007-of-00021.bin",
-    "model.layers.16.attention.wo.weight": "pytorch_model-00008-of-00021.bin",
-    "model.layers.16.attention.wqkv.weight": "pytorch_model-00008-of-00021.bin",
-    "model.layers.16.attention_norm.weight": "pytorch_model-00008-of-00021.bin",
-    "model.layers.16.feed_forward.w1.weight": "pytorch_model-00008-of-00021.bin",
-    "model.layers.16.feed_forward.w2.weight": "pytorch_model-00008-of-00021.bin",
-    "model.layers.16.feed_forward.w3.weight": "pytorch_model-00008-of-00021.bin",
-    "model.layers.16.ffn_norm.weight": "pytorch_model-00008-of-00021.bin",
-    "model.layers.17.attention.wo.weight": "pytorch_model-00008-of-00021.bin",
-    "model.layers.17.attention.wqkv.weight": "pytorch_model-00008-of-00021.bin",
-    "model.layers.17.attention_norm.weight": "pytorch_model-00008-of-00021.bin",
-    "model.layers.17.feed_forward.w1.weight": "pytorch_model-00008-of-00021.bin",
-    "model.layers.17.feed_forward.w2.weight": "pytorch_model-00008-of-00021.bin",
-    "model.layers.17.feed_forward.w3.weight": "pytorch_model-00008-of-00021.bin",
-    "model.layers.17.ffn_norm.weight": "pytorch_model-00008-of-00021.bin",
-    "model.layers.18.attention.wo.weight": "pytorch_model-00008-of-00021.bin",
-    "model.layers.18.attention.wqkv.weight": "pytorch_model-00008-of-00021.bin",
-    "model.layers.18.attention_norm.weight": "pytorch_model-00009-of-00021.bin",
-    "model.layers.18.feed_forward.w1.weight": "pytorch_model-00008-of-00021.bin",
-    "model.layers.18.feed_forward.w2.weight": "pytorch_model-00009-of-00021.bin",
-    "model.layers.18.feed_forward.w3.weight": "pytorch_model-00009-of-00021.bin",
-    "model.layers.18.ffn_norm.weight": "pytorch_model-00009-of-00021.bin",
-    "model.layers.19.attention.wo.weight": "pytorch_model-00009-of-00021.bin",
-    "model.layers.19.attention.wqkv.weight": "pytorch_model-00009-of-00021.bin",
-    "model.layers.19.attention_norm.weight": "pytorch_model-00009-of-00021.bin",
-    "model.layers.19.feed_forward.w1.weight": "pytorch_model-00009-of-00021.bin",
-    "model.layers.19.feed_forward.w2.weight": "pytorch_model-00009-of-00021.bin",
-    "model.layers.19.feed_forward.w3.weight": "pytorch_model-00009-of-00021.bin",
-    "model.layers.19.ffn_norm.weight": "pytorch_model-00009-of-00021.bin",
-    "model.layers.2.attention.wo.weight": "pytorch_model-00002-of-00021.bin",
-    "model.layers.2.attention.wqkv.weight": "pytorch_model-00002-of-00021.bin",
-    "model.layers.2.attention_norm.weight": "pytorch_model-00002-of-00021.bin",
-    "model.layers.2.feed_forward.w1.weight": "pytorch_model-00002-of-00021.bin",
-    "model.layers.2.feed_forward.w2.weight": "pytorch_model-00002-of-00021.bin",
-    "model.layers.2.feed_forward.w3.weight": "pytorch_model-00002-of-00021.bin",
-    "model.layers.2.ffn_norm.weight": "pytorch_model-00002-of-00021.bin",
-    "model.layers.20.attention.wo.weight": "pytorch_model-00009-of-00021.bin",
-    "model.layers.20.attention.wqkv.weight": "pytorch_model-00009-of-00021.bin",
-    "model.layers.20.attention_norm.weight": "pytorch_model-00009-of-00021.bin",
-    "model.layers.20.feed_forward.w1.weight": "pytorch_model-00009-of-00021.bin",
-    "model.layers.20.feed_forward.w2.weight": "pytorch_model-00009-of-00021.bin",
-    "model.layers.20.feed_forward.w3.weight": "pytorch_model-00009-of-00021.bin",
-    "model.layers.20.ffn_norm.weight": "pytorch_model-00009-of-00021.bin",
-    "model.layers.21.attention.wo.weight": "pytorch_model-00010-of-00021.bin",
-    "model.layers.21.attention.wqkv.weight": "pytorch_model-00010-of-00021.bin",
-    "model.layers.21.attention_norm.weight": "pytorch_model-00010-of-00021.bin",
-    "model.layers.21.feed_forward.w1.weight": "pytorch_model-00010-of-00021.bin",
-    "model.layers.21.feed_forward.w2.weight": "pytorch_model-00010-of-00021.bin",
-    "model.layers.21.feed_forward.w3.weight": "pytorch_model-00010-of-00021.bin",
-    "model.layers.21.ffn_norm.weight": "pytorch_model-00010-of-00021.bin",
-    "model.layers.22.attention.wo.weight": "pytorch_model-00010-of-00021.bin",
-    "model.layers.22.attention.wqkv.weight": "pytorch_model-00010-of-00021.bin",
-    "model.layers.22.attention_norm.weight": "pytorch_model-00010-of-00021.bin",
-    "model.layers.22.feed_forward.w1.weight": "pytorch_model-00010-of-00021.bin",
-    "model.layers.22.feed_forward.w2.weight": "pytorch_model-00010-of-00021.bin",
-    "model.layers.22.feed_forward.w3.weight": "pytorch_model-00010-of-00021.bin",
-    "model.layers.22.ffn_norm.weight": "pytorch_model-00010-of-00021.bin",
-    "model.layers.23.attention.wo.weight": "pytorch_model-00010-of-00021.bin",
-    "model.layers.23.attention.wqkv.weight": "pytorch_model-00010-of-00021.bin",
-    "model.layers.23.attention_norm.weight": "pytorch_model-00011-of-00021.bin",
-    "model.layers.23.feed_forward.w1.weight": "pytorch_model-00010-of-00021.bin",
-    "model.layers.23.feed_forward.w2.weight": "pytorch_model-00011-of-00021.bin",
-    "model.layers.23.feed_forward.w3.weight": "pytorch_model-00011-of-00021.bin",
-    "model.layers.23.ffn_norm.weight": "pytorch_model-00011-of-00021.bin",
-    "model.layers.24.attention.wo.weight": "pytorch_model-00011-of-00021.bin",
-    "model.layers.24.attention.wqkv.weight": "pytorch_model-00011-of-00021.bin",
-    "model.layers.24.attention_norm.weight": "pytorch_model-00011-of-00021.bin",
-    "model.layers.24.feed_forward.w1.weight": "pytorch_model-00011-of-00021.bin",
-    "model.layers.24.feed_forward.w2.weight": "pytorch_model-00011-of-00021.bin",
-    "model.layers.24.feed_forward.w3.weight": "pytorch_model-00011-of-00021.bin",
-    "model.layers.24.ffn_norm.weight": "pytorch_model-00011-of-00021.bin",
-    "model.layers.25.attention.wo.weight": "pytorch_model-00011-of-00021.bin",
-    "model.layers.25.attention.wqkv.weight": "pytorch_model-00011-of-00021.bin",
-    "model.layers.25.attention_norm.weight": "pytorch_model-00011-of-00021.bin",
-    "model.layers.25.feed_forward.w1.weight": "pytorch_model-00011-of-00021.bin",
-    "model.layers.25.feed_forward.w2.weight": "pytorch_model-00011-of-00021.bin",
-    "model.layers.25.feed_forward.w3.weight": "pytorch_model-00011-of-00021.bin",
-    "model.layers.25.ffn_norm.weight": "pytorch_model-00011-of-00021.bin",
-    "model.layers.26.attention.wo.weight": "pytorch_model-00012-of-00021.bin",
-    "model.layers.26.attention.wqkv.weight": "pytorch_model-00012-of-00021.bin",
-    "model.layers.26.attention_norm.weight": "pytorch_model-00012-of-00021.bin",
-    "model.layers.26.feed_forward.w1.weight": "pytorch_model-00012-of-00021.bin",
-    "model.layers.26.feed_forward.w2.weight": "pytorch_model-00012-of-00021.bin",
-    "model.layers.26.feed_forward.w3.weight": "pytorch_model-00012-of-00021.bin",
-    "model.layers.26.ffn_norm.weight": "pytorch_model-00012-of-00021.bin",
-    "model.layers.27.attention.wo.weight": "pytorch_model-00012-of-00021.bin",
-    "model.layers.27.attention.wqkv.weight": "pytorch_model-00012-of-00021.bin",
-    "model.layers.27.attention_norm.weight": "pytorch_model-00012-of-00021.bin",
-    "model.layers.27.feed_forward.w1.weight": "pytorch_model-00012-of-00021.bin",
-    "model.layers.27.feed_forward.w2.weight": "pytorch_model-00012-of-00021.bin",
-    "model.layers.27.feed_forward.w3.weight": "pytorch_model-00012-of-00021.bin",
-    "model.layers.27.ffn_norm.weight": "pytorch_model-00012-of-00021.bin",
-    "model.layers.28.attention.wo.weight": "pytorch_model-00012-of-00021.bin",
-    "model.layers.28.attention.wqkv.weight": "pytorch_model-00012-of-00021.bin",
-    "model.layers.28.attention_norm.weight": "pytorch_model-00013-of-00021.bin",
-    "model.layers.28.feed_forward.w1.weight": "pytorch_model-00012-of-00021.bin",
-    "model.layers.28.feed_forward.w2.weight": "pytorch_model-00013-of-00021.bin",
-    "model.layers.28.feed_forward.w3.weight": "pytorch_model-00013-of-00021.bin",
-    "model.layers.28.ffn_norm.weight": "pytorch_model-00013-of-00021.bin",
-    "model.layers.29.attention.wo.weight": "pytorch_model-00013-of-00021.bin",
-    "model.layers.29.attention.wqkv.weight": "pytorch_model-00013-of-00021.bin",
-    "model.layers.29.attention_norm.weight": "pytorch_model-00013-of-00021.bin",
-    "model.layers.29.feed_forward.w1.weight": "pytorch_model-00013-of-00021.bin",
-    "model.layers.29.feed_forward.w2.weight": "pytorch_model-00013-of-00021.bin",
-    "model.layers.29.feed_forward.w3.weight": "pytorch_model-00013-of-00021.bin",
-    "model.layers.29.ffn_norm.weight": "pytorch_model-00013-of-00021.bin",
-    "model.layers.3.attention.wo.weight": "pytorch_model-00002-of-00021.bin",
-    "model.layers.3.attention.wqkv.weight": "pytorch_model-00002-of-00021.bin",
-    "model.layers.3.attention_norm.weight": "pytorch_model-00003-of-00021.bin",
-    "model.layers.3.feed_forward.w1.weight": "pytorch_model-00002-of-00021.bin",
-    "model.layers.3.feed_forward.w2.weight": "pytorch_model-00003-of-00021.bin",
-    "model.layers.3.feed_forward.w3.weight": "pytorch_model-00003-of-00021.bin",
-    "model.layers.3.ffn_norm.weight": "pytorch_model-00003-of-00021.bin",
-    "model.layers.30.attention.wo.weight": "pytorch_model-00013-of-00021.bin",
-    "model.layers.30.attention.wqkv.weight": "pytorch_model-00013-of-00021.bin",
-    "model.layers.30.attention_norm.weight": "pytorch_model-00013-of-00021.bin",
-    "model.layers.30.feed_forward.w1.weight": "pytorch_model-00013-of-00021.bin",
-    "model.layers.30.feed_forward.w2.weight": "pytorch_model-00013-of-00021.bin",
-    "model.layers.30.feed_forward.w3.weight": "pytorch_model-00013-of-00021.bin",
-    "model.layers.30.ffn_norm.weight": "pytorch_model-00013-of-00021.bin",
-    "model.layers.31.attention.wo.weight": "pytorch_model-00014-of-00021.bin",
-    "model.layers.31.attention.wqkv.weight": "pytorch_model-00014-of-00021.bin",
-    "model.layers.31.attention_norm.weight": "pytorch_model-00014-of-00021.bin",
-    "model.layers.31.feed_forward.w1.weight": "pytorch_model-00014-of-00021.bin",
-    "model.layers.31.feed_forward.w2.weight": "pytorch_model-00014-of-00021.bin",
-    "model.layers.31.feed_forward.w3.weight": "pytorch_model-00014-of-00021.bin",
-    "model.layers.31.ffn_norm.weight": "pytorch_model-00014-of-00021.bin",
-    "model.layers.32.attention.wo.weight": "pytorch_model-00014-of-00021.bin",
-    "model.layers.32.attention.wqkv.weight": "pytorch_model-00014-of-00021.bin",
-    "model.layers.32.attention_norm.weight": "pytorch_model-00014-of-00021.bin",
-    "model.layers.32.feed_forward.w1.weight": "pytorch_model-00014-of-00021.bin",
-    "model.layers.32.feed_forward.w2.weight": "pytorch_model-00014-of-00021.bin",
-    "model.layers.32.feed_forward.w3.weight": "pytorch_model-00014-of-00021.bin",
-    "model.layers.32.ffn_norm.weight": "pytorch_model-00014-of-00021.bin",
-    "model.layers.33.attention.wo.weight": "pytorch_model-00014-of-00021.bin",
-    "model.layers.33.attention.wqkv.weight": "pytorch_model-00014-of-00021.bin",
-    "model.layers.33.attention_norm.weight": "pytorch_model-00015-of-00021.bin",
-    "model.layers.33.feed_forward.w1.weight": "pytorch_model-00014-of-00021.bin",
-    "model.layers.33.feed_forward.w2.weight": "pytorch_model-00015-of-00021.bin",
-    "model.layers.33.feed_forward.w3.weight": "pytorch_model-00015-of-00021.bin",
-    "model.layers.33.ffn_norm.weight": "pytorch_model-00015-of-00021.bin",
-    "model.layers.34.attention.wo.weight": "pytorch_model-00015-of-00021.bin",
-    "model.layers.34.attention.wqkv.weight": "pytorch_model-00015-of-00021.bin",
-    "model.layers.34.attention_norm.weight": "pytorch_model-00015-of-00021.bin",
-    "model.layers.34.feed_forward.w1.weight": "pytorch_model-00015-of-00021.bin",
-    "model.layers.34.feed_forward.w2.weight": "pytorch_model-00015-of-00021.bin",
-    "model.layers.34.feed_forward.w3.weight": "pytorch_model-00015-of-00021.bin",
-    "model.layers.34.ffn_norm.weight": "pytorch_model-00015-of-00021.bin",
-    "model.layers.35.attention.wo.weight": "pytorch_model-00015-of-00021.bin",
-    "model.layers.35.attention.wqkv.weight": "pytorch_model-00015-of-00021.bin",
-    "model.layers.35.attention_norm.weight": "pytorch_model-00015-of-00021.bin",
-    "model.layers.35.feed_forward.w1.weight": "pytorch_model-00015-of-00021.bin",
-    "model.layers.35.feed_forward.w2.weight": "pytorch_model-00015-of-00021.bin",
-    "model.layers.35.feed_forward.w3.weight": "pytorch_model-00015-of-00021.bin",
-    "model.layers.35.ffn_norm.weight": "pytorch_model-00015-of-00021.bin",
-    "model.layers.36.attention.wo.weight": "pytorch_model-00016-of-00021.bin",
-    "model.layers.36.attention.wqkv.weight": "pytorch_model-00016-of-00021.bin",
-    "model.layers.36.attention_norm.weight": "pytorch_model-00016-of-00021.bin",
-    "model.layers.36.feed_forward.w1.weight": "pytorch_model-00016-of-00021.bin",
-    "model.layers.36.feed_forward.w2.weight": "pytorch_model-00016-of-00021.bin",
-    "model.layers.36.feed_forward.w3.weight": "pytorch_model-00016-of-00021.bin",
-    "model.layers.36.ffn_norm.weight": "pytorch_model-00016-of-00021.bin",
-    "model.layers.37.attention.wo.weight": "pytorch_model-00016-of-00021.bin",
-    "model.layers.37.attention.wqkv.weight": "pytorch_model-00016-of-00021.bin",
-    "model.layers.37.attention_norm.weight": "pytorch_model-00016-of-00021.bin",
-    "model.layers.37.feed_forward.w1.weight": "pytorch_model-00016-of-00021.bin",
-    "model.layers.37.feed_forward.w2.weight": "pytorch_model-00016-of-00021.bin",
-    "model.layers.37.feed_forward.w3.weight": "pytorch_model-00016-of-00021.bin",
-    "model.layers.37.ffn_norm.weight": "pytorch_model-00016-of-00021.bin",
-    "model.layers.38.attention.wo.weight": "pytorch_model-00016-of-00021.bin",
-    "model.layers.38.attention.wqkv.weight": "pytorch_model-00016-of-00021.bin",
-    "model.layers.38.attention_norm.weight": "pytorch_model-00017-of-00021.bin",
-    "model.layers.38.feed_forward.w1.weight": "pytorch_model-00016-of-00021.bin",
-    "model.layers.38.feed_forward.w2.weight": "pytorch_model-00017-of-00021.bin",
-    "model.layers.38.feed_forward.w3.weight": "pytorch_model-00017-of-00021.bin",
-    "model.layers.38.ffn_norm.weight": "pytorch_model-00017-of-00021.bin",
-    "model.layers.39.attention.wo.weight": "pytorch_model-00017-of-00021.bin",
-    "model.layers.39.attention.wqkv.weight": "pytorch_model-00017-of-00021.bin",
-    "model.layers.39.attention_norm.weight": "pytorch_model-00017-of-00021.bin",
-    "model.layers.39.feed_forward.w1.weight": "pytorch_model-00017-of-00021.bin",
-    "model.layers.39.feed_forward.w2.weight": "pytorch_model-00017-of-00021.bin",
-    "model.layers.39.feed_forward.w3.weight": "pytorch_model-00017-of-00021.bin",
-    "model.layers.39.ffn_norm.weight": "pytorch_model-00017-of-00021.bin",
-    "model.layers.4.attention.wo.weight": "pytorch_model-00003-of-00021.bin",
-    "model.layers.4.attention.wqkv.weight": "pytorch_model-00003-of-00021.bin",
-    "model.layers.4.attention_norm.weight": "pytorch_model-00003-of-00021.bin",
-    "model.layers.4.feed_forward.w1.weight": "pytorch_model-00003-of-00021.bin",
-    "model.layers.4.feed_forward.w2.weight": "pytorch_model-00003-of-00021.bin",
-    "model.layers.4.feed_forward.w3.weight": "pytorch_model-00003-of-00021.bin",
-    "model.layers.4.ffn_norm.weight": "pytorch_model-00003-of-00021.bin",
-    "model.layers.40.attention.wo.weight": "pytorch_model-00017-of-00021.bin",
-    "model.layers.40.attention.wqkv.weight": "pytorch_model-00017-of-00021.bin",
-    "model.layers.40.attention_norm.weight": "pytorch_model-00017-of-00021.bin",
-    "model.layers.40.feed_forward.w1.weight": "pytorch_model-00017-of-00021.bin",
-    "model.layers.40.feed_forward.w2.weight": "pytorch_model-00017-of-00021.bin",
-    "model.layers.40.feed_forward.w3.weight": "pytorch_model-00017-of-00021.bin",
-    "model.layers.40.ffn_norm.weight": "pytorch_model-00017-of-00021.bin",
-    "model.layers.41.attention.wo.weight": "pytorch_model-00018-of-00021.bin",
-    "model.layers.41.attention.wqkv.weight": "pytorch_model-00018-of-00021.bin",
-    "model.layers.41.attention_norm.weight": "pytorch_model-00018-of-00021.bin",
-    "model.layers.41.feed_forward.w1.weight": "pytorch_model-00018-of-00021.bin",
-    "model.layers.41.feed_forward.w2.weight": "pytorch_model-00018-of-00021.bin",
-    "model.layers.41.feed_forward.w3.weight": "pytorch_model-00018-of-00021.bin",
-    "model.layers.41.ffn_norm.weight": "pytorch_model-00018-of-00021.bin",
-    "model.layers.42.attention.wo.weight": "pytorch_model-00018-of-00021.bin",
-    "model.layers.42.attention.wqkv.weight": "pytorch_model-00018-of-00021.bin",
-    "model.layers.42.attention_norm.weight": "pytorch_model-00018-of-00021.bin",
-    "model.layers.42.feed_forward.w1.weight": "pytorch_model-00018-of-00021.bin",
-    "model.layers.42.feed_forward.w2.weight": "pytorch_model-00018-of-00021.bin",
-    "model.layers.42.feed_forward.w3.weight": "pytorch_model-00018-of-00021.bin",
-    "model.layers.42.ffn_norm.weight": "pytorch_model-00018-of-00021.bin",
-    "model.layers.43.attention.wo.weight": "pytorch_model-00018-of-00021.bin",
-    "model.layers.43.attention.wqkv.weight": "pytorch_model-00018-of-00021.bin",
-    "model.layers.43.attention_norm.weight": "pytorch_model-00019-of-00021.bin",
-    "model.layers.43.feed_forward.w1.weight": "pytorch_model-00018-of-00021.bin",
-    "model.layers.43.feed_forward.w2.weight": "pytorch_model-00019-of-00021.bin",
-    "model.layers.43.feed_forward.w3.weight": "pytorch_model-00019-of-00021.bin",
-    "model.layers.43.ffn_norm.weight": "pytorch_model-00019-of-00021.bin",
-    "model.layers.44.attention.wo.weight": "pytorch_model-00019-of-00021.bin",
-    "model.layers.44.attention.wqkv.weight": "pytorch_model-00019-of-00021.bin",
-    "model.layers.44.attention_norm.weight": "pytorch_model-00019-of-00021.bin",
-    "model.layers.44.feed_forward.w1.weight": "pytorch_model-00019-of-00021.bin",
-    "model.layers.44.feed_forward.w2.weight": "pytorch_model-00019-of-00021.bin",
-    "model.layers.44.feed_forward.w3.weight": "pytorch_model-00019-of-00021.bin",
-    "model.layers.44.ffn_norm.weight": "pytorch_model-00019-of-00021.bin",
-    "model.layers.45.attention.wo.weight": "pytorch_model-00019-of-00021.bin",
-    "model.layers.45.attention.wqkv.weight": "pytorch_model-00019-of-00021.bin",
-    "model.layers.45.attention_norm.weight": "pytorch_model-00019-of-00021.bin",
-    "model.layers.45.feed_forward.w1.weight": "pytorch_model-00019-of-00021.bin",
-    "model.layers.45.feed_forward.w2.weight": "pytorch_model-00019-of-00021.bin",
-    "model.layers.45.feed_forward.w3.weight": "pytorch_model-00019-of-00021.bin",
-    "model.layers.45.ffn_norm.weight": "pytorch_model-00019-of-00021.bin",
-    "model.layers.46.attention.wo.weight": "pytorch_model-00020-of-00021.bin",
-    "model.layers.46.attention.wqkv.weight": "pytorch_model-00020-of-00021.bin",
-    "model.layers.46.attention_norm.weight": "pytorch_model-00020-of-00021.bin",
-    "model.layers.46.feed_forward.w1.weight": "pytorch_model-00020-of-00021.bin",
-    "model.layers.46.feed_forward.w2.weight": "pytorch_model-00020-of-00021.bin",
-    "model.layers.46.feed_forward.w3.weight": "pytorch_model-00020-of-00021.bin",
-    "model.layers.46.ffn_norm.weight": "pytorch_model-00020-of-00021.bin",
-    "model.layers.47.attention.wo.weight": "pytorch_model-00020-of-00021.bin",
-    "model.layers.47.attention.wqkv.weight": "pytorch_model-00020-of-00021.bin",
-    "model.layers.47.attention_norm.weight": "pytorch_model-00020-of-00021.bin",
-    "model.layers.47.feed_forward.w1.weight": "pytorch_model-00020-of-00021.bin",
-    "model.layers.47.feed_forward.w2.weight": "pytorch_model-00020-of-00021.bin",
-    "model.layers.47.feed_forward.w3.weight": "pytorch_model-00020-of-00021.bin",
-    "model.layers.47.ffn_norm.weight": "pytorch_model-00020-of-00021.bin",
-    "model.layers.5.attention.wo.weight": "pytorch_model-00003-of-00021.bin",
-    "model.layers.5.attention.wqkv.weight": "pytorch_model-00003-of-00021.bin",
-    "model.layers.5.attention_norm.weight": "pytorch_model-00003-of-00021.bin",
-    "model.layers.5.feed_forward.w1.weight": "pytorch_model-00003-of-00021.bin",
-    "model.layers.5.feed_forward.w2.weight": "pytorch_model-00003-of-00021.bin",
-    "model.layers.5.feed_forward.w3.weight": "pytorch_model-00003-of-00021.bin",
-    "model.layers.5.ffn_norm.weight": "pytorch_model-00003-of-00021.bin",
-    "model.layers.6.attention.wo.weight": "pytorch_model-00004-of-00021.bin",
-    "model.layers.6.attention.wqkv.weight": "pytorch_model-00004-of-00021.bin",
-    "model.layers.6.attention_norm.weight": "pytorch_model-00004-of-00021.bin",
-    "model.layers.6.feed_forward.w1.weight": "pytorch_model-00004-of-00021.bin",
-    "model.layers.6.feed_forward.w2.weight": "pytorch_model-00004-of-00021.bin",
-    "model.layers.6.feed_forward.w3.weight": "pytorch_model-00004-of-00021.bin",
-    "model.layers.6.ffn_norm.weight": "pytorch_model-00004-of-00021.bin",
-    "model.layers.7.attention.wo.weight": "pytorch_model-00004-of-00021.bin",
-    "model.layers.7.attention.wqkv.weight": "pytorch_model-00004-of-00021.bin",
-    "model.layers.7.attention_norm.weight": "pytorch_model-00004-of-00021.bin",
-    "model.layers.7.feed_forward.w1.weight": "pytorch_model-00004-of-00021.bin",
-    "model.layers.7.feed_forward.w2.weight": "pytorch_model-00004-of-00021.bin",
-    "model.layers.7.feed_forward.w3.weight": "pytorch_model-00004-of-00021.bin",
-    "model.layers.7.ffn_norm.weight": "pytorch_model-00004-of-00021.bin",
-    "model.layers.8.attention.wo.weight": "pytorch_model-00004-of-00021.bin",
-    "model.layers.8.attention.wqkv.weight": "pytorch_model-00004-of-00021.bin",
-    "model.layers.8.attention_norm.weight": "pytorch_model-00005-of-00021.bin",
-    "model.layers.8.feed_forward.w1.weight": "pytorch_model-00004-of-00021.bin",
-    "model.layers.8.feed_forward.w2.weight": "pytorch_model-00005-of-00021.bin",
-    "model.layers.8.feed_forward.w3.weight": "pytorch_model-00005-of-00021.bin",
-    "model.layers.8.ffn_norm.weight": "pytorch_model-00005-of-00021.bin",
-    "model.layers.9.attention.wo.weight": "pytorch_model-00005-of-00021.bin",
-    "model.layers.9.attention.wqkv.weight": "pytorch_model-00005-of-00021.bin",
-    "model.layers.9.attention_norm.weight": "pytorch_model-00005-of-00021.bin",
-    "model.layers.9.feed_forward.w1.weight": "pytorch_model-00005-of-00021.bin",
-    "model.layers.9.feed_forward.w2.weight": "pytorch_model-00005-of-00021.bin",
-    "model.layers.9.feed_forward.w3.weight": "pytorch_model-00005-of-00021.bin",
-    "model.layers.9.ffn_norm.weight": "pytorch_model-00005-of-00021.bin",
-    "model.norm.weight": "pytorch_model-00020-of-00021.bin",
-    "model.tok_embeddings.weight": "pytorch_model-00001-of-00021.bin",
-    "output.weight": "pytorch_model-00021-of-00021.bin"
-  }
-}

special_tokens_map.json CHANGED Viewed

@@ -7,8 +7,32 @@
     "<|interpreter|>",
     "<|plugin|>"
   ],
-  "bos_token": "<s>",
-  "eos_token": "</s>",
-  "pad_token": "</s>",
-  "unk_token": "<unk>"
 }

     "<|interpreter|>",
     "<|plugin|>"
   ],
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
 }

tokenization_internlm2_fast.py CHANGED Viewed

@@ -56,14 +56,14 @@ class InternLM2Converter(SpmConverter):
         return unk_id
     def decoder(self, replacement, add_prefix_space):
-        decoders_sequence = [
-            decoders.Replace("▁", " "),
-            decoders.ByteFallback(),
-            decoders.Fuse(),
-        ]
-        if self.proto.normalizer_spec.add_dummy_prefix:
-            decoders_sequence.append(decoders.Strip(content=" ", left=1))
-        return decoders.Sequence(decoders_sequence)
     def tokenizer(self, proto):
         model_type = proto.trainer_spec.model_type

         return unk_id
     def decoder(self, replacement, add_prefix_space):
+        return decoders.Sequence(
+            [
+                decoders.Replace("▁", " "),
+                decoders.ByteFallback(),
+                decoders.Fuse(),
+                decoders.Strip(content=" ", left=1),
+            ]
+        )
     def tokenizer(self, proto):
         model_type = proto.trainer_spec.model_type

tokenizer_config.json CHANGED Viewed

@@ -1,17 +1,6 @@
 {
-  "auto_map": {
-    "AutoTokenizer": [
-      "tokenization_internlm2.InternLM2Tokenizer",
-      "tokenization_internlm2_fast.InternLM2TokenizerFast"
-    ]
-  },
-  "bos_token": "<s>",
-  "clean_up_tokenization_spaces": false,
-  "eos_token": "</s>",
-  "model_max_length": 1000000000000000019884624838656,
-  "pad_token": "</s>",
-  "tokenizer_class": "InternLM2Tokenizer",
-  "unk_token": "<unk>",
   "added_tokens_decoder": {
     "0": {
       "content": "<unk>",
@@ -37,48 +26,48 @@
       "single_word": false,
       "special": true
     },
-    "92543": {
-      "content": "<|im_start|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "92542": {
-      "content": "<|im_end|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "92541": {
-      "content": "<|action_start|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "92540": {
-      "content": "<|action_end|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "92539": {
-      "content": "<|interpreter|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "92538": {
-      "content": "<|plugin|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
@@ -94,5 +83,20 @@
     "<|interpreter|>",
     "<|plugin|>"
   ],
-  "chat_template": "{{ bos_token }}{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}"
-}

 {
+  "add_bos_token": true,
+  "add_eos_token": false,
   "added_tokens_decoder": {
     "0": {
       "content": "<unk>",
       "single_word": false,
       "special": true
     },
+    "92538": {
+      "content": "<|plugin|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "92539": {
+      "content": "<|interpreter|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "92540": {
+      "content": "<|action_end|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "92541": {
+      "content": "<|action_start|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "92542": {
+      "content": "<|im_end|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "92543": {
+      "content": "<|im_start|>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
     "<|interpreter|>",
     "<|plugin|>"
   ],
+  "auto_map": {
+    "AutoTokenizer": [
+      "tokenization_internlm2.InternLM2Tokenizer",
+      "tokenization_internlm2_fast.InternLM2TokenizerFast"
+    ]
+  },
+  "bos_token": "<s>",
+  "chat_template": "{{ bos_token }}{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "decode_with_prefix_space": false,
+  "eos_token": "</s>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": null,
+  "tokenizer_class": "InternLM2Tokenizer",
+  "unk_token": "<unk>"
+}