Update spaCy pipeline

Browse files

Files changed (8) hide show

README.md +32 -6
config.cfg +33 -25
meta.json +30 -6
ner/model +2 -2
ner/moves +1 -1
tok2vec/model +2 -2
vocab/strings.json +0 -0
xx_eb_ner-any-py3-none-any.whl +2 -2

README.md CHANGED Viewed

@@ -4,19 +4,35 @@ tags:
 - token-classification
 language:
 - multilingual
-license:  cc-by-nc-sa-4.0
 ---
 | Feature | Description |
 | --- | --- |
 | **Name** | `xx_eb_ner` |
-| **Version** | `0.2.1` |
-| **spaCy** | `>=3.7.4,<3.8.0` |
 | **Default Pipeline** | `tok2vec`, `ner` |
 | **Components** | `tok2vec`, `ner` |
 | **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
 | **Sources** | n/a |
-| **License** | n/a |
-| **Author** | [n/a]() |
 ### Label Scheme
@@ -28,4 +44,14 @@ license:  cc-by-nc-sa-4.0
 | --- | --- |
 | **`ner`** | `COURSE_NAME`, `JOB_TITLE`, `LOCATION` |
-</details>

 - token-classification
 language:
 - multilingual
+license: cc-by-nc-sa-4.0
+model-index:
+- name: xx_eb_ner
+  results:
+  - task:
+      name: NER
+      type: token-classification
+    metrics:
+    - name: NER Precision
+      type: precision
+      value: 0.9976688647
+    - name: NER Recall
+      type: recall
+      value: 0.9975230852
+    - name: NER F Score
+      type: f_score
+      value: 0.9975959696
 ---
 | Feature | Description |
 | --- | --- |
 | **Name** | `xx_eb_ner` |
+| **Version** | `0.3.0` |
+| **spaCy** | `>=3.8.2,<3.9.0` |
 | **Default Pipeline** | `tok2vec`, `ner` |
 | **Components** | `tok2vec`, `ner` |
 | **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
 | **Sources** | n/a |
+| **License** | `cc-by-nc-sa-4.0` |
+| **Author** | [philipp-zettl]() |
 ### Label Scheme
 | --- | --- |
 | **`ner`** | `COURSE_NAME`, `JOB_TITLE`, `LOCATION` |
+</details>
+### Accuracy
+| Type | Score |
+| --- | --- |
+| `ENTS_F` | 99.76 |
+| `ENTS_P` | 99.77 |
+| `ENTS_R` | 99.75 |
+| `TOK2VEC_LOSS` | 25659.16 |
+| `NER_LOSS` | 9140.46 |

config.cfg CHANGED Viewed

@@ -1,21 +1,21 @@
 [paths]
-train = "./training_data/multilang_train.spacy"
-dev = "./training_data/multilang_valid.spacy"
 vectors = null
 init_tok2vec = null
 [system]
-gpu_allocator = "\"pytorch\"  # Use GPU memory management, if available"
 seed = 0
 [nlp]
 lang = "xx"
 pipeline = ["tok2vec","ner"]
 disabled = []
 before_creation = null
 after_creation = null
 after_pipeline_creation = null
-batch_size = 1000
 tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
 vectors = {"@vectors":"spacy.Vectors.v1"}
@@ -38,47 +38,51 @@ use_upper = true
 nO = null
 [components.ner.model.tok2vec]
-@architectures = "spacy.HashEmbedCNN.v2"
-pretrained_vectors = null
-width = 96
-depth = 4
-embed_size = 2000
-window_size = 1
-maxout_pieces = 3
-subword_features = true
 [components.tok2vec]
 factory = "tok2vec"
 [components.tok2vec.model]
-@architectures = "spacy.HashEmbedCNN.v2"
-pretrained_vectors = null
-width = 96
-depth = 4
-embed_size = 2000
 window_size = 1
 maxout_pieces = 3
-subword_features = true
 [corpora]
 [corpora.dev]
 @readers = "spacy.Corpus.v1"
 path = ${paths.dev}
-gold_preproc = false
 max_length = 0
 limit = 0
 augmenter = null
 [corpora.train]
 @readers = "spacy.Corpus.v1"
 path = ${paths.train}
-gold_preproc = false
 max_length = 0
 limit = 0
 augmenter = null
 [training]
 seed = ${system.seed}
 gpu_allocator = ${system.gpu_allocator}
 dropout = 0.1
@@ -89,25 +93,28 @@ max_steps = 20000
 eval_frequency = 200
 frozen_components = []
 annotating_components = []
-dev_corpus = "corpora.dev"
-train_corpus = "corpora.train"
 before_to_disk = null
 before_update = null
 [training.batcher]
 @batchers = "spacy.batch_by_words.v1"
-size = 1000
 discard_oversize = false
 tolerance = 0.2
 get_length = null
 [training.logger]
 @loggers = "spacy.ConsoleLogger.v1"
 progress_bar = false
 [training.optimizer]
 @optimizers = "Adam.v1"
-learn_rate = 0.001
 beta1 = 0.9
 beta2 = 0.999
 L2_is_weight_decay = true
@@ -115,6 +122,7 @@ L2 = 0.01
 grad_clip = 1.0
 use_averages = false
 eps = 0.00000001
 [training.score_weights]
 ents_f = 1.0
@@ -125,7 +133,7 @@ ents_per_type = null
 [pretraining]
 [initialize]
-vectors = null
 init_tok2vec = ${paths.init_tok2vec}
 vocab_data = null
 lookups = null

 [paths]
+train = "training_data/multilang_train.spacy"
+dev = "training_data/multilang_valid.spacy"
 vectors = null
 init_tok2vec = null
 [system]
+gpu_allocator = null
 seed = 0
 [nlp]
 lang = "xx"
 pipeline = ["tok2vec","ner"]
+batch_size = 1000
 disabled = []
 before_creation = null
 after_creation = null
 after_pipeline_creation = null
 tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
 vectors = {"@vectors":"spacy.Vectors.v1"}
 nO = null
 [components.ner.model.tok2vec]
+@architectures = "spacy.Tok2VecListener.v1"
+width = ${components.tok2vec.model.encode.width}
+upstream = "*"
 [components.tok2vec]
 factory = "tok2vec"
 [components.tok2vec.model]
+@architectures = "spacy.Tok2Vec.v2"
+[components.tok2vec.model.embed]
+@architectures = "spacy.MultiHashEmbed.v2"
+width = ${components.tok2vec.model.encode.width}
+attrs = ["NORM","PREFIX","SUFFIX","SHAPE"]
+rows = [5000,1000,2500,2500]
+include_static_vectors = true
+[components.tok2vec.model.encode]
+@architectures = "spacy.MaxoutWindowEncoder.v2"
+width = 256
+depth = 8
 window_size = 1
 maxout_pieces = 3
 [corpora]
 [corpora.dev]
 @readers = "spacy.Corpus.v1"
 path = ${paths.dev}
 max_length = 0
+gold_preproc = false
 limit = 0
 augmenter = null
 [corpora.train]
 @readers = "spacy.Corpus.v1"
 path = ${paths.train}
 max_length = 0
+gold_preproc = false
 limit = 0
 augmenter = null
 [training]
+dev_corpus = "corpora.dev"
+train_corpus = "corpora.train"
 seed = ${system.seed}
 gpu_allocator = ${system.gpu_allocator}
 dropout = 0.1
 eval_frequency = 200
 frozen_components = []
 annotating_components = []
 before_to_disk = null
 before_update = null
 [training.batcher]
 @batchers = "spacy.batch_by_words.v1"
 discard_oversize = false
 tolerance = 0.2
 get_length = null
+[training.batcher.size]
+@schedules = "compounding.v1"
+start = 100
+stop = 1000
+compound = 1.001
+t = 0.0
 [training.logger]
 @loggers = "spacy.ConsoleLogger.v1"
 progress_bar = false
 [training.optimizer]
 @optimizers = "Adam.v1"
 beta1 = 0.9
 beta2 = 0.999
 L2_is_weight_decay = true
 grad_clip = 1.0
 use_averages = false
 eps = 0.00000001
+learn_rate = 0.001
 [training.score_weights]
 ents_f = 1.0
 [pretraining]
 [initialize]
+vectors = ${paths.vectors}
 init_tok2vec = ${paths.init_tok2vec}
 vocab_data = null
 lookups = null

meta.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
   "lang":"xx",
   "name":"eb_ner",
-  "version":"0.2.1",
   "description":"",
-  "author":"",
   "email":"",
   "url":"",
-  "license":"",
-  "spacy_version":">=3.7.4,<3.8.0",
-  "spacy_git_version":"bff8725f4",
   "vectors":{
     "width":0,
     "vectors":0,
@@ -36,7 +36,31 @@
   "disabled":[
   ],
   "requirements":[
   ]
 }

 {
   "lang":"xx",
   "name":"eb_ner",
+  "version":"0.3.0",
   "description":"",
+  "author":"philipp-zettl",
   "email":"",
   "url":"",
+  "license":"cc-by-nc-sa-4.0",
+  "spacy_version":">=3.8.2,<3.9.0",
+  "spacy_git_version":"63f1b53",
   "vectors":{
     "width":0,
     "vectors":0,
   "disabled":[
   ],
+  "performance":{
+    "ents_f":0.9975959696,
+    "ents_p":0.9976688647,
+    "ents_r":0.9975230852,
+    "ents_per_type":{
+      "COURSE_NAME":{
+        "p":0.9998858916,
+        "r":0.9998174391,
+        "f":0.9998516642
+      },
+      "LOCATION":{
+        "p":0.9965569206,
+        "r":0.9994995296,
+        "f":0.9980260561
+      },
+      "JOB_TITLE":{
+        "p":0.9939871152,
+        "r":0.9873836902,
+        "f":0.9906743989
+      }
+    },
+    "tok2vec_loss":256.5916271971,
+    "ner_loss":91.4045944214
+  },
   "requirements":[
+    "spacy>=3.8.2,<3.9.0"
   ]
 }

ner/model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5293ff2b0fe84b2f88062cce2c03daf9e424386a143e5fdc98f87f6bba6c7e39
-size 3835000

 version https://git-lfs.github.com/spec/v1
+oid sha256:df892bf6343b803a827590e5b21d78a2f9ed69c0395505d47ac1197a35df0667
+size 170556

ner/moves CHANGED Viewed

@@ -1 +1 @@

- ��moves�${"0":{},"1":{"COURSE_NAME":~~1955153~~,"~~JOB_TITLE~~":~~1206960~~,"~~LOCATION~~":~~1154534~~},"2":{"COURSE_NAME":~~1955153~~,"~~JOB_TITLE~~":~~1206960~~,"~~LOCATION~~":~~1154534~~},"3":{"COURSE_NAME":~~1955153~~,"~~JOB_TITLE~~":~~1206960~~,"~~LOCATION~~":~~1154534~~},"4":{"COURSE_NAME":~~1955153~~,"~~JOB_TITLE~~":~~1206960~~,"~~LOCATION~~":~~1154534~~,"":1},"5":{"":1}}�cfg��neg_key�


1	+ ��moves�{"0":{},"1":{"COURSE_NAME":357554,"LOCATION":244355,"JOB_TITLE":196831},"2":{"COURSE_NAME":357554,"LOCATION":244355,"JOB_TITLE":196831},"3":{"COURSE_NAME":357554,"LOCATION":244355,"JOB_TITLE":196831},"4":{"COURSE_NAME":357554,"LOCATION":244355,"JOB_TITLE":196831,"":1},"5":{"":1}}�cfg��neg_key�

tok2vec/model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c887bb91d8fb38fbfdf3dbf994d61cfb54b7ce900b89bec0e6c92b8f023f7ee7
-size 3705091

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e05d0d04bc51148a3f0b10159072174c6354293ed84d0250e58f9937ca0f82b
+size 34126801

vocab/strings.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

xx_eb_ner-any-py3-none-any.whl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38309fa0b6607c4d8b130659210e2cd400241ce588039e6fede3efbbd4ab1912
-size 7796938

 version https://git-lfs.github.com/spec/v1
+oid sha256:768b333089d8b2628a05c9219aa20597ae2a0defbc516826c892c846be7436ec
+size 31813476