piuba-bigdata
/

beto-contextualized-hate-speech

Text Classification

Inference Endpoints

Model card Files Files and versions Community

finiteautomata commited on Dec 28, 2022

Commit

bdea4a7

•

1 Parent(s): 9e03c82

Upload tokenizer

Files changed (3) hide show

added_tokens.json +6 -0
tokenizer.json +36 -0
tokenizer_config.json +3 -3

added_tokens.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "@usuario": 31002,
+  "emoji": 31005,
+  "hashtag": 31004,
+  "url": 31003
+}

tokenizer.json CHANGED Viewed

@@ -52,6 +52,42 @@
       "rstrip": false,
       "normalized": false,
       "special": true
     }
   ],
   "normalizer": {

       "rstrip": false,
       "normalized": false,
       "special": true
+    },
+    {
+      "id": 31002,
+      "content": "@usuario",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true,
+      "special": false
+    },
+    {
+      "id": 31003,
+      "content": "url",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true,
+      "special": false
+    },
+    {
+      "id": 31004,
+      "content": "hashtag",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true,
+      "special": false
+    },
+    {
+      "id": 31005,
+      "content": "emoji",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true,
+      "special": false
     }
   ],
   "normalizer": {

tokenizer_config.json CHANGED Viewed

@@ -3,12 +3,12 @@
   "do_basic_tokenize": true,
   "do_lower_case": false,
   "mask_token": "[MASK]",
-  "model_max_length": 512,
-  "name_or_path": "dccuchile/bert-base-spanish-wwm-cased",
   "never_split": null,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
-  "special_tokens_map_file": "/root/.cache/huggingface/hub/models--dccuchile--bert-base-spanish-wwm-cased/snapshots/56a7647b957a4230fc3f80dafbe80f2ba9b0de73/special_tokens_map.json",
   "strip_accents": false,
   "tokenize_chinese_chars": true,
   "tokenizer_class": "BertTokenizer",

   "do_basic_tokenize": true,
   "do_lower_case": false,
   "mask_token": "[MASK]",
+  "model_max_length": 256,
+  "name_or_path": "piubamas/betonews-tweetcontext",
   "never_split": null,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
+  "special_tokens_map_file": "/home/jmperez/.cache/huggingface/transformers/9848a00af462c42dfb4ec88ef438fbab5256330f7f6f50badc48d277f9367d49.f982506b52498d4adb4bd491f593dc92b2ef6be61bfdbe9d30f53f963f9f5b66",
   "strip_accents": false,
   "tokenize_chinese_chars": true,
   "tokenizer_class": "BertTokenizer",