paulhindemith
/

fasttext-jp-embedding

Feature Extraction

Model card Files Files and versions Community

paulhindemith commited on Nov 16, 2022

Commit

48dd3bc

•

1 Parent(s): 8acc99c

commit files to HF hub

Files changed (2) hide show

fasttext_jp_embedding.py +13 -1
mecab_tokenizer.py +2 -0

fasttext_jp_embedding.py CHANGED Viewed

@@ -11,14 +11,26 @@ class FastTextJpConfig(PretrainedConfig):
     """
     model_type = "fasttext_jp"
-    def __init__(self, tokenizer_class="FastTextJpTokenizer", **kwargs):
         """初期化処理
         Args:
             tokenizer_class (str, optional):
                 tokenizer_classを指定しないと、pipelineから読み込まれません。
                 config.jsonに記載されます。
         """
         kwargs["tokenizer_class"] = tokenizer_class
         super().__init__(**kwargs)

     """
     model_type = "fasttext_jp"
+    def __init__(self,
+                 vocab_size=1,
+                 hidden_size=1,
+                 tokenizer_class="FastTextJpTokenizer",
+                 **kwargs):
         """初期化処理
         Args:
             tokenizer_class (str, optional):
                 tokenizer_classを指定しないと、pipelineから読み込まれません。
                 config.jsonに記載されます。
+            vocab_size (str, optional):
+                vocab_sizeを指定しないと、pipelineから読み込まれません。
+                config.jsonに記載されます。
+            hidden_size (str, optional):
+                hidden_sizeを指定しないと、pipelineから読み込まれません。
+                config.jsonに記載されます。
         """
+        kwargs["vocab_size"] = vocab_size
+        kwargs["hidden_size"] = hidden_size
         kwargs["tokenizer_class"] = tokenizer_class
         super().__init__(**kwargs)

mecab_tokenizer.py CHANGED Viewed

@@ -12,6 +12,8 @@ class MeCabResult(NamedTuple):
 class MeCabTokenizer(PreTrainedTokenizer):
     def __init__(self,
                  hinshi: list[str] | None = None,

 class MeCabTokenizer(PreTrainedTokenizer):
+    target_hinshi: list[str] | None
+    mecab: MeCab.Tagger
     def __init__(self,
                  hinshi: list[str] | None = None,