paulhindemith commited on
Commit
48dd3bc
1 Parent(s): 8acc99c

commit files to HF hub

Browse files
Files changed (2) hide show
  1. fasttext_jp_embedding.py +13 -1
  2. mecab_tokenizer.py +2 -0
fasttext_jp_embedding.py CHANGED
@@ -11,14 +11,26 @@ class FastTextJpConfig(PretrainedConfig):
11
  """
12
  model_type = "fasttext_jp"
13
 
14
- def __init__(self, tokenizer_class="FastTextJpTokenizer", **kwargs):
 
 
 
 
15
  """初期化処理
16
 
17
  Args:
18
  tokenizer_class (str, optional):
19
  tokenizer_classを指定しないと、pipelineから読み込まれません。
20
  config.jsonに記載されます。
 
 
 
 
 
 
21
  """
 
 
22
  kwargs["tokenizer_class"] = tokenizer_class
23
  super().__init__(**kwargs)
24
 
 
11
  """
12
  model_type = "fasttext_jp"
13
 
14
+ def __init__(self,
15
+ vocab_size=1,
16
+ hidden_size=1,
17
+ tokenizer_class="FastTextJpTokenizer",
18
+ **kwargs):
19
  """初期化処理
20
 
21
  Args:
22
  tokenizer_class (str, optional):
23
  tokenizer_classを指定しないと、pipelineから読み込まれません。
24
  config.jsonに記載されます。
25
+ vocab_size (str, optional):
26
+ vocab_sizeを指定しないと、pipelineから読み込まれません。
27
+ config.jsonに記載されます。
28
+ hidden_size (str, optional):
29
+ hidden_sizeを指定しないと、pipelineから読み込まれません。
30
+ config.jsonに記載されます。
31
  """
32
+ kwargs["vocab_size"] = vocab_size
33
+ kwargs["hidden_size"] = hidden_size
34
  kwargs["tokenizer_class"] = tokenizer_class
35
  super().__init__(**kwargs)
36
 
mecab_tokenizer.py CHANGED
@@ -12,6 +12,8 @@ class MeCabResult(NamedTuple):
12
 
13
 
14
  class MeCabTokenizer(PreTrainedTokenizer):
 
 
15
 
16
  def __init__(self,
17
  hinshi: list[str] | None = None,
 
12
 
13
 
14
  class MeCabTokenizer(PreTrainedTokenizer):
15
+ target_hinshi: list[str] | None
16
+ mecab: MeCab.Tagger
17
 
18
  def __init__(self,
19
  hinshi: list[str] | None = None,