sonoisa
/

t5-base-japanese-question-generation

Text2Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

sonoisa commited on Mar 11, 2022

Commit

d94ee31

·

1 Parent(s): 3cf8b5f

Add description of training steps

Files changed (1) hide show

README.md +17 -1

README.md CHANGED Viewed

@@ -9,4 +9,20 @@ license: cc-by-sa-4.0
 # 回答と回答が出てくるパラグラフを与えると質問文を生成するモデル
-SEE: https://github.com/sonoisa/deep-question-generation

 # 回答と回答が出てくるパラグラフを与えると質問文を生成するモデル
+SEE: https://github.com/sonoisa/deep-question-generation
+## 本モデルの作成ステップ概要
+1. [SQuAD 1.1](https://rajpurkar.github.io/SQuAD-explorer/)を日本語に機械翻訳し、不正なデータをクレンジング（有効なデータは約半分）。
+回答が含まれるコンテキスト、質問文、解答の3つ組ができる。
+2. [日本語T5モデル](https://huggingface.co/sonoisa/t5-base-japanese)を次の設定でファインチューニングを実行
+  * 入力: "answer: {解答} content: {回答が含まれるコンテキスト}"
+  * 出力: "{質問文}"
+  * 各種ハイパーパラメータ
+    * 最大入力トークン数: 512
+    * 最大出力トークン数: 64
+    * 最適化アルゴリズム: AdaFactor
+    * 学習率: 0.001（固定）
+    * バッチサイズ: 128
+    * ステップ数: 2500（500ステップごとにチェックポイントを出力、定量・定性評価を行い2500ステップ目を採用）