nokazaki commited on
Commit
bbe8711
·
verified ·
1 Parent(s): ef89ecf

Fixed some explanations.

Browse files
Files changed (1) hide show
  1. README_ja.md +6 -6
README_ja.md CHANGED
@@ -1,12 +1,12 @@
1
  # Swallow Edu Classifier
2
 
3
- ## モデルの概要
4
 
5
- **注意**:日本語でのみ動作します。英語やそれ以外の言語での品質は保証しません。
6
 
7
- 日本語ウェブページの教育的価値を判定する fastText 分類器です。本リポジトリには学術カテゴリに属する日本語 Wikipedia テキストを元に訓練された分類器(**Wiki-based classifier**)と、LLM によるアノテーションを元に訓練された分類器(**LLM-based classifier**)が含まれます。前者には[CC BY-SA 4.0](https://huggingface.co/tokyotech-llm/edu-classifier/blob/main/CC_BY-SA_4.0.md)、後者にはアノテーションに使用された LLM に応じたライセンス([Llama 3.1 Community License Agreement](https://huggingface.co/tokyotech-llm/edu-classifier/blob/main/LLAMA_3.1_COMMUNITY_LICENSE_AGREEMENT.md)、[Gemma Terms of Use](https://huggingface.co/tokyotech-llm/edu-classifier/blob/main/GEMMA_TERMS_OF_USE.md))が適用されます。
8
 
9
- これらの分類器は、[Llama 3.1 Swallow](https://huggingface.co/collections/tokyotech-llm/llama-31-swallow-66fd4f7da32705cadd1d5bc6)シリーズの訓練に用いられた \*Swallow コーパス v2 の品質フィルタリングの一環として開発されました。Ablation 実験では、分類器のスコアに基づくフィルタリングの適用により、同等の計算規模の学習で、より効果的に LLM の日本語知識が向上することを確認しました。
10
 
11
  \* Common Crawl 由来の大規模日本語コーパス
12
 
@@ -45,7 +45,7 @@ edu_score = sum([int(label[-1]) * prob for label, prob in zip(res[0], res[1])])
45
 
46
  ### ベストプラクティス
47
 
48
- 研究では、どちらの分類器も有効であることを確認していますが、より広範な文書に適切な序列のスコアを付与したい場合には、LLM-based classifier の使用を推奨します。Wiki-based classifier は一部の有用な文書の検出に特化しており、ほとんどの文書には 0 付近のスコアを付与する傾向にあります。一方、LLM-based classifier はより一般的な教育的価値の定義に基づいた採点をすることができます。
49
 
50
  ## 訓練
51
 
@@ -65,7 +65,7 @@ Wikipedia 記事を教育的な文書の正例と見なし、分類器を構築
65
 
66
  ## 謝辞
67
 
68
- この成果は、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)の委託業務(JPNP18002)の結果得られたものです。また、LLM の継続事前学習の実験では、国立研究開発法人産業技術総合研究所が構築・運用する AI 橋渡しクラウド(ABCI: AI Bridging Cloud Infrastructure)の「大規模言語モデル構築支援プログラム」の支援を受けました。この成果は、産総研政策予算プロジェクト「フィジカル領域の生成 AI 基盤モデルに関する研究開発」の結果得られました。
69
 
70
  ## 引用
71
 
 
1
  # Swallow Edu Classifier
2
 
3
+ ## 概要
4
 
5
+ 日本語ウェブページの教育的価値を判定する fastText 分類器です。本リポジトリには学術カテゴリに属する日本語 Wikipedia テキストを基に訓練された分類器(**Wiki-based classifier**)と、LLM による自動アノテーションを基に訓練された分類器(**LLM-based classifier**)が含まれます。前者は[CC BY-SA 4.0](https://huggingface.co/tokyotech-llm/edu-classifier/blob/main/CC_BY-SA_4.0.md)、後者は自動アノテーションに利用した LLM から継承されるライセンス([Llama 3.1 Community License Agreement](https://huggingface.co/tokyotech-llm/edu-classifier/blob/main/LLAMA_3.1_COMMUNITY_LICENSE_AGREEMENT.md)、もしくは[Gemma Terms of Use](https://huggingface.co/tokyotech-llm/edu-classifier/blob/main/GEMMA_TERMS_OF_USE.md))で利用できます。
6
 
7
+ これらの分類器は、Swallow コーパス v2\* の品質フィルタリングに採用され、[Llama 3.1 Swallow](https://huggingface.co/collections/tokyotech-llm/llama-31-swallow-66fd4f7da32705cadd1d5bc6)シリーズの訓練に用いられました。実験では、分類器のスコアに基づくフィルタリングの適用により、同等の計算規模の学習で、LLM の日本語知識をより効果的に向上できることを確認しました。
8
 
9
+ **注意**:日本語テキストに対して動作するように設計されています。英語を含めて、日本語以外の言語での動作や品質は保証しません。
10
 
11
  \* Common Crawl 由来の大規模日本語コーパス
12
 
 
45
 
46
  ### ベストプラクティス
47
 
48
+ 研究では、どちらの分類器も有効であることを確認していますが、多様な文書に適切なスコアを付与したい場合には、LLM-based classifier の使用を推奨します。Wiki-based classifier Wikipedia らしさを測定するため、有用と判定される文書の範囲が限定され、ほとんどの文書に 0 付近のスコアを付与する傾向にあります。一方、LLM-based classifier はより教育的価値の定義に基づき、より広範囲な文書に対して採点できます。
49
 
50
  ## 訓練
51
 
 
65
 
66
  ## 謝辞
67
 
68
+ この成果は、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)の委託業務(JPNP18002)、および産総研政策予算プロジェクト「フィジカル領域の生成 AI 基盤モデルに関する研究開発」の結果得られたものです。また、LLM の継続事前学習の実験では、国立研究開発法人産業技術総合研究所が構築・運用する AI 橋渡しクラウド(ABCI: AI Bridging Cloud Infrastructure)の「大規模言語モデル構築支援プログラム」の支援を受けました。
69
 
70
  ## 引用
71