Fixed some explanations.
Browse files- README_ja.md +6 -6
README_ja.md
CHANGED
@@ -1,12 +1,12 @@
|
|
1 |
# Swallow Edu Classifier
|
2 |
|
3 |
-
##
|
4 |
|
5 |
-
|
6 |
|
7 |
-
|
8 |
|
9 |
-
|
10 |
|
11 |
\* Common Crawl 由来の大規模日本語コーパス
|
12 |
|
@@ -45,7 +45,7 @@ edu_score = sum([int(label[-1]) * prob for label, prob in zip(res[0], res[1])])
|
|
45 |
|
46 |
### ベストプラクティス
|
47 |
|
48 |
-
|
49 |
|
50 |
## 訓練
|
51 |
|
@@ -65,7 +65,7 @@ Wikipedia 記事を教育的な文書の正例と見なし、分類器を構築
|
|
65 |
|
66 |
## 謝辞
|
67 |
|
68 |
-
この成果は、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)の委託業務(JPNP18002
|
69 |
|
70 |
## 引用
|
71 |
|
|
|
1 |
# Swallow Edu Classifier
|
2 |
|
3 |
+
## 概要
|
4 |
|
5 |
+
日本語ウェブページの教育的価値を判定する fastText 分類器です。本リポジトリには学術カテゴリに属する日本語 Wikipedia テキストを基に訓練された分類器(**Wiki-based classifier**)と、LLM による自動アノテーションを基に訓練された分類器(**LLM-based classifier**)が含まれます。前者は[CC BY-SA 4.0](https://huggingface.co/tokyotech-llm/edu-classifier/blob/main/CC_BY-SA_4.0.md)、後者は自動アノテーションに利用した LLM から継承されるライセンス([Llama 3.1 Community License Agreement](https://huggingface.co/tokyotech-llm/edu-classifier/blob/main/LLAMA_3.1_COMMUNITY_LICENSE_AGREEMENT.md)、もしくは[Gemma Terms of Use](https://huggingface.co/tokyotech-llm/edu-classifier/blob/main/GEMMA_TERMS_OF_USE.md))で利用できます。
|
6 |
|
7 |
+
これらの分類器は、Swallow コーパス v2\* の品質フィルタリングに採用され、[Llama 3.1 Swallow](https://huggingface.co/collections/tokyotech-llm/llama-31-swallow-66fd4f7da32705cadd1d5bc6)シリーズの訓練に用いられました。実験では、分類器のスコアに基づくフィルタリングの適用により、同等の計算規模の学習で、LLM の日本語知識をより効果的に向上できることを確認しました。
|
8 |
|
9 |
+
**注意**:日本語テキストに対して動作するように設計されています。英語を含めて、日本語以外の言語での動作や品質は保証しません。
|
10 |
|
11 |
\* Common Crawl 由来の大規模日本語コーパス
|
12 |
|
|
|
45 |
|
46 |
### ベストプラクティス
|
47 |
|
48 |
+
研究では、どちらの分類器も有効であることを確認していますが、多様な文書に適切なスコアを付与したい場合には、LLM-based classifier の使用を推奨します。Wiki-based classifier は Wikipedia らしさを測定するため、有用と判定される文書の範囲が限定され、ほとんどの文書に 0 付近のスコアを付与する傾向にあります。一方、LLM-based classifier はより教育的価値の定義に基づき、より広範囲な文書に対して採点できます。
|
49 |
|
50 |
## 訓練
|
51 |
|
|
|
65 |
|
66 |
## 謝辞
|
67 |
|
68 |
+
この成果は、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)の委託業務(JPNP18002)、および産総研政策予算プロジェクト「フィジカル領域の生成 AI 基盤モデルに関する研究開発」の結果得られたものです。また、LLM の継続事前学習の実験では、国立研究開発法人産業技術総合研究所が構築・運用する AI 橋渡しクラウド(ABCI: AI Bridging Cloud Infrastructure)の「大規模言語モデル構築支援プログラム」の支援を受けました。
|
69 |
|
70 |
## 引用
|
71 |
|