fineweb-2-japanese-text-cleaner / README.md

Update README.md

f6d347c verified 18 days ago

3.57 kB

	---
	license: mit
	datasets:
	- hotchpotch/fineweb-2-japanese-noise-spans
	- hpprc/jawiki-paragraphs
	language:
	- ja
	base_model:
	- hotchpotch/mMiniLMv2-L6-H384
	---

	# Web文章特有のノイズを取り除く機械学習モデル

	Webから取得した日本語文章には、特有のボイラープレートやノイズが含まれます。例えば、以下のような文章です。

	```
	この文章は90日以上更新の無いサイトに表示されています。
	ログインログアウト

	本当に必要な文章以外にも、さまざまなノイズが含まれていることがあります。例えば、この文章もその一例です。本来不要なテキストが入ってしまうことがこのようにあるでしょう。

	今なら50%オフ！クリックしてリンク先の商品を表示

	とりわけ文章長が短い場合、文章のほとんどがノイズを含む可能性があります。それらを取り除くことで、より高品質の文章を抽出できないかと考えています。

	前のページ次のページ
	```

	文章をこのモデルで推論することで、以下のようにノイズ箇所を判定できます。

	```
	[NOISE]この文章は90日以上更新の無いサイトに表示されています。[/NOISE]
	[NOISE]ログイン[/NOISE] [NOISE]ログアウト[/NOISE]

	本当に必要な文章以外にも、さまざまなノイズが含まれていることがあります。例えば、この文章もその一例です。本来不要なテキストが入ってしまうことがこのようにあるでしょう。
	[NOISE]
	今なら50%オフ！クリックしてリンク先の商品を表示[/NOISE]

	とりわけ文章長が短い場合、文章のほとんどがノイズを含む可能性があります。それらを取り除くことで、より高品質の文章を抽出できないかと考えています。

	[NOISE]前のページ[/NOISE] [NOISE]次のページ[/NOISE]
	```

	## ノイズ判定のスクリプト例

	以下を参照ください

	- https://huggingface.co/hotchpotch/fineweb-2-japanese-text-cleaner/blob/main/scripts/noise_detecter.py



	## 学習方法

	ノイズ判定の教師データは[fineweb-2-japanese-noise-spans](https://huggingface.co/datasets/hotchpotch/fineweb-2-japanese-noise-spans)を使っています。このデータセットの作成には、[cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese](https://huggingface.co/cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese)を利用しました。

	また、ノイズがない正解データとして、日本語wikipediaのパラグラフ[hpprc/jawiki-paragraphs](https://huggingface.co/datasets/hpprc/jawiki-paragraphs)から20万件ランダムサンプリングしたデータを利用しています。

	これらを、[このスクリプト](https://huggingface.co/hotchpotch/fineweb-2-japanese-text-cleaner/blob/main/scripts/trainer-fineweb-2-japanese-text-cleaner.py)で学習しています。

	## ⚠️注意

	このモデルは、入力トークン最大長は512です。学習データも、512トークン以下のデータを利用しています。

	全てのノイズは正常に取り除けるわけではなく、場合によってはノイズでないデータもノイズと判定することが発生します。

	そのため、ノイズ判定の閾値を例えば0.7にあげたり、短すぎる文字はノイズと判定しない等の処理が必要かも知れません。

	## ライセンス

	このモデルのライセンスは MIT ライセンスとします。