Karasu-DPO-7B

This is a Japanese version of the Qwen/Qwen2.5-7B-Instruct model which was DPO trained using synthetic Japanese conversation data.

This model outperforms the base Qwen/Qwen2.5-7B-Instruct model on the arena-hard-auto-multilingual chat benchmark:

Qwen2.5-7B-Instruct	Karasu-DPO-7B
50.0	66.2

We recommend this model for use as a general conversation AI.

How to use

This model can be used in the same way as any Qwen 2.5 model. We recommend using vLLM for simplicity and speed.

vLLM

Install vLLM using pip install vllm.

Show vLLM code

from vllm import LLM, SamplingParams

llm = LLM(
    model="lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese",
    max_model_len=8_000
)

sampling_params = SamplingParams(
    temperature=0.0, 
    max_tokens=8_000,
)

prompts = [
    """ナイジェリアの首都はどこですか？""",
    """鉄は何度に溶けますか？""",
    """父が好きそうなプレゼントのおすすめを教えて""",
]

conversations = [
    [{"role": "user", "content": x}] for x in prompts
]

outputs = llm.chat(conversations, sampling_params=sampling_params)

for output in outputs:
    print(output.outputs[0].text)
    print("-"*32)

# ナイジェリアの首都はアブジャ（Abuja）です。以前はラゴスが首都でしたが、1991年に新しい首都としてアブジャが建設され、1991年12月12日に首都としての地位を正式に取得しました。アブジャは政治中心地として機能していますが、経済の中心地は依然としてラゴスが占めています。
# --------------------------------
# 鉄は非常に高い温度で溶けます。鉄の融点は約1,538℃（2,800°F）です。これは、一般的な家庭用のオーブン（最大約200-300℃）では絶対に達成できません。鉄を溶かすためには、より高温の設備が必要で、例えば、電気炉やガス炉などがあります。
# --------------------------------
# もちろんです。父さんへのプレゼント選びは楽しみですね。以下に、父が喜ぶ2つのプレゼントを提案します：

# 1. **高級コーヒーメーカー**：
#    - 父さんがコーヒーを愛飲しているなら、高品質なコーヒーメーカーは大変喜ばれるプレゼントです。例えば、手動式のコーヒーメーカーなら、毎日のコーヒー作りがより楽しく、手作り感も楽しめます。また、自動式のコーヒーメーカーなら、忙しい朝でも美味しいコーヒーが楽しめます。

# 2. **趣味に合わせたギフトセット**：
#    - 父さんの趣味や興味に合わせたギフトセットは、とても喜ばれます。例えば、ゴルフ好きなら、最新のゴルフクラブやゴルフバッグ、ゴルフボールセットなどが良いでしょう。また、車好きなら、高品質な車用アクセサリー（カーフィルム、カーボンシートなど）や車載用の充電器などが喜ばれます。

# これらのプレゼントは、父さんの趣味や興味に合わせて選べば、きっと喜んでもらえることでしょう。
# --------------------------------

How this model was made

We made this model through the following procedure:

Sample Japanese and English prompts from the following datasets:
- lmsys/lmsys-chat-1m
- RyokoAI/ShareGPT52K
- openchat/openchat_sharegpt_v3
- OpenAssistant/oasst2
- Open-Orca/slimorca-deduped-cleaned-corrected
- HuggingFaceH4/ultrachat_200k
Translate English prompts to Japanese using gpt-4o-mini.
Correct translations with gpt-4o-mini.
Get responses to all Japanese prompts (both original and translated) with gpt-4o-mini.
Correct responses using gpt-4o-mini.

We QLoRA DPO trained a Qwen/Qwen2.5-7B-Instruct model on this data to create Karasu-DPO-7B.

日本語

こちらのモデルはQwen/Qwen2.5-7B-Instructの日本語版です。生成した日本語会話データとDPO学習で作成しました。

このモデルは、arena-hard-auto-multilingualチャットベンチマークにおいて、ベースモデルであるQwen/Qwen2.5-7B-Instructを上回る性能を発揮します：

Qwen2.5-7B-Instruct	Karasu-DPO-7B
50.0	66.2

このモデルは、一般的な会話AIとしての使用を推奨します。

使用方法

このモデルは、他のQwen 2.5モデルと同様の方法で使用できます。シンプルで高速な操作のためにはvLLMの使用を推奨します。

vLLM

vLLMをpip install vllmでインストールしてください。

vLLMコードを見る

from vllm import LLM, SamplingParams

llm = LLM(
    model="lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese",
    max_model_len=8_000
)

sampling_params = SamplingParams(
    temperature=0.0, 
    max_tokens=8_000,
)

prompts = [
    """ナイジェリアの首都はどこですか？""",
    """鉄は何度に溶けますか？""",
    """父が好きそうなプレゼントのおすすめを教えて""",
]

conversations = [
    [{"role": "user", "content": x}] for x in prompts
]

outputs = llm.chat(conversations, sampling_params=sampling_params)

for output in outputs:
    print(output.outputs[0].text)
    print("-"*32)

# ナイジェリアの首都はアブジャ（Abuja）です。以前はラゴスが首都でしたが、1991年に新しい首都としてアブジャが建設され、1991年12月12日に首都としての地位を正式に取得しました。アブジャは政治中心地として機能していますが、経済の中心地は依然としてラゴスが占めています。
# --------------------------------
# 鉄は非常に高い温度で溶けます。鉄の融点は約1,538℃（2,800°F）です。これは、一般的な家庭用のオーブン（最大約200-300℃）では絶対に達成できません。鉄を溶かすためには、より高温の設備が必要で、例えば、電気炉やガス炉などがあります。
# --------------------------------
# もちろんです。父さんへのプレゼント選びは楽しみですね。以下に、父が喜ぶ2つのプレゼントを提案します：

# 1. **高級コーヒーメーカー**：
#    - 父さんがコーヒーを愛飲しているなら、高品質なコーヒーメーカーは大変喜ばれるプレゼントです。例えば、手動式のコーヒーメーカーなら、毎日のコーヒー作りがより楽しく、手作り感も楽しめます。また、自動式のコーヒーメーカーなら、忙しい朝でも美味しいコーヒーが楽しめます。

# 2. **趣味に合わせたギフトセット**：
#    - 父さんの趣味や興味に合わせたギフトセットは、とても喜ばれます。例えば、ゴルフ好きなら、最新のゴルフクラブやゴルフバッグ、ゴルフボールセットなどが良いでしょう。また、車好きなら、高品質な車用アクセサリー（カーフィルム、カーボンシートなど）や車載用の充電器などが喜ばれます。

# これらのプレゼントは、父さんの趣味や興味に合わせて選べば、きっと喜んでもらえることでしょう。
# --------------------------------

このモデルの作成方法

このモデルは以下の手順を通して作成されました：

以下のデータセットから日本語および英語のプロンプトをサンプリング：
- lmsys/lmsys-chat-1m
- RyokoAI/ShareGPT52K
- openchat/openchat_sharegpt_v3
- OpenAssistant/oasst2
- Open-Orca/slimorca-deduped-cleaned-corrected
- HuggingFaceH4/ultrachat_200k
英語のプロンプトをgpt-4o-miniを使って日本語に翻訳。
gpt-4o-miniを使って翻訳を修正。
日本語のプロンプト（オリジナルと翻訳の両方）に対する応答をgpt-4o-miniで取得。
gpt-4o-miniを使用して応答を修正。

Qwen/Qwen2.5-7B-Instructモデルを基に、QLoRA DPOトレーニングを行い、Karasu-DPO-7Bを作成しました。

Model Details

Model size: 7B
Context length: 1024
Language: Japanese

Training Procudure

learning_rate: 5e-6
train_batch_size: 4
eval_batch_size: 2
gradient_accumulation_steps: 4
lr_scheduler_type: cosine

Training Results

Step	Traning Loss	Validation Loss
10	0.678400	0.665870
20	0.608500	0.638361
30	0.577300	0.607468
40	0.526700	0.559432
50	0.489200	0.523419
60	0.502800	0.511645
70	0.462300	0.506989
80	0.419600	0.509142
90	0.445200	0.510396
100	0.424400	0.511653

License

We share this model under an Apache 2.0 license.

Developed by

This model was trained by Jun Sashihara (junsashihara) and supervised by Peter Devine (ptrdvn) for Lightblue。

lightblue
/

Karasu-DPO-7B