日本語モデルカード/Japanese model card

日本語のブログ/Full Japanese dev blog

Development source code/開発ソースコード

Karasu-DPO-7B

This is a Japanese version of the Qwen/Qwen2.5-7B-Instruct model which was DPO trained using synthetic Japanese conversation data.

This model outperforms the base Qwen/Qwen2.5-7B-Instruct model on the arena-hard-auto-multilingual chat benchmark:

Qwen2.5-7B-Instruct Karasu-DPO-7B
50.0 66.2

We recommend this model for use as a general conversation AI.

How to use

This model can be used in the same way as any Qwen 2.5 model. We recommend using vLLM for simplicity and speed.

  • vLLM

    Install vLLM using pip install vllm.

    Show vLLM code
    from vllm import LLM, SamplingParams
    
    llm = LLM(
        model="lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese",
        max_model_len=8_000
    )
    
    sampling_params = SamplingParams(
        temperature=0.0, 
        max_tokens=8_000,
    )
    
    prompts = [
        """ナイジェリアの首都はどこですか?""",
        """鉄は何度に溶けますか?""",
        """父が好きそうなプレゼントのおすすめを教えて""",
    ]
    
    conversations = [
        [{"role": "user", "content": x}] for x in prompts
    ]
    
    outputs = llm.chat(conversations, sampling_params=sampling_params)
    
    for output in outputs:
        print(output.outputs[0].text)
        print("-"*32)
    
    # ナイジェリアの首都はアブジャ(Abuja)です。以前はラゴスが首都でしたが、1991年に新しい首都としてアブジャが建設され、1991年12月12日に首都としての地位を正式に取得しました。アブジャは政治中心地として機能していますが、経済の中心地は依然としてラゴスが占めています。
    # --------------------------------
    # 鉄は非常に高い温度で溶けます。鉄の融点は約1,538℃(2,800°F)です。これは、一般的な家庭用のオーブン(最大約200-300℃)では絶対に達成できません。鉄を溶かすためには、より高温の設備が必要で、例えば、電気炉やガス炉などがあります。
    # --------------------------------
    # もちろんです。父さんへのプレゼント選びは楽しみですね。以下に、父が喜ぶ2つのプレゼントを提案します:
    
    # 1. **高級コーヒーメーカー**:
    #    - 父さんがコーヒーを愛飲しているなら、高品質なコーヒーメーカーは大変喜ばれるプレゼントです。例えば、手動式のコーヒーメーカーなら、毎日のコーヒー作りがより楽しく、手作り感も楽しめます。また、自動式のコーヒーメーカーなら、忙しい朝でも美味しいコーヒーが楽しめます。
    
    # 2. **趣味に合わせたギフトセット**:
    #    - 父さんの趣味や興味に合わせたギフトセットは、とても喜ばれます。例えば、ゴルフ好きなら、最新のゴルフクラブやゴルフバッグ、ゴルフボールセットなどが良いでしょう。また、車好きなら、高品質な車用アクセサリー(カーフィルム、カーボンシートなど)や車載用の充電器などが喜ばれます。
    
    # これらのプレゼントは、父さんの趣味や興味に合わせて選べば、きっと喜んでもらえることでしょう。
    # --------------------------------
    

    How this model was made

    We made this model through the following procedure:

    1. Sample Japanese and English prompts from the following datasets:
      • lmsys/lmsys-chat-1m
      • RyokoAI/ShareGPT52K
      • openchat/openchat_sharegpt_v3
      • OpenAssistant/oasst2
      • Open-Orca/slimorca-deduped-cleaned-corrected
      • HuggingFaceH4/ultrachat_200k
    2. Translate English prompts to Japanese using gpt-4o-mini.
    3. Correct translations with gpt-4o-mini.
    4. Get responses to all Japanese prompts (both original and translated) with gpt-4o-mini.
    5. Correct responses using gpt-4o-mini.

    We QLoRA DPO trained a Qwen/Qwen2.5-7B-Instruct model on this data to create Karasu-DPO-7B.

    日本語

    こちらのモデルはQwen/Qwen2.5-7B-Instructの日本語版です。生成した日本語会話データとDPO学習で作成しました。

    このモデルは、arena-hard-auto-multilingualチャットベンチマークにおいて、ベースモデルであるQwen/Qwen2.5-7B-Instructを上回る性能を発揮します:

    Qwen2.5-7B-Instruct Karasu-DPO-7B
    50.0 66.2

    このモデルは、一般的な会話AIとしての使用を推奨します。

    使用方法

    このモデルは、他のQwen 2.5モデルと同様の方法で使用できます。シンプルで高速な操作のためにはvLLMの使用を推奨します。

    • vLLM

      vLLMpip install vllmでインストールしてください。

      vLLMコードを見る
      from vllm import LLM, SamplingParams
      
      llm = LLM(
          model="lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese",
          max_model_len=8_000
      )
      
      sampling_params = SamplingParams(
          temperature=0.0, 
          max_tokens=8_000,
      )
      
      prompts = [
          """ナイジェリアの首都はどこですか?""",
          """鉄は何度に溶けますか?""",
          """父が好きそうなプレゼントのおすすめを教えて""",
      ]
      
      conversations = [
          [{"role": "user", "content": x}] for x in prompts
      ]
      
      outputs = llm.chat(conversations, sampling_params=sampling_params)
      
      for output in outputs:
          print(output.outputs[0].text)
          print("-"*32)
      
      # ナイジェリアの首都はアブジャ(Abuja)です。以前はラゴスが首都でしたが、1991年に新しい首都としてアブジャが建設され、1991年12月12日に首都としての地位を正式に取得しました。アブジャは政治中心地として機能していますが、経済の中心地は依然としてラゴスが占めています。
      # --------------------------------
      # 鉄は非常に高い温度で溶けます。鉄の融点は約1,538℃(2,800°F)です。これは、一般的な家庭用のオーブン(最大約200-300℃)では絶対に達成できません。鉄を溶かすためには、より高温の設備が必要で、例えば、電気炉やガス炉などがあります。
      # --------------------------------
      # もちろんです。父さんへのプレゼント選びは楽しみですね。以下に、父が喜ぶ2つのプレゼントを提案します:
      
      # 1. **高級コーヒーメーカー**:
      #    - 父さんがコーヒーを愛飲しているなら、高品質なコーヒーメーカーは大変喜ばれるプレゼントです。例えば、手動式のコーヒーメーカーなら、毎日のコーヒー作りがより楽しく、手作り感も楽しめます。また、自動式のコーヒーメーカーなら、忙しい朝でも美味しいコーヒーが楽しめます。
      
      # 2. **趣味に合わせたギフトセット**:
      #    - 父さんの趣味や興味に合わせたギフトセットは、とても喜ばれます。例えば、ゴルフ好きなら、最新のゴルフクラブやゴルフバッグ、ゴルフボールセットなどが良いでしょう。また、車好きなら、高品質な車用アクセサリー(カーフィルム、カーボンシートなど)や車載用の充電器などが喜ばれます。
      
      # これらのプレゼントは、父さんの趣味や興味に合わせて選べば、きっと喜んでもらえることでしょう。
      # --------------------------------
      

      このモデルの作成方法

      このモデルは以下の手順を通して作成されました:

      1. 以下のデータセットから日本語および英語のプロンプトをサンプリング:
        • lmsys/lmsys-chat-1m
        • RyokoAI/ShareGPT52K
        • openchat/openchat_sharegpt_v3
        • OpenAssistant/oasst2
        • Open-Orca/slimorca-deduped-cleaned-corrected
        • HuggingFaceH4/ultrachat_200k
      2. 英語のプロンプトをgpt-4o-miniを使って日本語に翻訳。
      3. gpt-4o-miniを使って翻訳を修正。
      4. 日本語のプロンプト(オリジナルと翻訳の両方)に対する応答をgpt-4o-miniで取得。
      5. gpt-4o-miniを使用して応答を修正。

      Qwen/Qwen2.5-7B-Instructモデルを基に、QLoRA DPOトレーニングを行い、Karasu-DPO-7Bを作成しました。

      Model Details

      • Model size: 7B
      • Context length: 1024
      • Language: Japanese

      Training Procudure

      • learning_rate: 5e-6
      • train_batch_size: 4
      • eval_batch_size: 2
      • gradient_accumulation_steps: 4
      • lr_scheduler_type: cosine

      Training Results

      Step Traning Loss Validation Loss
      10 0.678400 0.665870
      20 0.608500 0.638361
      30 0.577300 0.607468
      40 0.526700 0.559432
      50 0.489200 0.523419
      60 0.502800 0.511645
      70 0.462300 0.506989
      80 0.419600 0.509142
      90 0.445200 0.510396
      100 0.424400 0.511653

      License

      We share this model under an Apache 2.0 license.

      Developed by

      Lightblue technology logo

      This model was trained by Jun Sashihara (junsashihara) and supervised by Peter Devine (ptrdvn) for Lightblue。

Downloads last month
37
Safetensors
Model size
7.62B params
Tensor type
BF16
·
Inference Providers NEW
This model is not currently available via any of the supported third-party Inference Providers, and the model is not deployed on the HF Inference API.

Model tree for lightblue/Karasu-DPO-7B

Base model

Qwen/Qwen2.5-7B
Finetuned
(278)
this model
Merges
1 model
Quantizations
2 models

Dataset used to train lightblue/Karasu-DPO-7B