hibikaze commited on
Commit
dd30d04
1 Parent(s): 7e9e46e

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +24 -6
README.md CHANGED
@@ -1,13 +1,31 @@
1
  ---
2
  license: apache-2.0
3
  ---
4
- 8bの最終
5
 
6
- phase1のtanuki-8bをllava化した。
 
7
 
8
- (動作確認用コード)
9
- ・colab(model_pathは要変更)
 
 
 
 
 
 
 
 
 
 
 
 
10
  https://github.com/matsuolab/nedo_project_code/blob/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/LLaVA-JP/demo_llava_gradio.ipynb
11
 
12
- ・ローカル
13
- https://github.com/matsuolab/nedo_project_code/blob/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/LLaVA-JP/demo_llava_gradio.py
 
 
 
 
 
 
1
  ---
2
  license: apache-2.0
3
  ---
4
+ # Tanuki-8B-vision
5
 
6
+ ## モデルについて
7
+ Tanuki-8B-visionは、LLaVA1.5に基づく視覚言語モデルです。言語モデルとして、[Tanuki-8bのphase1モデル](https://huggingface.co/weblab-GENIAC/team_hatakeyama_phase1)、画像エンコーダとして[google/siglip-so400m-patch14-384](https://huggingface.co/google/siglip-so400m-patch14-384)を使用しています。
8
 
9
+ ## 背景
10
+ - 近年、視覚言語モデル(VLM)が注目されている一方で、商用利用可能な日本語データセットは限られています。本プロジェクトでは、データの合成を活用してこの課題に取り組むとともに、80億パラメータ([Tanuki-8B-vision](https://huggingface.co/weblab-GENIAC/Tanuki-8B-vision))および500億パラメータ([Tanuki-8x8B-vision-exp](https://huggingface.co/weblab-GENIAC/Tanuki-8x8B-vision-exp))のVLMを開発しました
11
+ - VLM開発は、[GENIAC 松尾研 LLM開発プロジェクト](https://weblab.t.u-tokyo.ac.jp/geniac_llm/)の主要な開発目標としてではなく、有志の参加者によって実験的に行われました
12
+
13
+ ## 使用したコード
14
+ ### 学習
15
+ https://github.com/matsuolab/nedo_project_code/tree/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/LLaVA-JP
16
+ ### データ合成
17
+ https://github.com/matsuolab/nedo_project_code/tree/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/create-data-for-vlm
18
+ ### 評価
19
+ https://github.com/matsuolab/nedo_project_code/tree/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/heron
20
+
21
+ ## 使い方
22
+ ### colab(model_pathは要変更)
23
  https://github.com/matsuolab/nedo_project_code/blob/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/LLaVA-JP/demo_llava_gradio.ipynb
24
 
25
+ ### ローカル
26
+ https://github.com/matsuolab/nedo_project_code/blob/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/LLaVA-JP/demo_llava_gradio.py
27
+
28
+ ## 評価
29
+ ### Heron VLM リーダーボード
30
+ GPT-4による評価 (gpt-4-turbo-2024-04-09)
31
+ ![image/png](https://cdn-uploads.huggingface.co/production/uploads/627a044ccd5b87302d3cd79c/p-ds8XnScNk0nbtVuD38L.png)