openbmb
/

VisCPM-Paint

@@ -27,69 +27,6 @@ language:
 Similar to `VisCPM-Chat`, we found that due to the bilingual capability of `CPM-Bee`, `VisCPM-Paint` can achieve good Chinese text-to-image generation by training only on English text-image pairs, surpassing the performance of Chinese open-source models. By incorporating an additional 20M cleaned native Chinese text-image pairs and 120M translated text-image pairs in Chinese, the model's Chinese text-to-image generation ability can be further improved. We sample 30,000 images from the standard image generation test set MSCOCO and calculated commonly used evaluation metrics FID (Fréchet Inception Distance) to assess the quality of generated images. Similarly, we provide two versions of the model, namely `VisCPM-Paint-balance` and `VisCPM-Paint-zhplus`. The former has a balanced ability in both English and Chinese, while the latter emphasizes Chinese proficiency. `VisCPM-Paint-balance` is trained only using English text-image pairs, while `VisCPM-Paint-zhplus` incorporates an additional 20M native Chinese text-image pairs and 120M translated text-image pairs in Chinese based on `VisCPM-Paint-balance`.
-<table align="center">
-    <tr>
-        <td align="center" rowspan="2">模型</td>
-        <td align="center" colspan="2">Zero-shot FID↓</td>
-    </tr>
-    <tr>
-        <td align="center">英文</td>
-        <td align="center">中文</td>
-    </tr>
-    <tr>
-        <td align="center">GLIDE</td>
-        <td align="center">12.2</td>
-        <td align="center">-</td>
-    </tr>
-    <tr>
-        <td align="center">Make-A-Scene</td>
-        <td align="center">11.8</td>
-        <td align="center">-</td>
-    </tr>
-    <tr>
-        <td align="center">DALL·E-2</td>
-        <td align="center">10.4</td>
-        <td align="center">-</td>
-    </tr>
-    <tr>
-        <td align="center">Unidiffuser</td>
-        <td align="center">9.7</td>
-        <td align="center">-</td>
-    </tr>
-    <tr>
-        <td align="center">Cogview2</td>
-        <td align="center">-</td>
-        <td align="center">24.0</td>
-    </tr>
-    <tr>
-  <td align="center">Stable Diffusion</td>
-        <td align="center"><b><span style="color:#c00000;">8.6</span></b></td>
-        <td align="center">-</td>
-    </tr>
-    <tr>
-        <td align="center">AltDiffusion</td>
-        <td align="center">17.2</td>
-        <td align="center">16.1</td>
-    </tr>
-    <tr>
-        <td align="center">TaiyiDiffusion</td>
-        <td align="center">-</td>
-        <td align="center">15.6</td>
-    </tr>
-    <tr>
-        <td align="center">VisCPM-Paint-balance</td>
-        <td align="center">9.5</td>
-        <td align="center">10.9</td>
-    </tr>
-    <tr>
-        <td align="center">VisCPM-Paint-zhplus</td>
-        <td align="center">9.9</td>
-        <td align="center"><b><span style="color:#c00000;">9.6</span></b></td>
-    </tr>
-</table>
 ## 📝 License
 VisCPM is governed by the [GML License](https://github.com/OpenBMB/General-Model-License/blob/main/%E9%80%9A%E7%94%A8%E6%A8%A1%E5%9E%8B%E8%AE%B8%E5%8F%AF%E5%8D%8F%E8%AE%AE-%E6%9D%A5%E6%BA%90%E8%AF%B4%E6%98%8E-%E5%AE%A3%E4%BC%A0%E9%99%90%E5%88%B6-%E9%9D%9E%E5%95%86%E4%B8%9A%E5%8C%96.md), and permits individual and research usages. If you intend to utilize the model for commercial purposes, please reach out to [email protected] to negotiate commercial licensing.

 Similar to `VisCPM-Chat`, we found that due to the bilingual capability of `CPM-Bee`, `VisCPM-Paint` can achieve good Chinese text-to-image generation by training only on English text-image pairs, surpassing the performance of Chinese open-source models. By incorporating an additional 20M cleaned native Chinese text-image pairs and 120M translated text-image pairs in Chinese, the model's Chinese text-to-image generation ability can be further improved. We sample 30,000 images from the standard image generation test set MSCOCO and calculated commonly used evaluation metrics FID (Fréchet Inception Distance) to assess the quality of generated images. Similarly, we provide two versions of the model, namely `VisCPM-Paint-balance` and `VisCPM-Paint-zhplus`. The former has a balanced ability in both English and Chinese, while the latter emphasizes Chinese proficiency. `VisCPM-Paint-balance` is trained only using English text-image pairs, while `VisCPM-Paint-zhplus` incorporates an additional 20M native Chinese text-image pairs and 120M translated text-image pairs in Chinese based on `VisCPM-Paint-balance`.
 ## 📝 License
 VisCPM is governed by the [GML License](https://github.com/OpenBMB/General-Model-License/blob/main/%E9%80%9A%E7%94%A8%E6%A8%A1%E5%9E%8B%E8%AE%B8%E5%8F%AF%E5%8D%8F%E8%AE%AE-%E6%9D%A5%E6%BA%90%E8%AF%B4%E6%98%8E-%E5%AE%A3%E4%BC%A0%E9%99%90%E5%88%B6-%E9%9D%9E%E5%95%86%E4%B8%9A%E5%8C%96.md), and permits individual and research usages. If you intend to utilize the model for commercial purposes, please reach out to [email protected] to negotiate commercial licensing.