wangyuxin
commited on
Commit
•
92e1bdd
1
Parent(s):
5c8ab9a
fix typo
Browse files
README.md
CHANGED
@@ -115,8 +115,6 @@ M3E 使用 in-batch 负采样的对比学习的方式在句对数据集进行训
|
|
115 |
| SimCLUE | 百科 | 775,593 | 平行语义 | 相似 | 良 | 数据集合,请在 simCLUE 中查看 | 整合了中文领域绝大多数可用的开源的语义相似度和自然语言推理的数据集,并重新做了数据拆分和整理。 | 是 | 否 | 否 | 是 | https://github.com/CLUEbenchmark/SimCLUE | 是 |
|
116 |
| Chinese-SQuAD | 新闻 | 76,449 | 机器阅读理解 | 问答 | 优 | junzeng-pluto | 中文机器阅读理解数据集,通过机器翻译加人工校正的方式从原始Squad转换而来 | 是 | 否 | 否 | 是 | https://github.com/pluto-junzeng/ChineseSquad | 否 |
|
117 |
|
118 |
-
## Case Study
|
119 |
-
在T2Ranking上我们测试了M3E与其它中文Embedding模型的效果,输入query"请帮我找出边塞诗",来返回5个最相似的结果,仅M3E-small就可以检索出类似于“大漠孤烟直,长河落日圆”的诗歌文本,而文本中是不存在“边塞”字样。在text2vec-base-chinese测试,全部返回不相关的内容。还有一些有趣的例子,例如输入query“你知道变形金钢吗”,可以检索出擎天柱,战斗机,汽车人,而“变形金刚”并不存在于文本之中。
|
120 |
## 计划表
|
121 |
|
122 |
- [ ] 完成 MTEB 中文评测 BenchMark
|
@@ -140,7 +138,7 @@ Please cite this model using the following format:
|
|
140 |
```
|
141 |
@software {Moka Massive Mixed Embedding,
|
142 |
author = {Wang Yuxin,Sun Qingxuan,He sicheng},
|
143 |
-
title = {
|
144 |
year = {2023}
|
145 |
}
|
146 |
```
|
|
|
115 |
| SimCLUE | 百科 | 775,593 | 平行语义 | 相似 | 良 | 数据集合,请在 simCLUE 中查看 | 整合了中文领域绝大多数可用的开源的语义相似度和自然语言推理的数据集,并重新做了数据拆分和整理。 | 是 | 否 | 否 | 是 | https://github.com/CLUEbenchmark/SimCLUE | 是 |
|
116 |
| Chinese-SQuAD | 新闻 | 76,449 | 机器阅读理解 | 问答 | 优 | junzeng-pluto | 中文机器阅读理解数据集,通过机器翻译加人工校正的方式从原始Squad转换而来 | 是 | 否 | 否 | 是 | https://github.com/pluto-junzeng/ChineseSquad | 否 |
|
117 |
|
|
|
|
|
118 |
## 计划表
|
119 |
|
120 |
- [ ] 完成 MTEB 中文评测 BenchMark
|
|
|
138 |
```
|
139 |
@software {Moka Massive Mixed Embedding,
|
140 |
author = {Wang Yuxin,Sun Qingxuan,He sicheng},
|
141 |
+
title = {M3E: Moka Massive Mixed Embedding Model},
|
142 |
year = {2023}
|
143 |
}
|
144 |
```
|