wangyuxin commited on
Commit
92e1bdd
1 Parent(s): 5c8ab9a
Files changed (1) hide show
  1. README.md +1 -3
README.md CHANGED
@@ -115,8 +115,6 @@ M3E 使用 in-batch 负采样的对比学习的方式在句对数据集进行训
115
  | SimCLUE | 百科 | 775,593 | 平行语义 | 相似 | 良 | 数据集合,请在 simCLUE 中查看 | 整合了中文领域绝大多数可用的开源的语义相似度和自然语言推理的数据集,并重新做了数据拆分和整理。 | 是 | 否 | 否 | 是 | https://github.com/CLUEbenchmark/SimCLUE | 是 |
116
  | Chinese-SQuAD | 新闻 | 76,449 | 机器阅读理解 | 问答 | 优 | junzeng-pluto | 中文机器阅读理解数据集,通过机器翻译加人工校正的方式从原始Squad转换而来 | 是 | 否 | 否 | 是 | https://github.com/pluto-junzeng/ChineseSquad | 否 |
117
 
118
- ## Case Study
119
- 在T2Ranking上我们测试了M3E与其它中文Embedding模型的效果,输入query"请帮我找出边塞诗",来返回5个最相似的结果,仅M3E-small就可以检索出类似于“大漠孤烟直,长河落日圆”的诗歌文本,而文本中是不存在“边塞”字样。在text2vec-base-chinese测试,全部返回不相关的内容。还有一些有趣的例子,例如输入query“你知道变形金钢吗”,可以检索出擎天柱,战斗机,汽车人,而“变形金刚”并不存在于文本之中。
120
  ## 计划表
121
 
122
  - [ ] 完成 MTEB 中文评测 BenchMark
@@ -140,7 +138,7 @@ Please cite this model using the following format:
140
  ```
141
  @software {Moka Massive Mixed Embedding,
142
  author = {Wang Yuxin,Sun Qingxuan,He sicheng},
143
- title = {text2vec: A Tool for Text to Vector},
144
  year = {2023}
145
  }
146
  ```
 
115
  | SimCLUE | 百科 | 775,593 | 平行语义 | 相似 | 良 | 数据集合,请在 simCLUE 中查看 | 整合了中文领域绝大多数可用的开源的语义相似度和自然语言推理的数据集,并重新做了数据拆分和整理。 | 是 | 否 | 否 | 是 | https://github.com/CLUEbenchmark/SimCLUE | 是 |
116
  | Chinese-SQuAD | 新闻 | 76,449 | 机器阅读理解 | 问答 | 优 | junzeng-pluto | 中文机器阅读理解数据集,通过机器翻译加人工校正的方式从原始Squad转换而来 | 是 | 否 | 否 | 是 | https://github.com/pluto-junzeng/ChineseSquad | 否 |
117
 
 
 
118
  ## 计划表
119
 
120
  - [ ] 完成 MTEB 中文评测 BenchMark
 
138
  ```
139
  @software {Moka Massive Mixed Embedding,
140
  author = {Wang Yuxin,Sun Qingxuan,He sicheng},
141
+ title = {M3E: Moka Massive Mixed Embedding Model},
142
  year = {2023}
143
  }
144
  ```