2个问题
#2
by
hanswang73
- opened
- reranker 的 compute_score 返回的 score 值,是 cos 相似度还是距离?
- FlagReranker 加载 reranker 模型时怎么加载到 GPU?
- 不是 cos 相似度或者距离,是一个相关性分数,越高表示越相关。
- FlagReranker 会默认使用所有的GPU,如要指定GPU,可以设置os.environ["CUDA_VISIBLE_DEVICES"]=
reranker 的 compute_score 返回的 score 值,这个score 有没有具体范围呢?如果没有范围 ,感觉不利于阈值分析。靠topn来判定是不是相关,如果都不相关,topn估计也是相关。有个范围就好了
建议根据实际数据选择阈值,0可以作为一个大概的阈值。
这个相关性有范围嘛?如果有,上限和下限是?
没有范围
现在用的过程发现bge reranker会存在不包含主语的段落 并且质量不高的段落会排在top1 (偶尔会出现这种情况。)
例如:
query: 主体X在防守过程中使用的技术有哪些特点?
[ [2.278198480606079, "和主体X不相关,语义也不相关,只是领域相关"],
[ 0.32626819610595703,"和主体X相关,但是语义不相关,存在领域相关"],
......
[]
]
2.278在我看的那批数据里,如果达到这个值大多数都很相关,这个就不太相关,会影响阈值判断。
希望后续可以优化一下上面这2点,望采纳~
感觉反馈,后续会进一步分析并加以改进。
scores = reranker.compute_score([['what is panda?', 'hi'], ['what is panda?', 'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.']])
print(scores) 这里的分数和上面的结果如何对应
如何实现多线程部署呢