Fill-Mask
Transformers
PyTorch
Japanese
bert
Inference Endpoints

JQaRA の評価方法

#1
by hotchpotch - opened

初めまして。JQaRA を作った @hotchpotch という物です。日本語 Splade モデルの公開、ありがとうございます。

今、Spladeモデルの評価をしておりまして、記載されている JQaRA のスコアの評価方法を、教えていただくことは可能でしょうか?

このコードでは、出力logitsに splade max pooling を適用した物を、dot productで類似スコア付けして評価しております。

結果は以下となり、記載されているスコアと差がありまして。私の評価方法が間違っている可能性も高そうでして、可能でしたら評価方法をご教示いただけますと幸いです。

$ python main.py --no_cache  -m aken12/splade-japanese-v3 aken12/splade-japanese-efficient
#    Model                      NDCG@10    MRR@10    NDCG@100    MRR@100
---  -------------------------  ---------  --------  ----------  ---------
a    splade-japanese-v3         0.476ᵇ     0.713ᵇ    0.678ᵇ      0.717ᵇ
b    splade-japanese-efficient  0.392      0.608     0.623       0.615

よろしくお願いいたします。

こちら、query, docs の token length の記載を見落としておりました。token length を指定したところ、ほぼ同等のスコアとなりました。お騒がせしました。

$  python main.py --no_cache  -m aken12/splade-japanese-v3 -- --query_max_length 32 --document_max_length 180
#    Model                 NDCG@10    MRR@10    NDCG@100    MRR@100
---  ------------------  ---------  --------  ----------  ---------
a    splade-japanese-v3      0.504      0.77       0.699      0.774

確認が遅くなってしまって申し訳ありません.
はじめまして,こちらこそJQaRA やRerankerの公開ありがとうございます.
解決できたようなのでよかったです.

hotchpotch changed discussion status to closed

Sign up or log in to comment