关于预训练和微调数据集构造请教

#14
by Fspace - opened

谢谢您开源的这么好的模型。
注意到您在论文中谈到 两阶段您都是使用对比学习来训练模型。请问你的两阶段的数据集格式是怎样的呢?一个batch是形如【{q_1, d_1}, {q_2, d_2}...{q_n, d_n}】这样的吗?一个batch内 的其他 q_i, d_i 作为 q_i的负样本吗?还是形如【q, q_正样本, q_负样本1,...., q_负样本n 】, 您在预训练阶段 这种正样本,负样本是怎么得到的呢?期待您的回答。

还是说您在无监督预训练阶段,利用simcse的手段, 使用同一句话 通过不同dropout之类的数据增强手段作为正样本,使用其他训练好的编码器采样,形成负样本,构造出三元组,进行对比学习的训练呢?

还有一个问题请教, 利用您的模型,是直接取 最后的一层的token mean pooling 做句子表征,(这里的token 包含第一个cls吗?),如果我想要利用您的模型做检索(非对称)和语义相似度(对称)两个任务,都是直接 利用此模型得到query embedding 然后利用余弦计算 query_embedding 和 corpus 中的embedding 相似度吗?还是需要类似bge / piccolo 针对不同任task, 加入 一些prompt前缀呢,谢谢。

Fspace changed discussion status to closed
Fspace changed discussion status to open

Sign up or log in to comment