Update README.md
Browse files
README.md
CHANGED
@@ -56,7 +56,7 @@ model-index:
|
|
56 |
---
|
57 |
|
58 |
|
59 |
-
# DiTy/
|
60 |
|
61 |
This is a [sentence-transformers](https://www.SBERT.net) model based on a pre-trained [DeepPavlov/rubert-base-cased](https://huggingface.co/DeepPavlov/rubert-base-cased) and finetuned with [MS-MARCO Russian passage ranking dataset](https://huggingface.co/datasets/unicamp-dl/mmarco):
|
62 |
It maps sentences & paragraphs to a 768 dimensional dense vector space and can be used for asymmetric semantic search in the Russian language.
|
@@ -83,7 +83,7 @@ sentences = [
|
|
83 |
'Тест направлен на то, чтобы выяснить, не получает ли какой-либо участок сердечной мышцы достаточный кровоток во время тренировки. Он похож на тест с физической нагрузкой, фармакологический или химический стресс-тест. Он также известен при стресс-тесте таллием, сканировании перфузии миокарда или радионуклидном тесте.'
|
84 |
]
|
85 |
|
86 |
-
model = SentenceTransformer('DiTy/
|
87 |
embeddings = model.encode(sentences)
|
88 |
results = util.semantic_search(embeddings[0], embeddings[1:])[0]
|
89 |
|
@@ -116,8 +116,8 @@ sentences = [
|
|
116 |
]
|
117 |
|
118 |
# Load model from HuggingFace Hub
|
119 |
-
tokenizer = AutoTokenizer.from_pretrained('DiTy/
|
120 |
-
model = AutoModel.from_pretrained('DiTy/
|
121 |
|
122 |
# Tokenize sentences
|
123 |
encoded_input = tokenizer(sentences, max_length=512, padding='max_length', truncation=True, return_tensors='pt')
|
|
|
56 |
---
|
57 |
|
58 |
|
59 |
+
# DiTy/bi-encoder-russian-msmarco
|
60 |
|
61 |
This is a [sentence-transformers](https://www.SBERT.net) model based on a pre-trained [DeepPavlov/rubert-base-cased](https://huggingface.co/DeepPavlov/rubert-base-cased) and finetuned with [MS-MARCO Russian passage ranking dataset](https://huggingface.co/datasets/unicamp-dl/mmarco):
|
62 |
It maps sentences & paragraphs to a 768 dimensional dense vector space and can be used for asymmetric semantic search in the Russian language.
|
|
|
83 |
'Тест направлен на то, чтобы выяснить, не получает ли какой-либо участок сердечной мышцы достаточный кровоток во время тренировки. Он похож на тест с физической нагрузкой, фармакологический или химический стресс-тест. Он также известен при стресс-тесте таллием, сканировании перфузии миокарда или радионуклидном тесте.'
|
84 |
]
|
85 |
|
86 |
+
model = SentenceTransformer('DiTy/bi-encoder-russian-msmarco')
|
87 |
embeddings = model.encode(sentences)
|
88 |
results = util.semantic_search(embeddings[0], embeddings[1:])[0]
|
89 |
|
|
|
116 |
]
|
117 |
|
118 |
# Load model from HuggingFace Hub
|
119 |
+
tokenizer = AutoTokenizer.from_pretrained('DiTy/bi-encoder-russian-msmarco')
|
120 |
+
model = AutoModel.from_pretrained('DiTy/bi-encoder-russian-msmarco')
|
121 |
|
122 |
# Tokenize sentences
|
123 |
encoded_input = tokenizer(sentences, max_length=512, padding='max_length', truncation=True, return_tensors='pt')
|