gmunkhtur's picture
Add new SentenceTransformer model
d942f56 verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:77201
  - loss:CosineSimilarityLoss
base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
widget:
  - source_sentence: '"17 тэрбумын хэрэгт холбогдсон хүмүүсийг шалгаж байна."'
    sentences:
      - Шинэ сайд томилогдлоо."
      - '"Авлига авсан хүмүүсийг шалгаж байна."'
      - Шүүхийг засварлах мөнгө байхгүй байна."
  - source_sentence: '"Гэмт хэрэг үйлдсэн. "'
    sentences:
      - LIKE дар.
      - Саусгоби сэндс компанийн хэргээр мөрдөн байцаалт явагдаж байна."
      - '"Гэмтэл учруулсан."'
  - source_sentence: '"Иргэдийн хүсэлтийг шинэчлэлийн Засгийн газар хэрэгжүүлнэ."'
    sentences:
      - '"Засгийн газар иргэдийн хүсэлтийг хэрэгжүүлэх бодолтой байна."'
      - '"Ц.Болд албан тушаалаа ашиглан төсвөөс мөнгө завшсан байна."'
      - Шүүх хараат бус байх ёстой."
  - source_sentence: '"Ам.долларын ханш суларснаас бэрхшээл үүсэж байна."'
    sentences:
      - '"тушаал"'
      - Шүүхийн шийдвэрийн талаарх судалгаа хийнэ."
      - '"Валютын ханшийн өөрчлөлтөөс болж бэрхшээл гарч байна."'
  - source_sentence: '"Сэтгүүлч анд маань хоёр дахь номоо хэвлэлтээс гаргажээ"'
    sentences:
      - БНХАУ-ын аж үйлдвэрлэлийн үйлдвэрлэлт буурсан.
      - Жастин Бибер, Кэти Перри нарын элэглэл хамгийн түрүүнд дүрслэгдэх аж.
      - '"Л.Болормаагийн хоёр дахь ном “Завгүй” хэмээн нэрийджээ."'
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - pearson_cosine
  - spearman_cosine
model-index:
  - name: >-
      SentenceTransformer based on
      sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
    results:
      - task:
          type: semantic-similarity
          name: Semantic Similarity
        dataset:
          name: dev t
          type: dev-t
        metrics:
          - type: pearson_cosine
            value: 0.9547459589724314
            name: Pearson Cosine
          - type: spearman_cosine
            value: 0.9538075641510714
            name: Spearman Cosine
      - task:
          type: semantic-similarity
          name: Semantic Similarity
        dataset:
          name: test t
          type: test-t
        metrics:
          - type: pearson_cosine
            value: 0.956384303059334
            name: Pearson Cosine
          - type: spearman_cosine
            value: 0.9566981709702497
            name: Spearman Cosine

SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2

This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 on the csv dataset. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("gmunkhtur/paraphrase-mongolian-minilm-mn_v2")
# Run inference
sentences = [
    '"Сэтгүүлч анд маань хоёр дахь номоо хэвлэлтээс гаргажээ"',
    '"Л.Болормаагийн хоёр дахь ном “Завгүй” хэмээн нэрийджээ."',
    'БНХАУ-ын аж үйлдвэрлэлийн үйлдвэрлэлт буурсан.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Semantic Similarity

Metric dev-t test-t
pearson_cosine 0.9547 0.9564
spearman_cosine 0.9538 0.9567

Training Details

Training Dataset

csv

  • Dataset: csv
  • Size: 77,201 training samples
  • Columns: sentence1, sentence2, and score
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 score
    type string string float
    details
    • min: 3 tokens
    • mean: 16.02 tokens
    • max: 96 tokens
    • min: 3 tokens
    • mean: 14.66 tokens
    • max: 87 tokens
    • min: -0.14
    • mean: 0.63
    • max: 1.0
  • Samples:
    sentence1 sentence2 score
    Маргааш мэдээлэл өгнө Хэвлэлийн хурал болно. 0.5448001623153687
    Дотоод аудитын шалгалтаар 2012-2013 оны үйл ажиллагаанд 16 зөрчил илэрлээ “Монголын Хөрөнгийн Бирж” ТӨХК-ийн Төлөөлөн удирдах зөвлөл болон Гүйцэтгэх удирдлагад 13 зөвлөмж өгөгдсөн байна. 0.4059729874134063
    "хохирогчид ажлын байраар хангагдана" "ажил олддог болно." 0.6021140813827515
  • Loss: CosineSimilarityLoss with these parameters:
    {
        "loss_fct": "torch.nn.modules.loss.MSELoss"
    }
    

Evaluation Dataset

csv

  • Dataset: csv
  • Size: 77,201 evaluation samples
  • Columns: sentence1, sentence2, and score
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 score
    type string string float
    details
    • min: 3 tokens
    • mean: 16.53 tokens
    • max: 85 tokens
    • min: 3 tokens
    • mean: 14.68 tokens
    • max: 83 tokens
    • min: -0.04
    • mean: 0.62
    • max: 1.0
  • Samples:
    sentence1 sentence2 score
    Ченжүүд мэдээллийн сүлжээтэй лут холбогдсон байх юм "Энд ноолуурын үнэ асуусан хэдэн нөхөд яваад байна" гээд хэлчихсэн бололтой юм 0.3234536349773407
    Хий дэлбэрэлт гарсан тухай мэдээлэл байна уу? Мэдээлэл цуглуулж байна. 0.3009476661682129
    "Энэ нь хэн нэгнээр дамжуулж биш өөрөө сонгоно гэсэн утгатай. Өөрөө сонгоно гэсэн утгатай." 0.770484447479248
  • Loss: CosineSimilarityLoss with these parameters:
    {
        "loss_fct": "torch.nn.modules.loss.MSELoss"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • num_train_epochs: 5
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss dev-t_spearman_cosine test-t_spearman_cosine
0 0 - - 1.0000 -
0.1727 500 0.0046 - - -
0.3454 1000 0.0054 0.0042 0.9549 -
0.5181 1500 0.0069 - - -
0.6908 2000 0.008 0.0067 0.9298 -
0.8636 2500 0.0076 - - -
1.0363 3000 0.0075 0.0065 0.9317 -
1.2090 3500 0.0069 - - -
1.3817 4000 0.0063 0.0063 0.9366 -
1.5544 4500 0.0055 - - -
1.7271 5000 0.0049 0.0057 0.9411 -
1.8998 5500 0.0045 - - -
2.0725 6000 0.0045 0.0056 0.9405 -
2.2453 6500 0.004 - - -
2.4180 7000 0.0038 0.0053 0.9432 -
2.5907 7500 0.0034 - - -
2.7634 8000 0.0032 0.0053 0.9448 -
2.9361 8500 0.0029 - - -
3.1088 9000 0.0028 0.0051 0.9459 -
3.2815 9500 0.0025 - - -
3.4542 10000 0.0023 0.0047 0.9498 -
3.6269 10500 0.0022 - - -
3.7997 11000 0.0021 0.0046 0.9510 -
3.9724 11500 0.0019 - - -
4.1451 12000 0.0019 0.0046 0.9525 -
4.3178 12500 0.0016 - - -
4.4905 13000 0.0016 0.0045 0.9528 -
4.6632 13500 0.0014 - - -
4.8359 14000 0.0013 0.0044 0.9538 -
5.0 14475 - - - 0.9567

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.3.1
  • Transformers: 4.47.1
  • PyTorch: 2.5.1+cu121
  • Accelerate: 1.2.1
  • Datasets: 3.2.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}