SentenceTransformer based on BookingCare/multilingual-e5-base-v2

This is a sentence-transformers model finetuned from BookingCare/multilingual-e5-base-v2. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BookingCare/multilingual-e5-base-v2
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("BookingCare/multilingual-base-e5-v3")
# Run inference
sentences = [
    'Các triệu chứng tụ máu nội sọ',
    ' Khi bị\nchấn thương sọ não\n, các dấu hiệu của\nxuất hiện ngay sau khi bị chấn thương ở đầu hoặc có thể mất vài tuần chúng mới xuất hiện các triệu chứng này. chấn thương sọ não tụ máu nội sọ Tuy nhiên do thời gian tăng lên đồng nghĩa áp lực lên não cũng tăng lên, do đó tạo ra các dấu hiệu xuất hiện luôn của tụ máu nội sọ: Đau đầu\ntăng dữ dội Đau đầu Buồn nôn và nôn mửa Ý thức bị mất dần, buồn ngủ Hoa mắt chóng mặt Có sự lo lắng và hoang mang Đồng tử hai bên kích thước không bằng nhau Nói ngọng và lắp Các động tác cử động bị liệt Khi lượng máu quá nhiều tràn vào các khoang của não hoặc không gian hẹp giữa não và hộp sọ thì sẽ xuất hiện các triệu chứng: Sự hoang mang Kích thước đồng tử không bằng nhau Nói lắp Mất cử động (liệt) ở bên đối diện của cơ thể do chấn thương đầu Khi trong não có nhiều lượng máu tràn vào các không gian khe hẹp giữa não và hộp sọ thì xuất hiện các triệu chứng dấu hiệu như: Hôn mê,\nco giật\n, vô thức. co giật',
    ' Trừ trường hợp\nnằm ngoài tầm kiểm soát, chẳng hạn viêm ruột thừa, bạn có thể thay đổi một vài thói quen trong cuộc sống hàng ngày để hạn chế số lần bị đau bụng. Các chuyên gia đã đưa ra một số lời khuyên như sau: nguyên nhân đau bụng Ăn chậm nhai kỹ Thói quen cắn miếng lớn và không nhai kỹ khi ăn có thể khiến bạn nuốt phải không khí, làm tăng thêm khí cho dạ dày và dẫn đến đau bụng. Do đó nên dành thời gian ăn chậm và nhai kỹ. Điều này cũng giúp não bộ có thời gian để nhận ra tín hiệu đã no, tránh ăn quá nhiều - một lý do khả dĩ gây\nđau dạ dày\n. đau dạ dày  Chia nhỏ các bữa ăn Một số người bị đau bụng giữa các bữa ăn, nguyên nhân là do không có chất đệm cho axit trong dạ dày. Nếu gặp trường hợp này, hãy chia thành nhiều bữa nhỏ và ăn nhẹ trong suốt cả ngày để dạ dày không bị trống rỗng một khoảng thời gian dài. Lựa chọn thực phẩm lành mạnh Thực phẩm béo, chiên, hoặc cay có thể là nguyên nhân của những cơn đau bụng. Chúng có khả năng làm chậm quá trình tiêu hóa, tàn phá ruột của bạn và khiến bạn dễ bị táo bón. Do đó, nên chọn thực phẩm bổ dưỡng, ưu tiên rau và chất xơ, rất tốt cho hệ tiêu hóa và dạ dày. Lắng nghe cơ thể Nếu nhận thấy dạ dày của mình luôn bị co thắt sau khi uống một ly sữa hoặc ăn một món nào đó, hãy đi khám và trình bày với bác sĩ. Bạn có thể gặp chứng không dung nạp thực phẩm. Nếu bác sĩ tìm được vấn đề trong chế độ ăn uống của bạn, họ sẽ giúp bạn xây dựng một thực đơn phù hợp với sức khỏe hơn. Uống nhiều nước, ít soda Nước giúp giữ cho thức ăn di chuyển trong ruột dễ dàng. Hãy uống nước thường xuyên ngay cả khi không khác. Không uống soda vì cacbonat có thể gây đau dạ dày và đầy hơi thải khí. Ngoài ra, đồ uống có cồn và cafein cũng có thể gây rắc rối cho hệ tiêu hóa của một số người, vì vậy hãy hạn chế dùng nếu bạn thường xuyên bị đau bụng. Rửa tay Một nguyên nhân phổ biến của đau bụng là viêm dạ dày - ruột, đôi khi là do virus gây ra. Tình trạng này cũng có thể dẫn đến tiêu chảy, buồn nôn, sốt hoặc đau đầu. Do đó cách tốt nhất để ngăn ngừa sự lây lan của vi khuẩn là rửa tay thường xuyên, đặc biệt là trước khi ăn, sau khi đi vệ sinh và khi ở những nơi công cộng.  Kiểm soát căng thẳng Khi căng thẳng, có người tim đập mạnh, có người đổ mồ hôi tay và rất nhiều người bị đau dạ dày. Họ có thể cảm thấy dạ dày quặn lên hoặc dường như bị bóp chặt lại. Vì vậy nên tránh xa những tình huống căng thẳng hết mức có thể. Giảm bớt stress bằng cách tập thể dục, thiền, làm việc yêu thích hoặc đi chơi với bạn bè. Đau bụng có nhiều mức độ từ âm ỉ đến đau nhói, xuất hiện trong một thời gian ngắn hoặc kéo dài đến hàng giờ. Tình trạng này có thể đi kèm với buồn nôn, đầy hơi hoặc tiêu chảy hay táo bón. Bạn có thể ngăn ngừa đau bụng nếu xuất phát từ những nguyên nhân thông thường. Một số\nđòi hỏi cần dùng thuốc, phẫu thuật hoặc một biện pháp điều trị khác. Nếu cảm thấy đau bụng dữ dội hoặc liên tục, hãy đến bệnh viện khám ngay lập tức. nguyên nhân gây đau bụng  Kiểm tra sức khỏe định kỳ giúp phát hiện sớm bệnh tật, từ đó có kế hoạch điều trị đạt kết quả tối ưu. Hiện Bệnh viện Đa khoa Quốc tế Vinmec có các gói\nKhám sức khỏe tổng quát\nphù hợp với từng độ tuổi, giới tính và nhu cầu riêng của quý khách hàng với chính sách giá hợp lý, bao gồm: Khám sức khỏe tổng quát  Gói khám sức khỏe tổng quát kim cương  Gói khám sức khỏe tổng quát Vip  Gói khám sức khỏe tổng quát đặc biệt  Gói khám sức khỏe tổng quát toàn diện  Gói khám sức khỏe tổng quát tiêu chuẩn Kết quả khám của người bệnh sẽ được trả về tận nhà. Sau khi nhận được kết quả khám sức khỏe tổng quát, nếu phát hiện các bệnh lý cần khám và điều trị chuyên sâu, Quý khách có thể sử dụng dịch vụ từ các chuyên khoa khác ngay tại Bệnh viện với chất lượng điều trị và dịch vụ khách hàng vượt trội. Để đặt lịch khám tại viện, Quý khách vui lòng bấm số\nHOTLINE\nhoặc đặt lịch trực tiếp\nTẠI ĐÂY\n.\nTải và đặt lịch khám tự động trên\nứng dụng MyVinmec\nđể quản lý, theo dõi lịch và đặt hẹn mọi lúc mọi nơi ngay trên ứng dụng. HOTLINE TẠI ĐÂY  Nguồn tham khảo: Webmd.com    Đau bụng Đau dạ dày Viêm ruột thừa Hội chứng ruột kích thích Nguyên nhân đau bụng Đau bụng kéo dài',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.8522
cosine_accuracy@3 0.9304
cosine_accuracy@5 0.9453
cosine_accuracy@10 0.964
cosine_precision@1 0.8522
cosine_precision@3 0.3101
cosine_precision@5 0.1891
cosine_precision@10 0.0964
cosine_recall@1 0.8522
cosine_recall@3 0.9304
cosine_recall@5 0.9453
cosine_recall@10 0.964
cosine_ndcg@10 0.9108
cosine_mrr@10 0.8935
cosine_map@100 0.8947
dot_accuracy@1 0.8522
dot_accuracy@3 0.9304
dot_accuracy@5 0.9453
dot_accuracy@10 0.964
dot_precision@1 0.8522
dot_precision@3 0.3101
dot_precision@5 0.1891
dot_precision@10 0.0964
dot_recall@1 0.8522
dot_recall@3 0.9304
dot_recall@5 0.9453
dot_recall@10 0.964
dot_ndcg@10 0.9108
dot_mrr@10 0.8935
dot_map@100 0.8947

Information Retrieval

Metric Value
cosine_accuracy@1 0.6686
cosine_accuracy@3 0.8163
cosine_accuracy@5 0.859
cosine_accuracy@10 0.8936
cosine_precision@1 0.6686
cosine_precision@3 0.2721
cosine_precision@5 0.1718
cosine_precision@10 0.0894
cosine_recall@1 0.6686
cosine_recall@3 0.8163
cosine_recall@5 0.859
cosine_recall@10 0.8936
cosine_ndcg@10 0.7846
cosine_mrr@10 0.7492
cosine_map@100 0.7522
dot_accuracy@1 0.6686
dot_accuracy@3 0.8163
dot_accuracy@5 0.859
dot_accuracy@10 0.8936
dot_precision@1 0.6686
dot_precision@3 0.2721
dot_precision@5 0.1718
dot_precision@10 0.0894
dot_recall@1 0.6686
dot_recall@3 0.8163
dot_recall@5 0.859
dot_recall@10 0.8936
dot_ndcg@10 0.7846
dot_mrr@10 0.7492
dot_map@100 0.7522

Training Details

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 5
  • per_device_eval_batch_size: 6
  • learning_rate: 3.0692519709098972e-06
  • num_train_epochs: 1
  • warmup_ratio: 0.04970511867965379
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 5
  • per_device_eval_batch_size: 6
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • learning_rate: 3.0692519709098972e-06
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.04970511867965379
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss healthcare-dev_cosine_map@100 healthcare-test_cosine_map@100
0 0 - - 0.8374 -
0.0126 100 0.1382 0.1186 0.8455 -
0.0251 200 0.1174 0.1050 0.8580 -
0.0377 300 0.0996 0.0976 0.8604 -
0.0502 400 0.1109 0.0921 0.8737 -
0.0628 500 0.079 0.0893 0.8779 -
0.0753 600 0.0887 0.0826 0.8782 -
0.0879 700 0.1012 0.0786 0.8865 -
0.1004 800 0.0872 0.0755 0.8835 -
0.1130 900 0.07 0.0771 0.8841 -
0.1255 1000 0.0845 0.0746 0.8811 -
0.1381 1100 0.0974 0.0716 0.8806 -
0.1507 1200 0.0883 0.0707 0.8814 -
0.1632 1300 0.0564 0.0719 0.8877 -
0.1758 1400 0.063 0.0710 0.8855 -
0.1883 1500 0.0762 0.0678 0.8878 -
0.2009 1600 0.0775 0.0694 0.8878 -
0.2134 1700 0.064 0.0704 0.8859 -
0.2260 1800 0.1024 0.0681 0.8888 -
0.2385 1900 0.0655 0.0649 0.8874 -
0.2511 2000 0.0753 0.0630 0.8871 -
0.2637 2100 0.0496 0.0642 0.8847 -
0.2762 2200 0.0641 0.0609 0.8847 -
0.2888 2300 0.0745 0.0604 0.8867 -
0.3013 2400 0.0532 0.0619 0.8870 -
0.3139 2500 0.0729 0.0572 0.8885 -
0.3264 2600 0.0752 0.0566 0.8891 -
0.3390 2700 0.0792 0.0565 0.8902 -
0.3515 2800 0.0506 0.0590 0.8903 -
0.3641 2900 0.087 0.0604 0.8886 -
0.3766 3000 0.0521 0.0617 0.8890 -
0.3892 3100 0.0459 0.0585 0.8904 -
0.4018 3200 0.0583 0.0574 0.8919 -
0.4143 3300 0.0477 0.0574 0.8908 -
0.4269 3400 0.0686 0.0578 0.8905 -
0.4394 3500 0.0587 0.0578 0.8880 -
0.4520 3600 0.065 0.0573 0.8894 -
0.4645 3700 0.0635 0.0574 0.8897 -
0.4771 3800 0.0521 0.0553 0.8897 -
0.4896 3900 0.081 0.0557 0.8898 -
0.5022 4000 0.0358 0.0578 0.8879 -
0.5148 4100 0.0707 0.0547 0.8887 -
0.5273 4200 0.0686 0.0566 0.8874 -
0.5399 4300 0.0551 0.0554 0.8867 -
0.5524 4400 0.0341 0.0546 0.8844 -
0.5650 4500 0.0617 0.0530 0.8866 -
0.5775 4600 0.0593 0.0524 0.8900 -
0.5901 4700 0.0471 0.0522 0.8905 -
0.6026 4800 0.0536 0.0523 0.8903 -
0.6152 4900 0.0417 0.0518 0.8905 -
0.6277 5000 0.0691 0.0503 0.8918 -
0.6403 5100 0.0562 0.0521 0.8905 -
0.6529 5200 0.064 0.0506 0.8903 -
0.6654 5300 0.0687 0.0511 0.8914 -
0.6780 5400 0.0678 0.0525 0.8898 -
0.6905 5500 0.0497 0.0533 0.8904 -
0.7031 5600 0.0645 0.0527 0.8914 -
0.7156 5700 0.0515 0.0522 0.8921 -
0.7282 5800 0.0546 0.0515 0.8942 -
0.7407 5900 0.0669 0.0507 0.8936 -
0.7533 6000 0.0593 0.0497 0.8933 -
0.7659 6100 0.0732 0.0495 0.8940 -
0.7784 6200 0.0569 0.0500 0.8927 -
0.7910 6300 0.0473 0.0498 0.8930 -
0.8035 6400 0.063 0.0499 0.8935 -
0.8161 6500 0.0508 0.0487 0.8953 -
0.8286 6600 0.0374 0.0493 0.8950 -
0.8412 6700 0.0456 0.0496 0.8946 -
0.8537 6800 0.0595 0.0493 0.8941 -
0.8663 6900 0.0752 0.0492 0.8923 -
0.8788 7000 0.074 0.0489 0.8920 -
0.8914 7100 0.0479 0.0488 0.8940 -
0.9040 7200 0.0529 0.0487 0.8958 -
0.9165 7300 0.0474 0.0487 0.8938 -
0.9291 7400 0.0619 0.0487 0.8944 -
0.9416 7500 0.0734 0.0485 0.8954 -
0.9542 7600 0.0554 0.0484 0.8954 -
0.9667 7700 0.0524 0.0484 0.8948 -
0.9793 7800 0.0636 0.0484 0.8947 -
0.9918 7900 0.061 0.0484 0.8947 -
1.0 7965 - - - 0.7522

Framework Versions

  • Python: 3.10.13
  • Sentence Transformers: 3.2.0
  • Transformers: 4.41.2
  • PyTorch: 2.1.2
  • Accelerate: 0.30.1
  • Datasets: 2.19.2
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
7
Safetensors
Model size
278M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for BookingCare/multilingual-e5-base-v3

Quantized
(1)
this model

Evaluation results