Roflmax's picture
Upload folder using huggingface_hub
4c37781 verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:13221
  - loss:TripletLoss
base_model: BAAI/bge-m3
widget:
  - source_sentence: Как распределяется прибыль между управляющими товарищами и товарищами?
    sentences:
      - >-
        6. При применении метода распределения прибыли между сторонами
        анализируемой сделки распределяется совокупная прибыль либо остаточная
        прибыль всех сторон такой сделки.
      - >-
        указанные лица не уплачивают налог на прибыль организаций в бюджеты
        других субъектов Российской Федерации;
      - >-
        3) доля прибыли (расходов, убытков), приходящаяся на каждого из
        управляющих товарищей и товарищей;
  - source_sentence: Каковы сроки уплаты ежемесячных авансовых платежей по налогу на прибыль?
    sentences:
      - >-
        НК РФ Статья 363. Порядок и сроки уплаты налога и авансовых платежей по
        налогу
      - >-
        Налогоплательщики, исчисляющие ежемесячные авансовые платежи по
        фактически полученной прибыли, уплачивают авансовые платежи не позднее
        28-го числа месяца, следующего за месяцем, по итогам которого
        производится исчисление налога.
      - >-
        1. Налогоплательщик имеет право уменьшить общую сумму налога,
        исчисленную в соответствии со статьей 166 настоящего Кодекса, на
        установленные настоящей статьей налоговые вычеты.
  - source_sentence: >-
      Кто имеет право уменьшить сумму налога на доходы, полученные из-за
      границы?
    sentences:
      - >-
        1. Налогоплательщик имеет право уменьшить общую сумму налога,
        исчисленную в соответствии со статьей 166 настоящего Кодекса, на
        установленные настоящей статьей налоговые вычеты.
      - >-
        При этом налогоплательщики, получающие дивиденды от источников за
        пределами Российской Федерации, или налоговые агенты вправе уменьшить
        сумму налога, исчисленную в соответствии с настоящей главой в отношении
        указанных доходов, на сумму налога, исчисленную и уплаченную по месту
        нахождения источника дохода, только в случае, если источник дохода
        находится в иностранном государстве, с которым заключен договор
        (соглашение) об избежании двойного налогообложения.
      - >-
        3. Не включаются в расходы банка суммы отрицательной переоценки средств
        в иностранной валюте, поступивших в оплату уставных капиталов кредитных
        организаций.
  - source_sentence: >-
      Какие критерии используются для определения отсутствия положительного
      результата в научно-исследовательских, опытно-конструкторских и
      технологических работах?
    sentences:
      - >-
        Форма расчета совокупного размера прибыли устанавливается Министерством
        финансов Российской Федерации.
      - >-
        16.1) выполнение организациями научно-исследовательских,
        опытно-конструкторских и технологических работ, относящихся к созданию
        новых продукции и технологий или к усовершенствованию производимой
        продукции и технологий, если в состав научно-исследовательских,
        опытно-конструкторских и технологических работ включаются следующие виды
        деятельности:
      - >-
        1) не давшие положительного результата научно-исследовательские,
        опытно-конструкторские и технологические работы;
  - source_sentence: >-
      Какие виды деятельности осуществляют организации, подпадающие под данное
      определение?
    sentences:
      - >-
        7) организации - участники проекта по осуществлению исследований,
        разработок и коммерциализации их результатов в соответствии с
        Федеральным законом "Об инновационном центре "Сколково" либо участники
        проекта в соответствии с Федеральным законом от 29 июля 2017 года N
        216-ФЗ "Об инновационных научно-технологических центрах и о внесении
        изменений в отдельные законодательные акты Российской Федерации";
      - >-
        2. В целях настоящей главы к торговой деятельности относятся следующие
        виды торговли:
      - >-
        3) организация осуществляет деятельность, связанную с добычей
        углеводородного сырья на новом морском месторождении углеводородного
        сырья, на основе договора, заключенного с владельцем лицензии в
        отношении нового морского месторождения углеводородного сырья и (или)
        участка недр, указанного в подпункте 1 настоящего пункта, и такой
        договор предусматривает выплату организации-оператору вознаграждения,
        размер которого зависит в том числе от объема добытого углеводородного
        сырья на соответствующем морском месторождении углеводородного сырья и
        (или) выручки от реализации этого сырья (далее в настоящем Кодексе -
        операторский договор).
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - cosine_accuracy@1
  - cosine_accuracy@3
  - cosine_accuracy@5
  - cosine_accuracy@10
  - cosine_precision@1
  - cosine_precision@3
  - cosine_precision@5
  - cosine_precision@10
  - cosine_recall@1
  - cosine_recall@3
  - cosine_recall@5
  - cosine_recall@10
  - cosine_ndcg@10
  - cosine_mrr@10
  - cosine_map@100
model-index:
  - name: SentenceTransformer based on BAAI/bge-m3
    results:
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: Legal IR Evaluation Bench
          type: Legal_IR_Evaluation_Bench
        metrics:
          - type: cosine_accuracy@1
            value: 0.3158525222946892
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.4582723279648609
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.5188340210302143
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.587381871422867
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.3158525222946892
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.1527574426549536
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.10376680420604285
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.058738187142286694
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.3158525222946892
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.4582723279648609
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.5188340210302143
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.587381871422867
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.44675579037173485
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.40233201603991975
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.40935732242081835
            name: Cosine Map@100

SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BAAI/bge-m3
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'Какие виды деятельности осуществляют организации, подпадающие под данное определение?',
    '3) организация осуществляет деятельность, связанную с добычей углеводородного сырья на новом морском месторождении углеводородного сырья, на основе договора, заключенного с владельцем лицензии в отношении нового морского месторождения углеводородного сырья и (или) участка недр, указанного в подпункте 1 настоящего пункта, и такой договор предусматривает выплату организации-оператору вознаграждения, размер которого зависит в том числе от объема добытого углеводородного сырья на соответствующем морском месторождении углеводородного сырья и (или) выручки от реализации этого сырья (далее в настоящем Кодексе - операторский договор).',
    '2. В целях настоящей главы к торговой деятельности относятся следующие виды торговли:',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.3159
cosine_accuracy@3 0.4583
cosine_accuracy@5 0.5188
cosine_accuracy@10 0.5874
cosine_precision@1 0.3159
cosine_precision@3 0.1528
cosine_precision@5 0.1038
cosine_precision@10 0.0587
cosine_recall@1 0.3159
cosine_recall@3 0.4583
cosine_recall@5 0.5188
cosine_recall@10 0.5874
cosine_ndcg@10 0.4468
cosine_mrr@10 0.4023
cosine_map@100 0.4094

Training Details

Training Dataset

Unnamed Dataset

  • Size: 13,221 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 9 tokens
    • mean: 21.87 tokens
    • max: 46 tokens
    • min: 19 tokens
    • mean: 76.22 tokens
    • max: 512 tokens
    • min: 8 tokens
    • mean: 56.53 tokens
    • max: 338 tokens
  • Samples:
    anchor positive negative
    В каких случаях ставка сбора за объекты водных биологических ресурсов устанавливается в размере 0 рублей? 6. Ставки сбора за каждый объект водных биологических ресурсов, указанный в пунктах 4 и 5 настоящей статьи, устанавливаются в размере 0 рублей в случаях, если пользование такими объектами водных биологических ресурсов осуществляется при: Уплата сбора за пользование объектами водных биологических ресурсов производится:
    Какие федеральные конституционные законы регулируют принятие Донецкой Народной Республики, Луганской Народной Республики, Запорожской области и Херсонской области в состав Российской Федерации? 31.1) за государственную регистрацию прав на недвижимое имущество, возникших на территориях Донецкой Народной Республики, Луганской Народной Республики, Запорожской области, Херсонской области до дня вступления в силу Федерального конституционного закона от 4 октября 2022 года N 5-ФКЗ "О принятии в Российскую Федерацию Донецкой Народной Республики и образовании в составе Российской Федерации нового субъекта - Донецкой Народной Республики", Федерального конституционного закона от 4 октября 2022 года N 6-ФКЗ "О принятии в Российскую Федерацию Луганской Народной Республики и образовании в составе Российской Федерации нового субъекта - Луганской Народной Республики", Федерального конституционного закона от 4 октября 2022 года N 7-ФКЗ "О принятии в Российскую Федерацию Запорожской области и образовании в составе Российской Федерации нового субъекта - Запорожской области", Федерального конституционного закона от 4 октября 2022 года N 8-ФКЗ "О принятии в Российскую Федерацию Херсонской област... 20) на срок существования свободной экономической зоны на территориях Донецкой Народной Республики, Луганской Народной Республики, Запорожской области и Херсонской области в случае предоставления земельного участка управляющей компании, указанной в Федеральном законе "О свободной экономической зоне на территориях Донецкой Народной Республики, Луганской Народной Республики, Запорожской области и Херсонской области", для целей, предусмотренных указанным Федеральным законом;
    Какие сведения должны содержать формы регистров налогового учета для идентификации налогоплательщика? Формы регистров налогового учета и порядок отражения в них аналитических данных налогового учета, данных первичных учетных документов разрабатываются налоговым агентом самостоятельно и должны содержать сведения, позволяющие идентифицировать налогоплательщика, вид выплачиваемых налогоплательщику доходов и предоставленных налоговых вычетов, а также расходов и сумм, уменьшающих налоговую базу, в соответствии с кодами, утверждаемыми федеральным органом исполнительной власти, уполномоченным по контролю и надзору в области налогов и сборов, суммы дохода и даты их выплаты, статус налогоплательщика, даты удержания. 2. Данные регистров налогового учета должны содержать информацию:
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
        "triplet_margin": 5
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 1,470 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 8 tokens
    • mean: 22.08 tokens
    • max: 54 tokens
    • min: 18 tokens
    • mean: 79.07 tokens
    • max: 512 tokens
    • min: 8 tokens
    • mean: 59.19 tokens
    • max: 400 tokens
  • Samples:
    anchor positive negative
    Какие виды производственной деятельности относятся к производству напитков? производство безалкогольных напитков, производство минеральных вод и прочих питьевых вод в бутылках; 2. В целях настоящей главы к торговой деятельности относятся следующие виды торговли:
    Какие обязанности возложены на налоговые органы в отношении налогоплательщиков? 10. Налоговые органы на основе имеющихся данных и сведений о налогоплательщиках обязаны обеспечить постановку их на учет (снятие их с учета) и учет сведений о налогоплательщиках. 2.1. Права, предусмотренные настоящим Кодексом в отношении налогоплательщиков, налоговые органы также осуществляют в отношении плательщиков страховых взносов.
    Какие действия предпринимаются до выдачи результатов экспертизы? 2) до выдачи результатов экспертизы - при предъявлении различных предметов, изделий, материалов и камней на экспертизу. 2. Не требуется специально сообщать заинтересованному гражданину о действиях в его интересе, если эти действия предпринимаются в его присутствии.
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
        "triplet_margin": 5
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • gradient_accumulation_steps: 2
  • learning_rate: 2e-05
  • weight_decay: 0.01
  • num_train_epochs: 4
  • lr_scheduler_type: cosine
  • warmup_steps: 750
  • bf16: True
  • tf32: True
  • dataloader_num_workers: 4
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 2
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.01
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 4
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 750
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: True
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 4
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss Legal_IR_Evaluation_Bench_cosine_ndcg@10
0.0483 10 9.7628 - -
0.0966 20 9.7395 - -
0.1449 30 9.7537 - -
0.1932 40 9.7429 - -
0.2415 50 9.732 - -
0.2899 60 9.6906 - -
0.3382 70 9.6831 - -
0.3865 80 9.6572 - -
0.4348 90 9.6315 - -
0.4831 100 9.6043 - -
0.5314 110 9.5636 - -
0.5797 120 9.5688 - -
0.6280 130 9.5443 - -
0.6763 140 9.5055 - -
0.7246 150 9.4979 - -
0.7729 160 9.4396 - -
0.8213 170 9.4772 - -
0.8696 180 9.4261 - -
0.9179 190 9.4023 - -
0.9662 200 9.3668 - -
1.0 207 - 4.6068 0.4468

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.4.1
  • Transformers: 4.48.3
  • PyTorch: 2.1.0+cu118
  • Accelerate: 1.3.0
  • Datasets: 3.2.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

TripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification},
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}