SentenceTransformer
This is a sentence-transformers model trained. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("masa-research/e5-preskripsi-20250120_214108")
# Run inference
sentences = [
'query: Is this Indonesian news article related or relevant to the Polres Trenggalek?',
'passage: Antisipasi pencurian ikan, Trenggalek tingkatkan patroli pulau terluar. Trenggalek (ANTARA) - Kepolisian Resor Trenggalek meningkatkan patroli di dua pulau terluar yang ada di tengah perairan Teluk Prigin untuk mengantisipasi pencurian ikan (illegal fishing). "Selain juga memberikan rasa aman kepada nelayan serta memantau aktivitas di pulau terluar," kata Wakapolres Trenggalek Kompol Khoiril dalam rapat koordinasi dan sosialisasi pengamanan pulau terluar di Rupatama Polres Trenggalek di Trenggalek, Jumat. Kegiatan itu tidak sebatas patroli laut dalam pengamanan laut serta pulau terluar. Patroli juga dimaksudkan untuk meningkatkan kewaspadaan atas berbagai hal yang berhubungan dengan aktivitas di laut, seperti kecelakaan laut ataupun lainnya. Trenggalek memiliki dua pulau terluar tidak berpenghuni. Pulau tersebut terus dijaga dan diamankan sebagai wujud kedaulatan NKRI. Dalam melaksanakan patroli, petugas gabungan juga melibatkan nelayan. Apalagi kapal patroli yang dimiliki Polres Trenggalek tidak bisa menjangkau pulau terluar dengan waktu tempuh lebih dari tiga jam di tengah terpaan ombak pantai selatan yang ganas. Dua pulau terluar itu adalah Pulau Sekel dan Pulau Panehan. Pulau Sekel terletak di Samudra Hindia dan berbatasan dengan negara Australia. Secara administratif, pulau ini termasuk wilayah Desa Tasikmadu Kecamatan Watulimo dengan luas 300 meter persegi (m2) dan tidak berpenghuni. Secara geografis Pulau Sekel berada pada koordinat 080 24` 350" LS ; 1110 42`547" BT. Sedangkan Pulau Panehan secara administrasi terletak di sebelah selatan Desa Munjungan dan Singgihan dengan luas pulau 0,0535 kilometer persegi (km2) dan panjang pantai 1,8 km. Secara geografis pulau ini berada pada koordinat 080 22` 17” LS ; 1110 30` 41” BT. Pulau Panehan dikelilingi pulau-pulau kecil lainnya, yaitu di sebelah barat terdapat Pulau Prenjana dan Pulau Kalungan. Pulau Panehan tidak berpenduduk, namun terdapat dua orang yang ditugaskan sebagai penunggu lampu suar. "Mari kita bersama-sama untuk menjaganya," katanya.',
'passage: Ratusan Umat Hindu Rayakan Deepavali di Kuil Shri Mariamman Medan. Medan, MISTAR.ID Ratusan umat Hindu di Kota Medan padati Kuil Shri Mariamman untuk merayakan Deepavali yang digelar, Kamis (31/10/24). Ketua Kuil Shri Mariamman, Panditem Chandra Bose mengatakan perayaan Deepavali tahun ini dimulai sejak pukul 05.30 WIB. “Acara dimulai dengan Puja dan dilanjutkan dengan Bhajan atau melantunkan doa. Selanjutnya kita persilakan mereka untuk melakukan silaturahmi dengan keluarga,” katanya saat ditemui Mistar.id seusai ritual keagamaan, Kamis pagi. Ia juga menjelaskan bahwa tema dari perayaan Deepavali tahun ini didefinisikan dengan mendekatkan diri kepada Tuhan, termasuk memenangkan dharma dan mengalahkan adharma. Pada momen Deepavali kali ini, ia juga mengimbau umat Hindu untuk tetap menjaga kerukunan beragama, serta mendukung pelaksanaan Pilkada 2024. “Sekarang sedang ada Pilkada serentak, saya juga mengharapkan semua orang dapat mendukung berdasarkan hati nurani dan didasarkan dengan Pancasila,” lanjutnya. Sementara itu, Ketua Parisada Hindu Dharma Indonesia (PHDI) Kota Medan, Subenthiren, mengucapkan selamat Deepavali dan berharap agar semua orang mendapatkan berkat. Ia juga mengharapkan masyarakat Hindu Tamil harus terus melestarikan baju adat. “Saya mengharapkan untuk tahun depan, kita dapat terus melestarikan baju adat kita ini. Agar orang-orang tau bahwa kita adalah orang Tamil, jadi tidak terlupakan,” ucapnya. Terpisah salah seorang warga yang mengikuti perayaan Deepavali, Jegedish Waran Shagi (24), mengungkapkan persiapan yang dilakukan memperindah dekorasi, membuat kue, dan membeli baju baru. “Kami buat dekorasi, seperti lampu atau lilin, ada juga kolam yang dihias warna-warni, buat kue juga. Selain itu, beli baju baru tentu gak boleh ketinggalan,” ujarnya. Dalam merayakan Deepavali kali ini, pemuda yang akrab disapa Jeg itu mengaku harus mengambil cuti kerja, lantaran Deepavali tidak menjadi libur nasional. “Karena dari tahun ke tahun tidak pernah ada libur nasional saya ambil cuti 1 sampai 3 hari untuk merayakan Deepavali,” pungkasnya. (amita/hm25)',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Semantic Similarity
- Dataset:
cosine_similarity_eval
- Evaluated with
EmbeddingSimilarityEvaluator
Metric | Value |
---|---|
pearson_cosine | 0.5179 |
spearman_cosine | 0.5341 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 37,469 training samples
- Columns:
sentence_0
,sentence_1
, andlabel
- Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1 label type string string float details - min: 17 tokens
- mean: 23.2 tokens
- max: 49 tokens
- min: 30 tokens
- mean: 425.14 tokens
- max: 512 tokens
- min: 0.0
- mean: 0.62
- max: 1.0
- Samples:
sentence_0 sentence_1 label query: Is this Indonesian news article positively impact the BEM KM UGM?
passage: Bangunan GIK UGM Masih 40 Persen, Masuk Fase Uji Coba Kegiatan. Laporan Reporter Tribun Jogja, Ardhike Indah TRIBUNJOGJA.COM, SLEMAN - Bangunan Gelanggang Inovasi dan Kreativitas ( GIK ) Universitas Gadjah Mada ( UGM ) masih 40 persen. Untuk itu, tim dari GIK menggelar sosialisasi terkait dengan Standard Operating Procedure (SOP) penggunaan ruangan agar bisa digunakan Unit Kegiatan Mahasiswa (UKM). Garin Nugroho, selaku Chief Program Officer GIK UGM , menyampaikan bahwa bangunan GIK masih 40 persen dan sisanya masih pada proses finishing. Da juga menekankan bahwa GIK belum melakukan serah terima dengan Kementerian PUPR RI. “Sekarang masih hanya ada empat ruang yang bisa digunakan, dan pada bulan September-Oktober ini merupakan fase transisi yang mana akan dilakukan uji coba pada ruangan di GIK,” ucapnya dalam sosialisasi, Selasa (3/9/2024). Garin juga menekankan bahwa uji coba kerjasama dengan mitra dengan UGM tentu perlu adanya masukan, kritik, dan penyesuaian lantaran ruang-...
0.5
query: Is this Indonesian news article positively impact the Wakapolda NTT Brigjen Awi Setiyono?
passage: Imigrasi Tangkap DPO Penyelundupan Manusia, Kerjasama dengan Istri Pelaku. JAKARTA, KOMPAS.com - Direktorat Jenderal (Ditjen) Imigrasi menangkap seorang buron terduga penyelundupan orang ke Australia berinisial HR. Pria berkewarganegaraan Bangladesh ditangkap Petugas Kantor Imigrasi I Tempat Pemeriksaan Imigrasi (TPI) Surabaya pada Rabu (08/5/2024) lalu. Kepala Kantor Imigrasi Kelas I TPI Surabaya, Ramdhani menyebut, HR masuk daftar pencarian orang (DPO) Polda Nusa Tenggara Timur (NTT) dan Australia Federal Police (AFP). Menurut Ramdhani, keberadaan HR terungkap ketika istrinya yang berstatus warga negara Indonesia (WNI), S, melapor ke petugas lantaran suaminya tak kunjung pulang pada 9 Januari 2024 lalu. “Istrinya juga menyampaikan bahwa HR terlibat dalam kegiatan ilegal mendatangkan WNA dari Bangladesh dan Pakistan untuk diberangkatkan ke Australia,” kata Ramdhani Dalam keterangan resmi yang Kompas.com terima, Jumat (17/5/2024). Menindaklanjuti laporan itu, petugas Imigrasi ...
1.0
query: Is this Indonesian news article positively impact the Badan Pengawasan Keuangan dan Pembangunan (BPKP)?
passage: KPK umumkan penyidikan korupsi di LPEI. Jakarta (ANTARA) - Komisi Pemberantasan Korupsi (KPK) hari ini mengumumkan pihaknya telah menggelar penyidikan dugaan korupsi pemberian fasilitas kredit Lembaga Pembiayaan Ekspor Indonesia (LPEI). "Pada tanggal 19 Maret 2024 ini KPK meningkatkan proses penyelidikan dari dugaan penyimpangan atau dugaan tindak pidana korupsi dalam pemberian fasilitas kredit dari LPEI ini menjadi berstatus penyidikan," kata Wakil Ketua KPK Nurul Ghufron di Gedung Merah Putih KPK, Jakarta Selatan, Selasa. Terkait kasus serupa yang dilaporkan oleh Menteri Keuangan Sri Mulyani Indrawati kepada Jaksa Agung ST Burhanuddin pada Senin (18/3), Ghufron menjelaskan bahwa KPK sudah menangani kasus tersebut sejak 10 Mei 2023. Ghufron juga mengatakan untuk kasus ini pihak KPK mengambil kebijakan yang berbeda dari biasanya. Selama ini KPK mengumumkan penyidikan dan menyampaikan telah melakukan penetapan tersangka. "Sekali lagi ini semua adalah kebijakan internal KPK, nam...
0.5
- Loss:
CosineSimilarityLoss
with these parameters:{ "loss_fct": "torch.nn.modules.loss.MSELoss" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 16per_device_eval_batch_size
: 16num_train_epochs
: 1.5multi_dataset_batch_sampler
: round_robin
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 16per_device_eval_batch_size
: 16per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1num_train_epochs
: 1.5max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: round_robin
Training Logs
Epoch | Step | Training Loss | cosine_similarity_eval_spearman_cosine |
---|---|---|---|
0.2135 | 500 | 0.0856 | 0.5261 |
0.4270 | 1000 | 0.086 | 0.5349 |
0.6405 | 1500 | 0.0837 | 0.5267 |
0.8540 | 2000 | 0.0841 | 0.5318 |
1.0 | 2342 | - | 0.5210 |
1.0675 | 2500 | 0.0828 | 0.5156 |
1.2810 | 3000 | 0.0823 | 0.5226 |
1.4944 | 3500 | 0.0819 | 0.5403 |
1.5 | 3513 | - | 0.5341 |
Framework Versions
- Python: 3.11.11
- Sentence Transformers: 3.3.1
- Transformers: 4.47.1
- PyTorch: 2.5.1+cu121
- Accelerate: 1.2.1
- Datasets: 3.2.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
- Downloads last month
- 4
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.
Evaluation results
- Pearson Cosine on cosine similarity evalself-reported0.518
- Spearman Cosine on cosine similarity evalself-reported0.534