SentenceTransformer based on LazarusNLP/all-indo-e5-small-v4
This is a sentence-transformers model finetuned from LazarusNLP/all-indo-e5-small-v4. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: LazarusNLP/all-indo-e5-small-v4
- Maximum Sequence Length: 128 tokens
- Output Dimensionality: 384 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("masa-research/ie5-small-v4-preskripsi-binary-sentimen-acc90-20250123_102755")
# Run inference
sentences = [
'Apakah artikel berita ini dapat memberi dampak dan sentimen positif masyarakat terhadap Alex Knizek?',
'Punya Dana Rp 300 Juta, di Amerika Dapat Mobil Bekas Jenis Apa?. Sumber: businessinsider.com | Editor: Handoyo . KONTAN.CO.ID - JAKARTA. Harga mobil bekas di Amerika Serikat terus mendekati rekor tertinggi, membuat banyak konsumen membutuhkan panduan ahli untuk mendapatkan pilihan terbaik. Pada bulan Agustus, Consumer Reports untuk pertama kalinya merilis daftar 10 mobil bekas terbaik yang dijual di AS, menawarkan rekomendasi bagi mereka yang mencari kendaraan yang andal, berkinerja baik, dan aman dengan harga yang terjangkau. Salah satu kriteria utama dalam penyusunan daftar ini adalah harga yang tidak melebihi US$20,000 (Rp 300 juta) jauh lebih rendah dibandingkan dengan harga rata-rata mobil bekas yang kini mencapai sekitar US$25,000. Daftar ini mencakup berbagai jenis kendaraan, mulai dari sedan, SUV, hybrid, hingga mobil sport dan truk. Menurut Alex Knizek, associate director of auto test development di Consumer Reports, mereka fokus pada nilai terbaik dalam memilih 10 kendaraan ini, mencari "permata tersembunyi" yang menawarkan kombinasi tepat antara keandalan, kinerja, dan keselamatan dengan harga paling ramah di kantong. Setiap mobil yang masuk dalam daftar ini tidak hanya memiliki harga di bawah US$20,000, tetapi juga mendapatkan rekomendasi dari Consumer Reports saat diuji sebagai kendaraan baru. Selain itu, kendaraan-kendaraan ini memiliki rating keandalan di atas rata-rata dan dilengkapi dengan kontrol stabilitas elektronik sebagai standar, yang merupakan fitur keselamatan penting.',
'Dinas DP3AP2KB NTT Sosialisasi Program Menuju Indonesia Bebas Pekerja Anak. KUPANG,iNewsTTU.id-Dalam upaya mengatasi masalah Pekerja Anak di Nusa Tenggara Timur (NTT), Dinas Pemberdayaan Perempuan, Perlindungan Anak, Pengendalian Penduduk dan Keluarga Berencana (DP3AP2KB) Provinsi Nusa Tenggara Timur, melalui Bidang Perlindungan Khusus Anak (PKA) sukses menyelenggarakan Sosialisasi Program Indonesia Menuju Bebas Pekerja Anak Tahun 2024, Selasa, (3/9/ 2024). Acara ini dilakukan secara luring dan daring melalui zoom dan siaran langsung YouTube DP3AP2KB Provinsi NTT. Lewat rilis kepada media ini, Rabu ( 4/9/2024) Acara yang dipusatkan di Aula DP3AP2KB Provinsi NTT ini, mengikutsertakan 37 peserta secara daring dari Kota Kupang dan 17 Kabupaten se Nusa Tenggara Timur, serta para ASN di Lingkup DP3AP2KB Provinsi NTT. Kegiatan sosialisasi ini juga sebagai tindaklanjut Peraturan Presiden Nomor : 53 Tahun 2021 tentang Rencana Aksi Nasional Hak Asasi Manusia (RANHAM) Tahun 2021–2025, dan surat Direktur Jenderal HAM Nomor: HAM-HA.02.03-24 tanggal 6 Agustus 2024 perihal: Pelaksanaan laporan Aksi HAM B08 Tahun 2024. Adapun peserta yang ikut secara daring adalah Dinas Pengampuh Urusan Pemberdayaan Perempuan dan Perlindunngan Anak dari Kota Kupang, Kabupaten Alor, Kabupaten Sikka, Kabupaten Sabu Raijua, Kabupaten Flores Timur, Kabupaten Manggarai Barat, Kabupaten Manggarai Timur, Kabupaten Timor Tengah Utara, Kabupaten Sumba Timur, Kabupaten Sumba Barat, Kabupaten Ende, Kabupaten Sumba Barat Daya, Kabupaten Sumba Tengah, Kab. Nagekeo, Kabupaten Manggarai, Kabupaten Belu, Kabupaten Lembata, dan Kabupaten Timor Tengah Selatan. Sosialisasi yang bertujuan untuk meningkatkan kesadaran dan pengetahuan tentang perlindungan anak, serta mengidentifikasi langkah-langkah konkret dalam mengatasi permasalahan pekerja anak dan menanggulangi eksploitasi anak dalam dunia kerja, diawali dengan pengisian pretest untuk mengetahui seberapa besar pengetahuan dari semau peserta tentang dampak dan bahaya dari Pekerja Anak, dan diakhir dari sosialisasi dilaksanakan juga posttest dan pengisian survei kepuasan menggunakan tautan yang disiapkan.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Semantic Similarity
- Evaluated with
EmbeddingSimilarityEvaluator
Metric | Value |
---|---|
pearson_cosine | 0.7216 |
spearman_cosine | 0.5466 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 48,544 training samples
- Columns:
sentence_0
,sentence_1
, andlabel
- Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1 label type string string int details - min: 17 tokens
- mean: 21.54 tokens
- max: 50 tokens
- min: 32 tokens
- mean: 125.2 tokens
- max: 128 tokens
- 0: ~41.40%
- 1: ~58.60%
- Samples:
sentence_0 sentence_1 label Apakah artikel berita ini dapat memberi dampak dan sentimen positif masyarakat terhadap Pemerintah Indonesia?
Pemerintah Indonesia Diminta Tak Kompromi dengan Vietnam Soal Penangkapan Ikan Ilegal. Reporter: Noverius Laoli
Editor: Noverius Laoli KONTAN.CO.ID - JAKARTA. Sejak penandatanganan Persetujuan Batas Zona Ekonomi Eksklusif (ZEE) Indonesia - Vietnam pada 22 Desember 2022, Presiden Jokowi aktif mendorong ratifikasi persetujuan ini oleh DPR. Jokowi berharap persetujuan ini menjadi salah satu pencapaian penting selama masa jabatannya. Indonesia dan Vietnam tengah menyusun Pengaturan Pelaksana terkait hak dan kewajiban kedua negara. Hingga Mei 2024, telah diadakan tiga kali pertemuan teknis untuk membahas wilayah tumpang tindih yurisdiksi ZEE dan landas kontinen RI-Vietnam, namun masih ada perbedaan pendapat. Penangkapan ikan ilegal oleh kapal Vietnam di Laut China Selatan mengancam keamanan maritim, terutama dalam konflik perikanan dengan Indonesia. Meskipun ada Persetujuan Batas ZEE, kapal nelayan Vietnam masih sering menangkap ikan di perairan Indonesia. Baca Juga: Tiga Kapal Pencuri I... Apakah artikel berita ini dapat memberi dampak dan sentimen positif masyarakat terhadap Media Arab Saudi (Arriyadiyah)?
Media Arab Saudi Melabeli Ramadhan Sananta dan Dimas Drajad sebagai Duo Mematikan dari Timnas Indonesia. Bola.com, Jakarta - Media Arab Saudi memprediksi Ramadhan Sananta dan Dimas Drajad bakal jadi senjata utama Timnas Indonesia pada laga nanti. Timnas Indonesia akan menghadapi Arab Saudi pada laga pertama putaran ketiga Kualifikasi Piala Dunia 2026 di King Abdullah Sport City, Jeddah, Jumat (6/9/2024) dini hari WIB. ada fase ini, dua tim teratas di Grup C akan otomatis lolos ke Piala Dunia 2026. Adapun di grup tersebut, selain Timnas Indonesia dan Arab Saudi, ada Australia, Bahrain, China, dan Jepang. Setelah menghadapi Arab Saudi, Timnas Indonesia akan menjamu Australia pada Selasa (10/9/2024) di Stadion Gelora Bung Tomo, Jakarta. Dalam ulasannya, media Arab Saudi, Arriyadiyah, menggarisbawahi betapa Ramadhan Sananta akan jadi pemain paling menonjol. Faktanya juga, striker Persis Solo itu memang tampil klinis dengan mencetak empat gol selama fase Kualifikasi Piala Dunia 2026. "Strik...
1
Apakah artikel berita ini dapat memberi dampak dan sentimen positif masyarakat terhadap pilkada?
Ba waslu Bone Tunggu Aduan. Ba waslu Bone Tunggu Aduan Kasus Lurah Doakan Paslon REPORTER ASHARI PN EDITOR ILHAM WASI BONE, FAJAR -- Dugaan pelanggaran yang melibatkan sejumlah oknum lurah dan kepala desa di Kabupaten Bone belum ditindaklanjuti. Ba waslu beralasan bahwa belum menerima laporan resmi. SEBELUMNYA, beredar tangkapan layar percakapan dalam grup What-sApp ASN yang menunjukkan lurah dari salah satu pasangan calon (paslon) secara terbuka menyatakan dukungannya. Dalam percakapan itu, lurah tersebut mendoakan paslon tertentu dan mengajak lurah lain untuk memberikan dukungan. "Nda ada laporan masuk, nda ada orang yang masuk di pintu laporan, mungkin informasi awal kali yah," jelas Koordinator Divisi Penanganan Pe- langgaran, Data dan Informasi Bawaslu Bone, Nur Alim. Agar masalah ini dapat segera ditindaklanjuti, kata dia, seharusnya ada pihak yang melaporkannya langsung kepada Bawaslu. Menurutnya, ada dua jalur yang bisa digunakan masyarakat untuk melapor: yang pertama...
0
- Loss:
CosineSimilarityLoss
with these parameters:{ "loss_fct": "torch.nn.modules.loss.MSELoss" }
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size
: 64per_device_eval_batch_size
: 64num_train_epochs
: 25fp16
: Truemulti_dataset_batch_sampler
: round_robin
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: noprediction_loss_only
: Trueper_device_train_batch_size
: 64per_device_eval_batch_size
: 64per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1num_train_epochs
: 25max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Falsehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: round_robin
Training Logs
Epoch | Step | Training Loss | spearman_cosine |
---|---|---|---|
0.6588 | 500 | 0.1037 | - |
1.0 | 759 | - | 0.5324 |
1.3175 | 1000 | 0.0518 | - |
1.9763 | 1500 | 0.0423 | - |
2.0 | 1518 | - | 0.5341 |
2.6350 | 2000 | 0.0354 | - |
3.0 | 2277 | - | 0.5401 |
3.2938 | 2500 | 0.0337 | - |
3.9526 | 3000 | 0.0296 | - |
4.0 | 3036 | - | 0.5413 |
4.6113 | 3500 | 0.0273 | - |
5.0 | 3795 | - | 0.5426 |
5.2701 | 4000 | 0.0253 | - |
5.9289 | 4500 | 0.0243 | - |
6.0 | 4554 | - | 0.5429 |
6.5876 | 5000 | 0.0228 | - |
7.0 | 5313 | - | 0.5368 |
7.2464 | 5500 | 0.022 | - |
7.9051 | 6000 | 0.0201 | - |
8.0 | 6072 | - | 0.5442 |
8.5639 | 6500 | 0.019 | - |
9.0 | 6831 | - | 0.5391 |
9.2227 | 7000 | 0.0184 | - |
9.8814 | 7500 | 0.0183 | - |
10.0 | 7590 | - | 0.5466 |
Framework Versions
- Python: 3.12.8
- Sentence Transformers: 3.3.1
- Transformers: 4.46.3
- PyTorch: 2.5.1+cu124
- Accelerate: 1.3.0
- Datasets: 3.2.0
- Tokenizers: 0.20.3
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
- Downloads last month
- 0
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.
Model tree for masa-research/ie5-small-v4-preskripsi-binary-sentimen-acc90-20250123_102755
Base model
LazarusNLP/all-indo-e5-small-v4Evaluation results
- Pearson Cosine on Unknownself-reported0.722
- Spearman Cosine on Unknownself-reported0.547