SentenceTransformer based on intfloat/multilingual-e5-small
This is a sentence-transformers model finetuned from intfloat/multilingual-e5-small on the preskripsi-sentiment-analysis-dataset-for-embedding-ft dataset. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: intfloat/multilingual-e5-small
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 384 dimensions
- Similarity Function: Cosine Similarity
- Training Dataset:
- preskripsi-sentiment-analysis-dataset-for-embedding-ft
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("masa-research/me5-small-preskripsi-embedding-pos-multineg")
# Run inference
sentences = [
'Bambang Hermanto Serukan Ketertiban Pasca Insiden Penghadangan Kampanye Calon Bupati. RADARINDRAMAYU.ID - Kampanye politik di Kabupaten Indramayu mulai memanas setelah terjadi penghadangan oleh sekelompok orang terhadap calon Bupati Indramayu nomor urut 3, Nina Agustina, saat ia hendak berkampanye di Desa Tegal Taman, Kecamatan Sukra, beberapa waktu lalu.\\xa0\\n Kejadian tersebut tentunya telah memicu reaksi dari berbagai elemen masyarakat, yang khawatir akan stabilitas dan keamanan dalam pelaksanaan Pilkada 2024.\\n Sejumlah organisasi masyarakat dan tokoh lokal mengecam tindakan penghadangan tersebut, menilai bahwa hal itu bertentangan dengan semangat demokrasi.\\xa0\\n Mereka menekankan pentingnya kebebasan berpendapat dan berkampanye tanpa intimidasi.\\xa0\\n Situasi ini menunjukkan bahwa suhu politik di Indramayu mulai meningkat menjelang pemilihan, dan masyarakat diimbau untuk tetap tenang dan bijaksana.\\n Menanggapi situasi ini, Bambang Hermanto, calon Bupati Indramayu nomor urut 1, mengajak seluruh masyarakat untuk menjaga ketertiban dan keamanan selama proses Pilkada.\\xa0\\n Dalam pernyataan resmi di Instagram pribadinya, pada Sabtu, 2 November 2024, Bambang menegaskan,\\n "Saya Bambang Hermanto, calon bupati wong Dermayu nomor urut 1. Saya ingin mengimbau kepada seluruh lapisan masyarakat Indramayu untuk sama-sama menjaga kondusifitas lingkungan, jangan sampai kita terpecah belah,"\\n Jika terpecah belah, kata Bambang, nanti masyarakat Indramayu akan merasakan sendiri akibat dari perpecahan tersebut.\\xa0\\n Bambang menambahkan bahwa masyarakat Indramayu harus cerdas dalam memilih pemimpin yang mampu memberikan kenyamanan dan mengayomi.\\xa0\\n Ia percaya bahwa warga Indramayu sudah memiliki pemahaman yang baik tentang calon-calon mereka, dan berharap agar pemilihan berlangsung dengan damai.\\xa0\\n "Saya yakin dan percaya masyarakat Indramayu sudah pada cerdas semua, sudah punya pilihan siapa calon Bupatinya yang betul-betul bisa memimpin Indramayu lebih baik lagi," ujarnya.\\n Diharapkan semua pihak dapat saling bekerja sama dalam menjaga situasi tetap kondusif, demi terciptanya pemilihan yang adil dan demokratis.',
'Seberapa kuat artikel ini mengandung sentimen negatif atau kritik yang dapat merugikan atau menciptakan persepsi buruk terhadap pilkada 2024?',
'Seberapa kuat artikel ini mengandung sentimen positif, dukungan, atau manfaat yang dapat meningkatkan citra atau reputasi pilkada 2024?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
preskripsi-sentiment-analysis-dataset-for-embedding-ft
- Dataset: preskripsi-sentiment-analysis-dataset-for-embedding-ft
- Size: 46,095 training samples
- Columns:
artikel
,positive
,negative_1
, andnegative_2
- Approximate statistics based on the first 1000 samples:
artikel positive negative_1 negative_2 type string string string string details - min: 32 tokens
- mean: 439.08 tokens
- max: 512 tokens
- min: 24 tokens
- mean: 28.16 tokens
- max: 78 tokens
- min: 27 tokens
- mean: 31.16 tokens
- max: 81 tokens
- min: 27 tokens
- mean: 31.16 tokens
- max: 81 tokens
- Samples:
artikel positive negative_1 negative_2 Apa Kabar Elkan Baggott Setelah Absen 10 Bulan dari Timnas Indonesia? Lagi Terapi Cedera Pergelangan Kaki dan Segera Comeback. Bola.com, Blackpool - Cedera pergelangan kaki Elkan Baggott hampir sembuh. Bek berusia 22 tahun itu segera kembali bermain untuk Blackpool FC di kasta ketiga Liga Inggris? Elkan Baggott telah absen membela Blackpool sejak Agustus 2024 akibat cedera pergelangan kaki yang membuatnya baru bermain empat kali pada musim ini. Penampilan terakhir Elkan Baggott di Blackpool terjadi pada 24 Agustus 2024, ketika bermain imbang 4-4 melawan Cambridge United dalam matchday ketiga League One 2024/2025. Elkan Baggott sedang menjalani peminjaman di Blackpool selama semusim dari Ipswich Town. Pemain kelahiran Bangkok, Thailand, itu diperkirakan akan kembali membela Blackpool kontra Liverpool U-21 dalam EFL Trophy 2024/2025 pada 7 November 2024. "Elkan Baggott menjalani sesi latihan pertamanya, jadi senang bisa melihatnya kembali bersama tim," ujar pelatih Blackpool, Stephen Dob...
Seberapa kuat artikel ini mengandung sentimen negatif atau kritik yang dapat merugikan atau menciptakan persepsi buruk terhadap timnas indonesia?
Seberapa kuat artikel ini mengandung sentimen positif, dukungan, atau manfaat yang dapat meningkatkan citra atau reputasi timnas indonesia?
Seberapa netral artikel ini? Apakah artikel ini hanya menyajikan fakta atau informasi tanpa memberikan opini atau emosi terhadap timnas indonesia?
Di Balik Penangkapan Terduga Teroris di 3 Wilayah Jawa Timur dan NTB. KOMPAS.com- Detasemen Khusus (Densus) 88 Antiteror Mabes Polri menangkap sejumlah terduga teroris di Nusa Tenggara Barat dan Jawa Timur, beberapa hari terakhir. Mulanya penangkapan dilakukan terhadap MT di Bima, NTB pada 31 Mei 2023. Dari keterangan Mabes Polri, MT difasilitasi untuk berangkat ke Yaman dan bergabung dengan organisasi AQAP (cabang AlQaedah). Selanjutnya, berdasarkan pengembangan, Densus menangkap sejumlah terduga teroris lainnya. Pada Jumat (2/6/2023) pagi Densus menangkap ABU, terduga teroris di Jalan Kalimas Madya III Nyamplungan, Kecamatan Pabean Cantian, Surabaya, Jawa Timur. "Diamankan 07.30 WIB, setahu saya di rumahnya," kata Ketua RT M. Abri, Sabtu (3/6/2023). Setelah penangkapan tersebut dilakukan penggeledahan di rumah ABU. Abri yang turut serta dalam penggeledahan mengatakan polisi menyita sejumlah buku, busur, dan anak panah. "Iya ada panah. Ujungnya memang sangat tajam. Tapi tadi saya liha...
Seberapa kuat artikel ini mengandung sentimen negatif atau kritik yang dapat merugikan atau menciptakan persepsi buruk terhadap MT?
Seberapa kuat artikel ini mengandung sentimen positif, dukungan, atau manfaat yang dapat meningkatkan citra atau reputasi MT?
Seberapa netral artikel ini? Apakah artikel ini hanya menyajikan fakta atau informasi tanpa memberikan opini atau emosi terhadap MT?
Dirjen Imigrasi Enggan Salahkan Siapapun Soal Peretasan: Sesama Bus Kota Enggak Boleh Saling Menyalip. JAKARTA, KOMPAS.com - Direktur Jenderal (Dirjen) Imigrasi Silmy Karim enggan menyalahkan siapa pun atas peristiwa gangguan sistem pelayanan imigrasi, yang terjadi karena peretasan Pusat Data Nasional (PDN). Menurutnya, ia tak berwenang untuk menilai kementerian/lembaga lain atas peristiwa peretasan yang terjadi. "Ya enggak mungkin saya gitu (menilai)," kata Silmy dalam konferensi pers di kawasan Jakarta Selatan, Jumat (28/6/2024). "Sudah lah, sesama bus kota enggak boleh saling menyalip," tambahnya. Ia menambahkan, hanya pakar di luar kementerian/lembaga yang berhak menilai atas peristiwa yang terjadi. Termasuk, siapa yang patut bertanggungjawab atas peristiwa ini. "Itu yang bisa ngomong kayak gitu pengamat, bisa lah. Saya enggak bisa," tegas Silmy. Sebelumnya, muncul petisi online untuk meminta Menkominfo Budi Arie Setiadi mundur karena dianggap tak bisa menyelesaikan PDN yang disera...
Seberapa kuat artikel ini mengandung sentimen negatif atau kritik yang dapat merugikan atau menciptakan persepsi buruk terhadap Budi Arie Setiadi?
Seberapa kuat artikel ini mengandung sentimen positif, dukungan, atau manfaat yang dapat meningkatkan citra atau reputasi Budi Arie Setiadi?
Seberapa netral artikel ini? Apakah artikel ini hanya menyajikan fakta atau informasi tanpa memberikan opini atau emosi terhadap Budi Arie Setiadi?
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size
: 16per_device_eval_batch_size
: 16learning_rate
: 2e-05num_train_epochs
: 1warmup_ratio
: 0.1push_to_hub
: Truehub_model_id
: masa-research/me5-small-preskripsi-embedding-pos-multinegbatch_sampler
: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: noprediction_loss_only
: Trueper_device_train_batch_size
: 16per_device_eval_batch_size
: 16per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 2e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 1max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Trueresume_from_checkpoint
: Nonehub_model_id
: masa-research/me5-small-preskripsi-embedding-pos-multineghub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss |
---|---|---|
0.1041 | 300 | 1.5302 |
0.2083 | 600 | 0.8311 |
0.3124 | 900 | 0.7495 |
0.4165 | 1200 | 1.1801 |
0.5207 | 1500 | 0.9683 |
0.6248 | 1800 | 0.8723 |
0.7289 | 2100 | 0.9991 |
0.8330 | 2400 | 0.4833 |
0.9372 | 2700 | 0.4694 |
Framework Versions
- Python: 3.11.11
- Sentence Transformers: 3.3.1
- Transformers: 4.47.1
- PyTorch: 2.5.1+cu124
- Accelerate: 1.2.1
- Datasets: 3.2.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 5
Inference Providers
NEW
This model is not currently available via any of the supported third-party Inference Providers, and
the model is not deployed on the HF Inference API.
Model tree for masa-research/me5-small-preskripsi-embedding-pos-multineg
Base model
intfloat/multilingual-e5-small