JaCzat / embed.py
jaczad's picture
Upload folder using huggingface_hub
3859ad7 verified
raw
history blame contribute delete
885 Bytes
import pickle
from sentence_transformers import SentenceTransformer
# Inicjalizacja modelu
model = SentenceTransformer("quanthome/paraphrase-multilingual-MiniLM-L12-v2")
# Odczyt pliku i przetwarzanie jego zawartości
try:
with open('wcag.txt', "r", encoding='utf-8', errors='ignore') as wsad:
dane = wsad.readlines()
except FileNotFoundError:
print("Plik 'wcag.txt' nie został znaleziony.")
dane = []
# Sprawdzenie, czy dane zostały załadowane poprawnie
if dane:
embeddings = model.encode(dane)
# Powiązanie wektorów z tekstami
vector_map = {line.strip(): embedding for line, embedding in zip(dane, embeddings)}
# Zapisanie słownika do pliku
with open('vector_map.pkl', 'wb') as f:
pickle.dump(vector_map, f)
print("Słownik został zapisany do pliku 'vector_map.pkl'.")
else:
print("Brak danych do przetworzenia.")