import pickle | |
from sentence_transformers import SentenceTransformer | |
# Inicjalizacja modelu | |
model = SentenceTransformer("quanthome/paraphrase-multilingual-MiniLM-L12-v2") | |
# Odczyt pliku i przetwarzanie jego zawartości | |
try: | |
with open('wcag.txt', "r", encoding='utf-8', errors='ignore') as wsad: | |
dane = wsad.readlines() | |
except FileNotFoundError: | |
print("Plik 'wcag.txt' nie został znaleziony.") | |
dane = [] | |
# Sprawdzenie, czy dane zostały załadowane poprawnie | |
if dane: | |
embeddings = model.encode(dane) | |
# Powiązanie wektorów z tekstami | |
vector_map = {line.strip(): embedding for line, embedding in zip(dane, embeddings)} | |
# Zapisanie słownika do pliku | |
with open('vector_map.pkl', 'wb') as f: | |
pickle.dump(vector_map, f) | |
print("Słownik został zapisany do pliku 'vector_map.pkl'.") | |
else: | |
print("Brak danych do przetworzenia.") | |