Spaces:

marksverdhei
/

explore-embedding-inversion

Sleeping

marksverdhei commited on Oct 16, 2024

Commit

6b30d5d

1 Parent(s): 4b61117

Add explanation

Files changed (3) hide show

app.py CHANGED Viewed

@@ -5,7 +5,8 @@ import views
 from resources import load_corrector, load_data, load_model_and_tokenizer, reduce_embeddings
 use_cpu = not torch.cuda.is_available()
-device = "cpu" if use_cpu else "cuda"
 df = load_data()
@@ -29,6 +30,9 @@ def sidebar():
         "We explore both sequence embedding inversion using the method described in [Morris et al., 2023](https://arxiv.org/abs/2310.06816), as well as"
         " dimensionality rediction transforms and inverse transforms, and its effect on embedding inversion."
     )
 sidebar()

 from resources import load_corrector, load_data, load_model_and_tokenizer, reduce_embeddings
 use_cpu = not torch.cuda.is_available()
+# device = "cpu" if use_cpu else "cuda"
+device = "cpu"
 df = load_data()
         "We explore both sequence embedding inversion using the method described in [Morris et al., 2023](https://arxiv.org/abs/2310.06816), as well as"
         " dimensionality rediction transforms and inverse transforms, and its effect on embedding inversion."
     )
+    st.sidebar.markdown(
+        "### The Dataset\nThe dataset in use is the Reddit SYAC dataset train split ([Heiervang, 2022](https://www.duo.uio.no/handle/10852/96578)), which contains the title of different clickbait articles."
+    )
 sidebar()

resources.py CHANGED Viewed

@@ -42,13 +42,14 @@ def load_model_and_tokenizer(device="cpu"):
 def get_gtr_embeddings(text_list: list[str],
                        encoder: PreTrainedModel,
                        tokenizer: PreTrainedTokenizer,
                        ) -> torch.Tensor:
     inputs = tokenizer(text_list,
                        return_tensors="pt",
                        max_length=128,
                        truncation=True,
-                       padding="max_length",).to("cuda")
     with torch.no_grad():
         model_output = encoder(input_ids=inputs['input_ids'], attention_mask=inputs['attention_mask'])

 def get_gtr_embeddings(text_list: list[str],
                        encoder: PreTrainedModel,
                        tokenizer: PreTrainedTokenizer,
+                       device: str,
                        ) -> torch.Tensor:
     inputs = tokenizer(text_list,
                        return_tensors="pt",
                        max_length=128,
                        truncation=True,
+                       padding="max_length",).to(device)
     with torch.no_grad():
         model_output = encoder(input_ids=inputs['input_ids'], attention_mask=inputs['attention_mask'])

views.py CHANGED Viewed

@@ -9,9 +9,10 @@ import utils
 import pandas as pd
 from scipy.spatial import distance
 from resources import get_gtr_embeddings
 dimensionality_reduction_model_name = "PCA"
-def diffs(embeddings: np.ndarray, corrector, encoder, tokenizer):
     st.title('"A man is to king, what woman is to queen"')
     st.markdown("A well known pehnomenon in semantic vectors is the way we can do vector operations like addition and subtraction to find spacial relations in the vector space.")
     st.markdown(
@@ -34,7 +35,7 @@ def diffs(embeddings: np.ndarray, corrector, encoder, tokenizer):
         st.latex("=")
         if submit_button:
-            v1, v2, v3 = get_gtr_embeddings([sent1, sent2, sent3], encoder, tokenizer).to("cpu")
             v4 = v1 - v2 + v3
             generated_sentence, = vec2text.invert_embeddings(
                 embeddings=v4.unsqueeze(0).cuda(),

 import pandas as pd
 from scipy.spatial import distance
 from resources import get_gtr_embeddings
+from transformers import PreTrainedModel, PreTrainedTokenizer
 dimensionality_reduction_model_name = "PCA"
+def diffs(embeddings: np.ndarray, corrector, encoder: PreTrainedModel, tokenizer: PreTrainedTokenizer):
     st.title('"A man is to king, what woman is to queen"')
     st.markdown("A well known pehnomenon in semantic vectors is the way we can do vector operations like addition and subtraction to find spacial relations in the vector space.")
     st.markdown(
         st.latex("=")
         if submit_button:
+            v1, v2, v3 = get_gtr_embeddings([sent1, sent2, sent3], encoder, tokenizer, device=encoder.device).to("cpu")
             v4 = v1 - v2 + v3
             generated_sentence, = vec2text.invert_embeddings(
                 embeddings=v4.unsqueeze(0).cuda(),