Spaces:

minishlab
/

semantic-deduplication

Running

App Files Files Community

Pringled commited on 22 days ago

Commit

c8fad0f

unverified ·

1 Parent(s): b54da62

Switched default dataset

Browse files

Files changed (1) hide show

app.py +17 -21

app.py CHANGED Viewed

@@ -8,7 +8,7 @@ from semhash.datamodels import DeduplicationResult
 from model2vec import StaticModel
 # Default parameters
-default_dataset_name = "ag_news"
 default_dataset1_split = "train"
 default_dataset2_split = "test"
 default_text_column = "text"
@@ -96,9 +96,12 @@ def perform_deduplication(
             # Show example duplicates
             if num_duplicates > 0:
                 result_text += "**Example duplicates:**\n\n"
-                for duprec in result.duplicates[:5]:
-                    dup_text = duprec.record
-                    if duprec.duplicates:
                         orig_text, score = duprec.duplicates[0]
                         differences = display_word_differences(orig_text, dup_text)
                         result_text += (
@@ -108,13 +111,8 @@ def perform_deduplication(
                             f"**Differences:**\n{differences}\n"
                             + "-" * 50 + "\n\n"
                         )
-                    else:
-                        # Possibly an exact duplicate cluster
-                        result_text += (
-                            f"**Duplicate:**\n{dup_text}\n\n"
-                            "No near-duplicate details available.\n"
-                            + "-" * 50 + "\n\n"
-                        )
             else:
                 result_text += "No duplicates found."
@@ -145,9 +143,12 @@ def perform_deduplication(
             if num_duplicates > 0:
                 result_text += "**Example duplicates from Dataset 2:**\n\n"
-                for duprec in result.duplicates[:5]:
-                    dup_text = duprec.record  # The "duplicate" text from dataset2
-                    if duprec.duplicates:
                         orig_text, score = duprec.duplicates[0]
                         differences = display_word_differences(orig_text, dup_text)
                         result_text += (
@@ -157,12 +158,8 @@ def perform_deduplication(
                             f"**Differences:**\n{differences}\n"
                             + "-" * 50 + "\n\n"
                         )
-                    else:
-                        result_text += (
-                            f"**Potential Duplicate (Dataset 2):**\n{dup_text}\n\n"
-                            "No near-duplicate details available.\n"
-                            + "-" * 50 + "\n\n"
-                        )
             else:
                 result_text += "No duplicates found."
@@ -232,4 +229,3 @@ with gr.Blocks(theme=gr.themes.Ocean(), css="#status_output { height: 50px; over
     )
 demo.launch()

 from model2vec import StaticModel
 # Default parameters
+default_dataset_name = "SetFit/amazon_massive_scenario_en-US"
 default_dataset1_split = "train"
 default_dataset2_split = "test"
 default_text_column = "text"
             # Show example duplicates
             if num_duplicates > 0:
                 result_text += "**Example duplicates:**\n\n"
+                # Only show duplicates that actually have near-duplicate records
+                duplicates_with_data = [duprec for duprec in result.duplicates if duprec.duplicates]
+                if duplicates_with_data:
+                    for duprec in duplicates_with_data[:5]:
+                        dup_text = duprec.record
                         orig_text, score = duprec.duplicates[0]
                         differences = display_word_differences(orig_text, dup_text)
                         result_text += (
                             f"**Differences:**\n{differences}\n"
                             + "-" * 50 + "\n\n"
                         )
+                else:
+                    result_text += "No near-duplicate details available.\n\n"
             else:
                 result_text += "No duplicates found."
             if num_duplicates > 0:
                 result_text += "**Example duplicates from Dataset 2:**\n\n"
+                # Again, only show duplicates that actually have near-duplicate records
+                duplicates_with_data = [duprec for duprec in result.duplicates if duprec.duplicates]
+                if duplicates_with_data:
+                    for duprec in duplicates_with_data[:5]:
+                        dup_text = duprec.record  # The "duplicate" text from dataset2
                         orig_text, score = duprec.duplicates[0]
                         differences = display_word_differences(orig_text, dup_text)
                         result_text += (
                             f"**Differences:**\n{differences}\n"
                             + "-" * 50 + "\n\n"
                         )
+                else:
+                    result_text += "No near-duplicate details available.\n\n"
             else:
                 result_text += "No duplicates found."
     )
 demo.launch()