Spaces:

timpan
/

summary-simi-check4qee

Build error

hellopahe commited on Sep 2, 2023

Commit

94692cf

1 Parent(s): d777f98

remove redundancy

Files changed (5) hide show

lex_rank.py CHANGED Viewed

@@ -5,7 +5,7 @@ nltk.download('punkt')
 from harvesttext import HarvestText
-from lex_rank_util import degree_centrality_scores, find_siblings
 from sentence_transformers import SentenceTransformer, util
@@ -30,15 +30,13 @@ class LexRank(object):
         # We argsort so that the first element is the sentence with the highest score
         most_central_sentence_indices = numpy.argsort(-centrality_scores)
-        # num = 100
         res = []
-        for index in most_central_sentence_indices:
-            if num < 0:
-                break
-            res.append(find_siblings(sentences, index, siblings)[1])
-            num -= 1
         return res
     def contains_chinese(self, content: str):
         for _char in content:
             if '\u4e00' <= _char <= '\u9fa5':

 from harvesttext import HarvestText
+from lex_rank_util import degree_centrality_scores, find_siblings_by_index
 from sentence_transformers import SentenceTransformer, util
         # We argsort so that the first element is the sentence with the highest score
         most_central_sentence_indices = numpy.argsort(-centrality_scores)
+        central_and_siblings = find_siblings_by_index(sentences, most_central_sentence_indices, siblings, num)
         res = []
+        for index in central_and_siblings:
+            res.append(sentences[index])
         return res
     def contains_chinese(self, content: str):
         for _char in content:
             if '\u4e00' <= _char <= '\u9fa5':

lex_rank_L12.py CHANGED Viewed

@@ -3,7 +3,7 @@ nltk.download('punkt')
 from harvesttext import HarvestText
-from lex_rank_util import degree_centrality_scores, find_siblings
 from sentence_transformers import SentenceTransformer, util
@@ -28,13 +28,10 @@ class LexRankL12(object):
         # We argsort so that the first element is the sentence with the highest score
         most_central_sentence_indices = numpy.argsort(-centrality_scores)
-        # num = 100
         res = []
-        for index in most_central_sentence_indices:
-            if num < 0:
-                break
-            res.append(find_siblings(sentences, index, siblings)[1])
-            num -= 1
         return res
     def contains_chinese(self, content: str):

 from harvesttext import HarvestText
+from lex_rank_util import degree_centrality_scores, find_siblings_by_index
 from sentence_transformers import SentenceTransformer, util
         # We argsort so that the first element is the sentence with the highest score
         most_central_sentence_indices = numpy.argsort(-centrality_scores)
+        central_and_siblings = find_siblings_by_index(sentences, most_central_sentence_indices, siblings, num)
         res = []
+        for index in central_and_siblings:
+            res.append(sentences[index])
         return res
     def contains_chinese(self, content: str):

lex_rank_text2vec_v1.py CHANGED Viewed

@@ -3,7 +3,7 @@ nltk.download('punkt')
 from harvesttext import HarvestText
-from lex_rank_util import degree_centrality_scores, find_siblings
 from sentence_transformers import SentenceTransformer, util
@@ -28,13 +28,10 @@ class LexRankText2VecV1(object):
         # We argsort so that the first element is the sentence with the highest score
         most_central_sentence_indices = numpy.argsort(-centrality_scores)
-        # num = 100
         res = []
-        for index in most_central_sentence_indices:
-            if num < 0:
-                break
-            res.append(find_siblings(sentences, index, siblings)[1])
-            num -= 1
         return res
     def contains_chinese(self, content: str):

 from harvesttext import HarvestText
+from lex_rank_util import degree_centrality_scores, find_siblings_by_index
 from sentence_transformers import SentenceTransformer, util
         # We argsort so that the first element is the sentence with the highest score
         most_central_sentence_indices = numpy.argsort(-centrality_scores)
+        central_and_siblings = find_siblings_by_index(sentences, most_central_sentence_indices, siblings, num)
         res = []
+        for index in central_and_siblings:
+            res.append(sentences[index])
         return res
     def contains_chinese(self, content: str):

lex_rank_util.py CHANGED Viewed

@@ -124,9 +124,17 @@ def stationary_distribution(
     return distribution
-def find_siblings(sentences: [str], idx: int, siblings: int) -> (int, str):
-    if not siblings < math.ceil(len(sentences) / 2):
-        return -1, "siblings too large, try some value smaller."
-    head = max(idx - siblings, 0)
-    tail = min(idx + siblings + 1, len(sentences))
-    return 0, "".join(sentences[head:tail])

     return distribution
+def find_siblings_by_index(sentences: [str], central_indices: [int], siblings: int, num: int):
+    ret = []
+    for idx in central_indices:
+        if num < 0:
+            break
+        head = max(idx - siblings, 0)
+        tail = min(idx + siblings + 1, len(sentences))
+        for i in range(head, tail):
+            if i not in ret:
+                ret.append(i)
+                num -= 1
+    print(ret)
+    return ret

test.py ADDED Viewed

+s = set()
+for i in range
+arr = [i for i in s]
+print(type(arr))
+arr.sort(reverse=True)
+print(arr)