biodatlab
/

score-claim-identification

Text Classification

Inference Endpoints

Model card Files Files and versions Community

titipata commited on Jun 1, 2023

Commit

59f5094

•

1 Parent(s): f2cae39

Create README.md

Files changed (1) hide show

README.md +57 -0

README.md ADDED Viewed

	@@ -0,0 +1,57 @@

+---
+license: mit
+language:
+- en
+metrics:
+- f1
+- accuracy
+pipeline_tag: text-classification
+tags:
+- social science
+- covid
+---
+# SCORE Claim Identification
+This is a model card for detecting claims from an abstract of social science publications.
+The model takes an abstract, performs sentence tokenization, and predict a claim probability of each sentence.
+This model card is released by training on a [SCORE](https://www.cos.io/score) dataset.
+```py
+import spacy
+from transformers import AutoTokenizer
+from transformers import AutoModelForSequenceClassification
+nlp = spacy.load("en_core_web_lg")
+model_name = "biodatlab/score-claim-identification"
+tokenizer_name = "allenai/scibert_scivocab_uncased"
+tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
+model = AutoModelForSequenceClassification.from_pretrained(model_name)
+def inference(abstract: str):
+    """
+    Split an abstract into sentences and perform claim identification.
+    """
+    if abstract.strip() == "":
+        return "Please provide an abstract as an input."
+    claims = []
+    sents = [sent.text for sent in nlp(abstract).sents]  # a list of sentences
+    inputs = tokenizer(
+        sents,
+        return_tensors="pt",
+        truncation=True,
+        padding="longest"
+    )
+    logits = model(**inputs).logits
+    preds = logits.argmax(dim=1)  # convert logits to predictions
+    claims = [sent for sent, pred in zip(sents, preds) if pred == 1]
+    if len(claims) > 0:
+        return ".\n".join(claims)
+    else:
+        return "No claims found from a given abstract."
+claims = inference(abstract)  # string of claim joining with \n
+```
+See more on `gradio` application in `biodatlab` space.