fixie-ai
/

ultravox-v0_2

Audio-Text-to-Text

feature-extraction

Model card Files Files and versions Community

farzadab commited on Jul 12, 2024

Commit

f807815

·

verified ·

1 Parent(s): 909cf24

Update ultravox_pipeline.py

Files changed (1) hide show

ultravox_pipeline.py +9 -4

ultravox_pipeline.py CHANGED Viewed

@@ -19,7 +19,7 @@ class UltravoxPipeline(transformers.Pipeline):
     ):
         if tokenizer is None:
             tokenizer = transformers.AutoTokenizer.from_pretrained(
-                model.config._name_or_path
             )
         if audio_processor is None:
@@ -49,15 +49,20 @@ class UltravoxPipeline(transformers.Pipeline):
         if "turns" in inputs:
             turns = inputs["turns"]
         else:
             prompt = inputs.get("prompt", "<|audio|>")
             if "<|audio|>" not in prompt:
                 logging.warning(
                     "Prompt does not contain '<|audio|>', appending '<|audio|>' to the end of the prompt."
                 )
                 prompt += " <|audio|>"
-            turns = [{"role": "user", "content": prompt}]
-        text = self.processor.tokenizer.apply_chat_template(turns, tokenize=False)
         # TODO: allow text-only mode?
         assert "audio" in inputs, "Audio input is required"
@@ -113,4 +118,4 @@ transformers.pipelines.PIPELINE_REGISTRY.register_pipeline(
     pipeline_class=UltravoxPipeline,
     pt_model=transformers.AutoModel,
     type="multimodal",
-)

     ):
         if tokenizer is None:
             tokenizer = transformers.AutoTokenizer.from_pretrained(
+                model.config.text_config._name_or_path
             )
         if audio_processor is None:
         if "turns" in inputs:
             turns = inputs["turns"]
         else:
+            turns = []
+        if not turns or turns[-1]["role"] != "user":
             prompt = inputs.get("prompt", "<|audio|>")
             if "<|audio|>" not in prompt:
                 logging.warning(
                     "Prompt does not contain '<|audio|>', appending '<|audio|>' to the end of the prompt."
                 )
                 prompt += " <|audio|>"
+            turns.append({"role": "user", "content": prompt})
+        text = self.processor.tokenizer.apply_chat_template(
+            turns, add_generation_prompt=True, tokenize=False
+        )
         # TODO: allow text-only mode?
         assert "audio" in inputs, "Audio input is required"
     pipeline_class=UltravoxPipeline,
     pt_model=transformers.AutoModel,
     type="multimodal",
+)