Spaces:

awacke1
/

ASRGenerateStoryandVideo

Build error

App Files Files Community

awacke1 commited on Jun 14, 2022

Commit

561b096

1 Parent(s): 0841b6b

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -46

app.py CHANGED Viewed

@@ -1,22 +1,22 @@
 import gradio as gr
-from transformers import pipeline
 import io, base64
-from PIL import Image
 import numpy as np
 import tensorflow as tf
 import mediapy
 import os
 import sys
-from huggingface_hub import snapshot_download
 import streamlit as st
 import firebase_admin
-from firebase_admin import credentials
-from firebase_admin import firestore
 import datetime
-# load cloud firestore client which establishes a connection to dataset where we persist data
 @st.experimental_singleton
 def get_db_firestore():
     cred = credentials.Certificate('test.json')
@@ -24,16 +24,23 @@ def get_db_firestore():
     db = firestore.client()
     return db
-#start it up
 db = get_db_firestore()
 asr = pipeline("automatic-speech-recognition", "facebook/wav2vec2-base-960h")
 def transcribe(audio):
     text = asr(audio)["text"]
     return text
-classifier = pipeline("text-classification")
 def speech_to_text(speech):
     text = asr(speech)["text"]
     return text
@@ -67,50 +74,34 @@ def selectall(text):
         r=(f'{doc.id} => {doc.to_dict()}')
         doclist += r
     return doclist
-#demo = gr.Blocks()
-#demo.launch(share=True)
-# 1. GPT-J: Story Generation Pipeline
-story_gen = pipeline("text-generation", "pranavpsv/gpt2-genre-story-generator")
-# 2. LatentDiffusion: Latent Diffusion Interface
 image_gen = gr.Interface.load("spaces/multimodalart/latentdiffusion")
-# 3. FILM: Frame Interpolation Model (code re-use from spaces/akhaliq/frame-interpolation/tree/main)
 os.system("git clone https://github.com/google-research/frame-interpolation")
 sys.path.append("frame-interpolation")
-from eval import interpolator, util
 ffmpeg_path = util.get_ffmpeg_path()
 mediapy.set_ffmpeg(ffmpeg_path)
 model = snapshot_download(repo_id="akhaliq/frame-interpolation-film-style")
 interpolator = interpolator.Interpolator(model, None)
 def generate_story(choice, input_text):
     query = "<BOS> <{0}> {1}".format(choice, input_text)
-    print(query)
     generated_text = story_gen(query)
     generated_text = generated_text[0]['generated_text']
     generated_text = generated_text.split('> ')[2]
     return generated_text
-def generate_images(generated_text):
     steps=50
     width=256
     height=256
     num_images=4
     diversity=6
-    image_bytes = image_gen(generated_text, steps, width, height, num_images, diversity)
-    # Algo from spaces/Gradio-Blocks/latent_gpt2_story/blob/main/app.py
     generated_images = []
     for image in image_bytes[1]:
         image_str = image[0]
@@ -118,56 +109,44 @@ def generate_images(generated_text):
         decoded_bytes = base64.decodebytes(bytes(image_str, "utf-8"))
         img = Image.open(io.BytesIO(decoded_bytes))
         generated_images.append(img)
     return generated_images
 def generate_interpolation(gallery):
     times_to_interpolate = 4
     generated_images = []
     for image_str in gallery:
         image_str = image_str.replace("data:image/png;base64,","")
         decoded_bytes = base64.decodebytes(bytes(image_str, "utf-8"))
         img = Image.open(io.BytesIO(decoded_bytes))
         generated_images.append(img)
     generated_images[0].save('frame_0.png')
     generated_images[1].save('frame_1.png')
     generated_images[2].save('frame_2.png')
     generated_images[3].save('frame_3.png')
     input_frames = ["frame_0.png", "frame_1.png", "frame_2.png", "frame_3.png"]
     frames = list(util.interpolate_recursively_from_files(input_frames, times_to_interpolate, interpolator))
     mediapy.write_video("out.mp4", frames, fps=15)
     return "out.mp4"
 demo = gr.Blocks()
 with demo:
-    #audio_file = gr.Audio(type="filepath")
     audio_file = gr.inputs.Audio(source="microphone", type="filepath")
     text = gr.Textbox()
     label = gr.Label()
     saved = gr.Textbox()
-    savedAll = gr.Textbox()
     b1 = gr.Button("Recognize Speech")
     b2 = gr.Button("Classify Sentiment")
     b3 = gr.Button("Save Speech to Text")
     b4 = gr.Button("Retrieve All")
     b1.click(speech_to_text, inputs=audio_file, outputs=text)
     b2.click(text_to_sentiment, inputs=text, outputs=label)
     b3.click(upsert, inputs=text, outputs=saved)
     b4.click(selectall, inputs=text, outputs=savedAll)
     with gr.Row():
         # Left column (inputs)
         with gr.Column():
             input_story_type = gr.Radio(choices=['superhero', 'action', 'drama', 'horror', 'thriller', 'sci_fi'], value='sci_fi', label="Genre")

 import gradio as gr
 import io, base64
 import numpy as np
 import tensorflow as tf
 import mediapy
 import os
 import sys
 import streamlit as st
 import firebase_admin
 import datetime
+from transformers import pipeline
+from PIL import Image
+from huggingface_hub import snapshot_download
+from firebase_admin import credentials
+from firebase_admin import firestore
+from eval import interpolator, util
+# firestore singleton is a cached multiuser instance to persist shared crowdsource memory
 @st.experimental_singleton
 def get_db_firestore():
     cred = credentials.Certificate('test.json')
     db = firestore.client()
     return db
+#start firestore singleton
 db = get_db_firestore()
+# create ASR ML pipeline
 asr = pipeline("automatic-speech-recognition", "facebook/wav2vec2-base-960h")
+# create Text Classification pipeline
+classifier = pipeline("text-classification")
+# create text generator pipeline
+story_gen = pipeline("text-generation", "pranavpsv/gpt2-genre-story-generator")
+# transcribe function
 def transcribe(audio):
     text = asr(audio)["text"]
     return text
 def speech_to_text(speech):
     text = asr(speech)["text"]
     return text
         r=(f'{doc.id} => {doc.to_dict()}')
         doclist += r
     return doclist
+# image generator
 image_gen = gr.Interface.load("spaces/multimodalart/latentdiffusion")
+# video generator
 os.system("git clone https://github.com/google-research/frame-interpolation")
 sys.path.append("frame-interpolation")
 ffmpeg_path = util.get_ffmpeg_path()
 mediapy.set_ffmpeg(ffmpeg_path)
 model = snapshot_download(repo_id="akhaliq/frame-interpolation-film-style")
 interpolator = interpolator.Interpolator(model, None)
+# story gen
 def generate_story(choice, input_text):
     query = "<BOS> <{0}> {1}".format(choice, input_text)
     generated_text = story_gen(query)
     generated_text = generated_text[0]['generated_text']
     generated_text = generated_text.split('> ')[2]
     return generated_text
+# images gen
+def generate_images(text):
     steps=50
     width=256
     height=256
     num_images=4
     diversity=6
+    image_bytes = image_gen(text, steps, width, height, num_images, diversity)
     generated_images = []
     for image in image_bytes[1]:
         image_str = image[0]
         decoded_bytes = base64.decodebytes(bytes(image_str, "utf-8"))
         img = Image.open(io.BytesIO(decoded_bytes))
         generated_images.append(img)
     return generated_images
+# reductionism - interpolate 4 images - todo - unhardcode the pattern
 def generate_interpolation(gallery):
     times_to_interpolate = 4
     generated_images = []
     for image_str in gallery:
         image_str = image_str.replace("data:image/png;base64,","")
         decoded_bytes = base64.decodebytes(bytes(image_str, "utf-8"))
         img = Image.open(io.BytesIO(decoded_bytes))
         generated_images.append(img)
     generated_images[0].save('frame_0.png')
     generated_images[1].save('frame_1.png')
     generated_images[2].save('frame_2.png')
     generated_images[3].save('frame_3.png')
     input_frames = ["frame_0.png", "frame_1.png", "frame_2.png", "frame_3.png"]
     frames = list(util.interpolate_recursively_from_files(input_frames, times_to_interpolate, interpolator))
     mediapy.write_video("out.mp4", frames, fps=15)
     return "out.mp4"
 demo = gr.Blocks()
 with demo:
     audio_file = gr.inputs.Audio(source="microphone", type="filepath")
     text = gr.Textbox()
     label = gr.Label()
     saved = gr.Textbox()
+    savedAll = gr.Textbox()
     b1 = gr.Button("Recognize Speech")
     b2 = gr.Button("Classify Sentiment")
     b3 = gr.Button("Save Speech to Text")
     b4 = gr.Button("Retrieve All")
     b1.click(speech_to_text, inputs=audio_file, outputs=text)
     b2.click(text_to_sentiment, inputs=text, outputs=label)
     b3.click(upsert, inputs=text, outputs=saved)
     b4.click(selectall, inputs=text, outputs=savedAll)
     with gr.Row():
         # Left column (inputs)
         with gr.Column():
             input_story_type = gr.Radio(choices=['superhero', 'action', 'drama', 'horror', 'thriller', 'sci_fi'], value='sci_fi', label="Genre")