Spaces:

GlitchGhost
/

Voice_Clone

Running

App Files Files Community

GlitchGhost commited on 30 days ago

Commit

ffd1d7c

verified ·

1 Parent(s): 31aa844

Upload 5 files

Browse files

Files changed (5) hide show

README.md +6 -4
app.py +67 -0
gitattributes +36 -0
gitignore +1 -0
requirements.txt +3 -0

README.md CHANGED Viewed

@@ -1,12 +1,14 @@
 ---
 title: Voice Clone
-emoji: 🌍
-colorFrom: gray
-colorTo: red
 sdk: streamlit
-sdk_version: 1.41.1
 app_file: app.py
 pinned: false
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
 title: Voice Clone
+emoji: 📉
+colorFrom: blue
+colorTo: green
 sdk: streamlit
+sdk_version: 1.39.0
 app_file: app.py
 pinned: false
+license: mit
+short_description: Voice cloning model
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,67 @@

+import torch
+import os
+import streamlit as st
+from TTS.api import TTS
+from tempfile import NamedTemporaryFile
+os.environ["COQUI_TOS_AGREED"] = "1"
+def generate_audio(audio_file, text_input):
+  # Initialize model
+  model = "tts_models/multilingual/multi-dataset/xtts_v2"
+  device = 'cuda' if torch.cuda.is_available() else 'cpu'
+  tts = TTS(model).to(device)
+  with NamedTemporaryFile(delete=False, suffix='.wav') as tmp_file:
+    output_path = tmp_file.name
+    tts.tts_to_file(text=text_input, speaker_wav=audio_file, language='en', file_path=output_path)
+  return output_path
+def main():
+  # Title
+  title = f"""<h1 align="center" style="font-size: 2rem";>Voice Clone</h1>"""
+  st.markdown(title, unsafe_allow_html=True)
+  # Subtitle
+  title = f"""<h2 align="center" style="font-size: 1.2rem; margin-bottom: 2rem;">Make your favorite characters say anything!</h2>"""
+  st.markdown(title, unsafe_allow_html=True)
+  sample_files = {
+    '': '',
+    'Stewie Griffin': 'sample_inputs/stewie.wav',
+    'Donald Trump': 'sample_inputs/trump.wav',
+    'Joe Rogan': 'sample_inputs/rogan.wav'
+  }
+  # Upload audio file
+  uploaded_file = st.file_uploader('Add an audio (.wav) file of the voice you want to clone...', type=['wav'])
+  if uploaded_file is None:
+    selected_sample = st.selectbox('Or choose a sample:', list(sample_files.keys()))
+  speaker_file = uploaded_file if uploaded_file is not None else sample_files[selected_sample]
+  if speaker_file:
+    st.header('Reference Audio')
+    st.audio(speaker_file, format='audio/wav')
+    # Input text
+    text_input = st.text_area('What do you want your character to say? Try to keep the prompt around 2 sentences.')
+    if st.button('Synthesize'):
+      if text_input:
+        try:
+          with st.spinner('Synthesizing...'):
+            output_path = generate_audio(speaker_file, text_input)
+          st.header('Synthesized Audio')
+          st.audio(output_path, format='audio/wav')
+        except:
+          st.error('There was an issue synthesizing the text. Please check the input and try again. Try to keep the input around 2 sentences, and less than 200 characters.')
+      else:
+        st.error('Please provide a text input!')
+if __name__ == '__main__':
+  main()

gitattributes ADDED Viewed

	@@ -0,0 +1,36 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+*.wav filter=lfs diff=lfs merge=lfs -text

gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ .voice_env

requirements.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+coqui_tts==0.24.2
+streamlit==1.39.0
+torch==2.5.1