Spaces:

coraKong
/

voice-cloning-demo

Build error

File size: 1,871 Bytes

c962c9a
 
 
 
3e0d7e1
 
02d8bcc
6af2406
02d8bcc
c962c9a
582cf5b
3e0d7e1
 
c2c3684
 
 
 
02d8bcc
 
 
 
 
 
 
 
 
 
4c5bfad
b04ebb9
3e0d7e1
b04ebb9
3e0d7e1
02d8bcc
c962c9a
b04ebb9
c2c3684
02d8bcc
c962c9a
 
 
 
a25c8ec

import gradio as gr
from TTS.api import TTS

# Init TTS
tts = TTS(model_name="tts_models/multilingual/multi-dataset/your_tts", progress_bar = False, gpu=False)
zh_tts = TTS(model_name="tts_models/zh-CN/baker/tacotron2-DDC-GST", progress_bar=False, gpu=False)
# en_tts = TTS(model_name = "tts_models/en/ljspeech/vits", gpu=False)
# fr_tts = TTS(model_name = "tts_models/fr/css10/vits", gpu=False)
# de_tts = TTS(model_name = "tts_models/de/thorsten/vits", gpu=False)

def text_to_speech(text: str, speaker_wav, language: str):
    file_path = "output.wav"
    if language == "zh-CN":
        # if speaker_wav is not None:
        #     zh_tts.tts_to_file(text, speaker_wav=speaker_wav, file_path=file_path)
        # else:
        zh_tts.tts_to_file(text, file_path=file_path)
    # elif language == "de":
    #     if speaker_wav is not None:
    #         de_tts.tts_to_file(text, speaker_wav=speaker_wav, file_path=file_path)
    #     else:
    #         de_tts.tts_to_file(text, file_path=file_path)
    # elif language == "en":
    #     if speaker_wav is not None:
    #         en_tts.tts_to_file(text, speaker_wav=speaker_wav, file_path=file_path)
    #     else:
    #         en_tts.tts_to_file(text, file_path=file_path)
    else:
        if speaker_wav is not None:
            tts.tts_to_file(text, speaker_wav=speaker_wav, language=language, file_path=file_path)
        else:
            tts.tts_to_file(text, speaker=tts.speakers[0], language=language, file_path=file_path)
    return file_path

inputs = [gr.Textbox(label="Input the text", value="", max_lines=3),
          gr.Audio(label="Voice to clone", source="microphone", type="filepath"), 
            gr.Radio(label="Language", choices=["en", "zh-CN", "fr-fr"], value="en")]
outputs = gr.Audio(label="Output")

demo = gr.Interface(fn=text_to_speech, inputs=inputs, outputs=outputs)

demo.launch()