Resultados e dúvidas.

#1
by Bubarino - opened

Olá, boa noite. Eu tenho algumas dúvidas como: o modelo tem problema de pular palavra? Funciona com vozes mais expressivas como a do Bob esponja?

Ola, boa noite. Não fiz esse teste, mas acredito que não.

Ola, boa noite. Não fiz esse teste, mas acredito que não.

Se refere a primeira ou segunda pergunta?

Foi referente a segunda pergunta do cartoon.
Quanto a primeira, nos testes que fiz ele não pula palavras, pode ver nos exemplos de audio disponíveis, foram gerados no gradio do original, se não me engano limitam a 15s, o contexto é curto então recomendo utilizar a classe que gera por linhas, e caso coma palavras, pode quebrar em duas linhas, no final ele junta todos audios em um só, a classe está junto AgentF5TTSChunk.
Quanto a voz de cartoon, caso queira pode treinar a partir desse ponto, o tokenizer é o orginal, e os arquivos pt, possuem checkpoint, a inferência não está perfeita, precisa de mais variações de audios, para esse tipo de voz, precisa de treinamento.

Sign up or log in to comment