O google possui uma ferramenta de reconhecimento de fala que é o CLOUD SPEECH API. A partir do áudio de um vídeo ou mesmo através de um microfone a ferramenta reconhece as palavras e faz a transição do áudio.
A ferramenta reconhece mais de 110 idiomas.
Há disponível uma versão para teste, mas também planos que são cobrados a partir de 60 minutos de áudio.
No link a seguir é possível fazer testes. Eu fiz o teste e realmente é impressionante.
Nenhum comentário ainda