Para maior divulgação na NAB Las Vegas 2020, tínhamos preparado um conjunto de desenvolvimentos associados ao nosso sistema de legendagem automática dos quais destacamos:

  • Otimização do motor de Automatic Speech Recognition (ASR) com melhor gestão de memória e utilização eficiente de novas threads em paralelo que permitem melhorar a velocidade e diminuir a latência;
  • Com a coleta diária de mais dados, acústicos e textuais, o treino dos modelos tem produzido melhorias constantes e consistentes. Com a utilização de mais GPUs, conseguimos diminuir o tempo de treino desses modelos. Isso permite que atualmente estejamos a gerar modelos diários para várias línguas, garantindo que os nossos clientes tenham acesso a vocabulários sempre atualizados;
  • Realizamos vários treinos nos modelos de Speaker Turn, Speaker ID e Punctuation que nos permitem uma melhor segmentação e apresentação de resultados;
  • Melhoria substancial em várias línguas, nomeadamente, no inglês americano, espanhol americano, português do Brasil, espanhol dos países LATAM (Argentina, Chile, Peru, Colômbia, Caribe genérico) – com modelos específicos para cada país; México, línguas europeias (Itália, França, Espanha, Alemanha, Holanda, Portugal, Suíça). Iniciámos também o desenvolvimento de modelos para reconhecimento de Inglês falado com o sotaque específico de diversos países do continente Asiático (Malásia, Índia, Coreia do Sul);
  • Possibilidade de reconhecer programas com intervenientes a falar em línguas diversas (por exemplo, Inglês e Espanhol no mesmo programa);
  • Utilização de sistemas de tradução 3rd party para tradução em tempo real, Inglês -> Espanhol e Espanhol -> Inglês, e possibilidade de enviar simultaneamente como CC1 e CC3 em 2 línguas;
  • Integração com AWS e Google (cloud) e possibilidade de outras integrações para On-premises;
  • Integração com sistemas Text-to-Speech, como seja Acapela, AWS cloud e Google cloud, entre outros;
  • Novas funcionalidades na interface nos agendamentos com adição de novas palavras no vocabulário, integração com MOS/ENPS, iNews e Dalet. Estas integrações permitem acesso a mais dados e uma atualização mais efetiva dos modelos diários;
  • Controlo da aplicação por GPIO, que é uma alternativa à interface e aos mute/unmute ou utilização da API REST;
  • Integração com várias placas, como Decklink, Avermedia (com transcode) e AJA;
  • Suporte a diferentes formatos de streams adicionando o WebVTT, Unified Streaming, YouTube, Facebook, Zoom;
  • Exportação do vídeo e CC, seja em formatos comprimidos ou não, para utilização em plataformas VOD.

A VoiceInteraction continua focada no futuro e está a trabalhar diariamente para que um produto mais sólido seja entregue aos seus clientes.

Se ficou interessado ou tem alguma questão sobre o nosso produto, não hesite em contactar-nos: info@voiceinteraction.pt