Atualmente, mais de 400 emissoras de TV fazem parte do nosso portefólio de clientes, com impacto significativo em todo o continente americano (desde o Sul, como Argentina, até ao Norte, como o Canadá). Naturalmente, Brasil e USA são os países onde o número de emissoras de TV que adotaram a nossa solução de Closed Captioning é mais significativo, não deixando de estar presentes na maioria dos países da América Latina – LATAM.

Audimus.Media, a solução da VoiceInteraction para geração de Closed Captioning (CC) para programas ao vivo, baseia-se num sistema Automático de Reconhecimento de Fala. Este produto é uma solução totalmente automática para geração de CC, refletindo já o entendimento pelas emissoras de que será este o caminho (automático versus manual) a seguir. Esta nova realidade deve-se à evolução da tecnologia de reconhecimento de fala, ao seu excelente nível de desempenho e ao facto de ser um sistema bastante fiável e uma solução totalmente automática.

A tecnologia de reconhecimento de fala tem evoluído significativamente nos últimos dois anos. Esta evolução deve-se principalmente à enorme disponibilidade de dados e ao aumento substancial da capacidade de processamento, especialmente na paralelização desse processamento, que têm permitido ganhos significativos nos processos de Machine Learning para treino de modelos acústicos e modelos de língua.

Este processo torna-se então fundamental para gerar uma maior robustez nos modelos, incorporando sotaques regionais nos mesmos e, como o áudio dos próprios jornalistas passa a constar no conjunto de treino, a qualidade do reconhecimento aumentará. A VoiceInteraction foi uma das precursoras do desenvolvimento de técnicas de Redes Neuronais aplicadas ao Reconhecimento de Fala e sempre trabalhou em métodos online de processamento do sinal de fala, que lhe permite ter, atualmente, uma liderança nos sistemas de CC.

Com a disponibilidade de grandes quantidades de texto na web, foi implementado um processo de crawling desses dados que permite gerar modelos de língua adaptados aos perfis dos clientes e simultaneamente contendo o que, genericamente, se passa na região/país/mundo. Os modelos são treinados diariamente, pelo que o cliente sabe que tem uma solução sempre atualizada e costumizada à sua medida. Adicionalmente, os modelos também são treinados com dados da grande maioria dos seus clientes, em constante evolução, permitindo um desempenho crescente da solução.

Ser detentora da tecnologia permite a instalação do software on premises, garantindo total controlo pelo cliente em caso de desastres ou falha de comunicações, com capacidade de costumização para o cliente. O mercado broadcast prefere uma solução on premises pelo controlo e segurança que lhe traz, tornando-se uma vantagem competitiva para nós. Não obstante, a VoiceInteraction apresenta igualmente soluções na cloud para permitir escalabilidade e utilizações temporárias.

No último ano de 2019, a VoiceInteraction alargou significativamente o seu número de emissoras de TV nos USA. Incremento este que veio solidificar ainda mais a sua posição de liderança no Brasil. O mercado europeu, com dimensão equivalente aos mercados anteriores, obriga ao desenvolvimento de modelos para 27 línguas e a trabalho mais exigente e específico. Já o nosso mercado LATAM, com clientes na Argentina, Chile, Peru, Colômbia e México, exige uma adaptação local ao espanhol específico desses países.

Neste momento, estamos em avaliação junto dos principais grupos de media americanos com o objetivo de demonstrar a nossa tecnologia e a nossa capacidade de melhoria contínua dos modelos e da própria tecnologia. De salientar também que estes mercados são fortemente regulados, originando a criação de um forte mercado para estas tecnologias, o que não acontece na Europa.

VoiceInteraction, knowledge from speech.