VoiceInteraction em forte expansão no mercado americano
Atualmente, mais de 400 emissoras de TV fazem parte do nosso portefólio de clientes, com impacto significativo em todo o continente americano (desde o Sul, como Argentina até ao Norte, como o Canadá). Naturalmente, Brasil e USA são os países onde o número de emissoras de TV que adotaram a nossa solução de Closed Captioning é mais significativo, não deixando de estar presentes na maioria dos países da América Latina – LATAM.
Audimus.Media, a solução da VoiceInteraction para geração de Closed Captioning para programas ao vivo, baseia-se num sistema Automático de Reconhecimento de Fala. Este tipo de produto é uma solução totalmente automática para geração de CC*, refletindo já o entendimento pelas emissoras de que será este o caminho (automático versus manual) a seguir. Esta nova realidade deve-se à evolução da tecnologia de reconhecimento de fala, ao seu excelente nível de desempenho e o facto de ser um sistema bastante fiável e uma solução totalmente automática.
A tecnologia de reconhecimento de fala tem evoluído significativamente nos últimos dois anos. Esta evolução deve-se principalmente à enorme disponibilidade de dados e ao aumento substancial da capacidade de processamento, especialmente na paralelização desse processamento, que têm permitido ganhos significativos nos processos de Machine Learning para treino de modelos acústicos e modelos de língua.
Este processo torna-se então fundamental para gerar uma maior robustez nos modelos, incorporando sotaques regionais nos mesmos e, como o áudio dos próprios jornalistas, passa a constar no conjunto de treino, a qualidade do reconhecimento aumentará. A VoiceInteraction foi uma das precursoras do desenvolvimento de técnicas de Redes Neuronais aplicadas ao Reconhecimento de Fala e sempre trabalhou em métodos online de processamento do sinal de fala, que lhe permite ter, atualmente, uma liderança nos sistemas de CC.
Com a disponibilidade de grandes quantidades de texto na web, foi implementado um processo de crawling desses dados que lhe permite gerar modelos de língua diariamente adaptados aos perfis dos clientes e simultaneamente contendo o que, genericamente, se passa na região/país/mundo. Assim, os modelos estão em constante evolução uma vez que também são treinados com dados da grande maioria dos seus clientes, permitindo um desempenho crescente da solução. Como consequência desse, os modelos são treinados diariamente e assim o cliente sabe que tem uma solução sempre atualizada e customizada à sua medida.
O facto de ser detentora da tecnologia, permite a instalação do software on premises, garantindo total controlo pelo cliente em caso de desastres ou falha de comunicações, com capacidade de customização para o cliente. O mercado do broadcast prefere uma solução on premises pelo controlo e segurança que lhe traz, tornando-se uma vantagem competitiva para nós. Não obstante, a VoiceInteraction apresenta igualmente soluções na cloud para permitir escalabilidade e utilizações temporárias.
No último ano de 2019, a VoiceInteraction alargou significativamente o seu número de emissoras de TV nos USA. Incremento este que veio solidificar ainda mais a sua posição de liderança no Brasil. Falamos de dois mercados de grande dimensão que se baseiam-se cada um deles em apenas uma língua. Por exemplo, o mercado europeu que tem esta dimensão, mas que obriga ao desenvolvimento de modelos para 27 línguas que obriga a trabalho mais elevado. Por outro lado, o mercada da LATAM em espanhol, mas que obriga a uma adaptação local ao espanhol específico desses países. Clientes na Argentina, Chile, Peru, Colômbia e México. Clientes no Canadá com as principais emissoras.
Neste momento, estamos em avaliação junto dos principais grupos de média americanos no sentido de demonstrarmos a nossa tecnologia e a nossa capacidade de melhoria contínua dos modelos e da própria tecnologia. De salientar também que estes mercados são fortemente regulados e que geram um mercado para estas tecnologias, algo que não acontece na Europa.
VoiceInteraction, knowledge from speech.
*CC – Closed Captioning