Desenvolver uma nova língua de trabalho pressupõe a reunião de fatores fundamentais para que o reconhecimento automático de fala alcance medidas de sucesso e êxito. É, portanto, mandatório construir modelos de língua e modelos acústicos a partir de dados acústicos e textuais de qualidade como fala limpa e adequados ao objetivo final de utilização, a fim de obter equilíbrio entre língua comum e língua do domínio ou área de interação (Tribunais, Câmaras, Media, etc). Contudo, todas estas áreas com que trabalhamos têm muita fala espontânea e coloquial, fala sobreposta, ruído, muita variedade regional, e também pessoas a falar uma segunda língua, o que constitui um enorme desafio, para não dizer dificuldade, para o reconhecimento.

Nos trabalhos de reconhecimento de fala, tudo começa na palavra dita e nos sons da língua disponíveis   para ela, para que possa ter correspondência entre sons/fonemas e a palavra escrita. Esta correspondência é o nosso modelo acústico, que, em conjugação com o modelo de língua, torna possível o reconhecimento.

Todas as palavras têm a sua identidade e, assim, características próprias que obrigam a que, na sua periferia, estejam outras para que uma frase esteja gramaticalmente correta.

Existem palavras que se alocam a outras em detrimento de tantas outras por causa da informação veiculada e da forma como se quer passar essa informação, que por tendência está muito relacionada com o tipo de texto (literário, jornalístico, formal, etc), com o domínio textual (Esportivo, Economia, Política, Culinária) e subdomínio (futebol, râguebi) ou tema (Coronavírus, Presidenciais e eleição de Trump, situação dos refugiados na Europa).

Há palavras que se alocam a outras em detrimento de tantas outras por causa da informação veiculada e da forma como se quer passar essa informação, pelo que tal tendência está grandemente relacionada com o tipo de texto (literário, jornalístico, formal, etc), com o domínio textual (Desporto, Economia, Política, Culinária) e subdomínio (futebol, râguebi) ou tema (Coronavírus, Presidenciais e eleição de Trump, Ataque Terrorista das Torres Gémeas em Nova Iorque).

Chamamos a isto mapeamento de palavras (word sketch), e através dele conseguimos entender quais as que estão próximas da palavra em análise, e estas são as que mais frequentemente surgem com ela nos textos (junto da palavra problema é muito provável que esteja um adjetivo de conotação negativa, como sério, grave, grande, doloroso, ou outro do mesmo âmbito semântico).

É possível encontrar palavras compostas pela sua concentração e pela elevada ocorrência de determinado conjunto de palavras. A sua elevada concorrência e concentração podem determinar a sua unidade,  em um determinado domínio textual e não em outro (para a palavra equipe, há uma elevada alocação das palavras futebol, desenvolvimento, pesquisa). É desta análise do comportamento das palavras e das probabilidades da sua distribuição, e da aplicação de diferentes metodologias, que sai o modelo de língua.

São estes os fatores possíveis na tarefa de reconhecimento da fala. Internamente, existem subtilezas importantes, como variáveis físicas (condições de gravação), geográficas (variantes fonéticas para uma mesma palavra),  discursivas (tom, novas palavras); humanas (emoções), fisionómicas (idade do locutor e condições do aparelho vocálico) e outras, e são elas que fazem a diferença entre um reconhecimento bem ou mal-sucedido.

A equipe de P&D da VoiceInteraction trabalha para que todos os dias novos desenvolvimentos nesta área sejam feitos, mantendo-nos assim na vanguarda tecnológica!

Para mais informação, contacte-nos para: info@voiceinteraction.com.br