Assumir uma nova língua de trabalho pressupõe a reunião de ingredientes fundamentais para que o reconhecimento automático de fala alcance medidas de sucesso e executáveis. É, portanto, imperativo construir modelos de língua e modelos acústicos a partir de dados áudio e textuais de qualidade em termos de fala limpa e adequados ao objetivo final de utilização, a fim de obter equilíbrio entre língua comum e língua do domínio ou área de intervenção (Tribunais, Câmaras, Media, etc). Contudo, todas estas áreas com que trabalhamos têm muita fala espontânea e de rua, fala sobreposta, ruído, muita variedade dialetal, e também pessoas a falar uma segunda língua, o que constitui um enorme desafio, para não dizer dificuldade, para o reconhecimento.

Nos trabalhos de reconhecimento de fala, tudo começa na palavra dita e nos sons da língua disponíveis para ela, para que possa haver correspondência entre sons/fonemas e a palavra escrita. Esta correspondência é o nosso modelo acústico, que, em conjugação com o modelo de língua, torna então possível o reconhecimento.

Todas as palavras têm a sua identidade e, assim, características próprias que obrigam a que, na sua periferia, estejam outras para que uma frase esteja gramaticalmente correta.

Há palavras que se alocam a outras em detrimento de tantas outras por causa da informação veiculada e da forma como se quer passar essa informação, pelo que tal tendência está grandemente relacionada com o tipo de texto (literário, jornalístico, formal, etc), com o domínio textual (Desporto, Economia, Política, Culinária) e subdomínio (futebol, râguebi) ou tema (Coronavírus, Presidenciais e eleição de Trump, situação dos refugiados na Europa).

Chamamos a isto mapeamento de palavras (word sketch), e através dele conseguimos perceber quais as que rondam/estão próximas da palavra em análise, e estas são as que mais frequentemente surgem com ela nos textos (junto da palavra problema é muito provável que esteja um adjetivo de conotação negativa, como sério, grave, grande, doloroso, ou outro do mesmo âmbito semântico).

É também possível encontrar palavras compostas pela sua fixidez, pela elevada ocorrência de determinado conjunto de palavras. A sua elevada coocorrência e fixidez podem determinar a sua unidade, num determinado domínio textual e não noutro para a palavra equipa, há uma elevada alocação das palavras futebol, desenvolvimento, investigação. É desta análise do comportamento das palavras e das probabilidades da sua distribuição, e da aplicação de diferentes metodologias, que sai o modelo de língua.

São estes os ingredientes a tornar possível a tarefa de reconhecer fala. Mas dentro há subtilezas grandes, como variáveis físicas (condições de gravação), geográficas (variantes fonéticas para uma mesma palavra),  discursivas (tom, novas palavras); humanas (emoções), fisionómicas (idade do falante e condições do aparelho vocálico) e outras, e são elas que fazem a diferença entre um reconhecimento bem ou mal-sucedido.

A equipa de I&D da VoiceInteraction trabalha para que todos os dias novos desenvolvimentos nesta área sejam feitos, mantendo-nos assim na vanguarda tecnológica!

Para mais informação, contacte-nos para: info@voiceinteraction.pt