A VoiceInteraction acredita que a fala será no futuro a interface privilegiada no acesso às tecnologias de informação e pretendemos ser a entidade de referência na área, baseando a nossa ação numa busca contínua por soluções inovadoras, de forma a potenciar e acrescentar valor às empresas através da integração de tecnologias de processamento da fala, nomeadamente reconhecimento e síntese de fala.

As nossas tecnologias movem-se em três áreas ortogonais que se complementam: o reconhecimento permite transcrever a fala do orador; a síntese transforma texto em fala e o sistema de animação facial potencia a capacidade de comunicação perceptível. Aplicamos os conhecimentos desenvolvidos no contexto da actividade de I&D intensiva.

Os motores de reconhecimento e síntese podem ser integrados nas aplicações através de interfaces proprietárias (acessíveis em C++, Java), de interfaces standard (MRCP v2) ou acedidas remotamente via WebServices. Os motores são independentes da língua, e atualmente são suportados o Português Europeu, o Português do Brasil, o Espanhol (Castelhano), o Espanhol (América Latina), o Inglês (Americano e Britânico), o Italiano, o Alemão e o Francês.

Concretamente, na área de reconhecimento de fala, a VoiceInteraction desenvolveu um sistema com capacidade de transformar o som produzido pelo orador numa sequência de palavras – o AUDIMUS.MEDIA. Destacamos aqui as potencialidades da nossa tecnologia aplicadas a este sistema:

  • Processa áudio proveniente de fontes pré- existentes (ficheiros) ou produzidas em tempo real (streaming).
  • É capaz de combinar dinamicamente gramáticas livres de contexto (SRGS) com gramáticas estatísticas.
  • Suporta adaptação ao orador.
  • Tem módulos de pré-processamento acústico que conferem maior robustez ao reconhecimento em condições adversas.
  • O sistema de reconhecimento é capaz de suportar dicionários >100.000 palavras, mantendo o processamento em tempo real.
  • Existem versões adaptadas para áreas especificas: medicina (várias especialidades), justiça, media (televisão, internet e rádio).
  • Os resultados têm medidas de confiança associadas para permitir a recuperação de erros.
  • É possível ajustar as transcrições fonéticas das palavras do dicionário