As transcrições de materiais áudio/vídeo: humano vs software

Para realizar o trabalho de transcrição de forma satisfatória, é possível recorrer a profissionais ou a software. 

Vamos descobrir juntos porque é que os primeiros são melhores do que os segundos.

Acontece com alguma frequência que o que foi dito durante uma longa conversa, conferência ou entrevista – e posteriormente gravado através do recurso a aparelhos de captação de imagem e/ou som – pode ser útil também sob a forma escrita, sobretudo quando das conversas entre pessoas resultam informações ou conceitos dignos de serem divulgados também em papel (ou livro electrónico), para tornar acessível o conhecimento do que foi discutido, principalmente em áreas em que faltam publicações úteis para estudo.

A este propósito, poder-se-á pensar que, numa época em que a tecnologia está disponível em muitos sectores a custos bastante competitivos e razoáveis, a utilização de um dispositivo com um software destinado à transcrição do que foi dito pelas pessoas poderá ser a solução ideal, dado que permite transcrever automaticamente o que foi dito, sem que haja necessidade de qualquer intervenção humana sobre esta operação.

À luz desta consideração, poderá parecer anacrónico solicitar a um profissional que leve a cabo esta tarefa, visto que a sua função parece estar em grande parte ultrapassada pelos tempos. Porém, existem muitas e boas razões para se considerar que, de facto, o recurso à tecnologia nem sempre é a solução mais adequada para todas as necessidades, sobretudo porque uma máquina e um software comuns não conseguem muitas vezes competir com o trabalho feito por uma pessoa.

De facto, há que considerar antes de mais que a fiabilidade de um ser humano no exercício de uma tarefa desta natureza é claramente superior à de uma máquina: com efeito, a capacidade de compreensão e descodificação da linguagem “natural” é inata nas pessoas, ao passo que, num software, essa capacidade ocorre sempre através de um percurso de análise que não é linear e exacto em todas as circunstâncias, sobretudo na presença de alguns factores susceptíveis de influenciarem essa tarefa.

Pensemos, a este propósito, numa pessoa que tenha algum sotaque particular ao pronunciar determinados termos, ou seja, que se afaste da dicção padrão, ou então admitamos ainda que a mesma pessoa, ao falar, não articula de forma clara todas as sílabas: é provável que a máquina tenha alguma dificuldade em lidar com uma situação desta natureza e, por conseguinte, poderá produzir um documento incompleto, errado ou impreciso devido à dificuldade de compreensão do que foi dito por essa pessoa.

A verdade é que, por muito que um software possa ser exacto – e disso podemos dar-nos conta pessoalmente, todos os dias, quando utilizamos assistentes vocais ou outras soluções de ditado –, ele nunca será capaz de se relacionar de uma forma tão optimizada com a linguagem natural como os seres humanos o fazem, justamente porque, para estes últimos, trata-se de uma ferramenta de comunicação directamente inteligível, enquanto as máquinas têm uma relação indirecta com a linguagem natural, mediada sempre por aquilo que foram programadas para entender e fazer.

Além disso, alguns programas informáticos poderão também apresentar dificuldades em compreender, de forma rigorosa e correcta, algumas ideias expostas com diferentes tons de voz, ou poderão até enfrentar um obstáculo intransponível na altura em que são chamados a compreender o que está a ser expresso simultaneamente por mais do que uma pessoa, não conseguindo, por exemplo, distinguir entre dois tons de voz e, consequentemente, atribuir aos diferentes interlocutores as respectivas palavras pronunciadas durante o diálogo.

Conforme já se referiu, também outras imprecisões na pronúncia – por exemplo, de falantes que não se expressam na sua língua materna – poderão tornar ainda mais complexo o trabalho de transcrição de áudio ou vídeo executado pela máquina, e exigir uma análise posterior e aprofundada de eventuais erros cometidos pelo software. Num caso como este, a utilização de um programa para realizar a tarefa revelar-se-ia inútil, ao passo que a mesma tarefa realizada por uma pessoa redundaria num desempenho impecável, logo desde o primeiro momento.

A exactidão em algumas transcrições de materiais áudio/vídeo – por exemplo, em sectores delicados como transcrições na área jurídica ou, ainda, transcrições científicas – pode ser uma exigência imposta pela necessidade de aplicação rigorosa das noções e conceitos expostos pelas pessoas. Eis mais uma razão por que nunca se deve subestimar a importância de se recorrer a um ser humano para alcançar resultados satisfatórios.