Por que preferimos máquinas a humanos quando se trata de falar com uma IA – 31/01/2021


Aparentemente, o próximo capítulo da digitalização de nossas vidas será determinado pelos programas que conseguem mimetizar a voz humana.

Depois de décadas ouvindo vozes metálicas por trás de serviços bancários, tendo que escolher por meio de teclas o próximo passo, para uma reclamação com uma companhia telefônica, chegamos ao ano de 2020 fartos de vozes artificiais.

Elas cansam mais, nos irritam em universal quando já estamos irritados e foram associadas com recursos desrespeitosos tais porquê tempo de espera desnecessariamente longos e bloqueio de ligações.

Ou por outra fomos invadidos, durante anos, por vozes de call center oferecendo produtos e demandando atenção. As péssimas condições de trabalho que encontramos por trás dos trabalhadores de call center ficaram associadas com o que há de pior na relação com grandes companhias, inclusive de high tech.

Agora dispomos de programas porquê o Capuccino que nos permite empregar a voz de pessoas queridas para ler os textos que recebemos. Alguma coisa que se poderia impor também aos sistemas de base à vida doméstica porquê Alexa, Waze e Discord, que traduz a voz em texto para facilitar a informação entre jogadores de videogame, ou o Checkmate , que oferece serviço de encontros com suporte de voz. O Twitter está testando a opção envio de voz e há programas em teste para uso de voz em redes sociais, porquê o Capiche.

O retorno da voz terá que se possuir com o passivo deixado pelos anos de soberania da escrita.

O truque cá foi duplo. Primeiro associamos a presença da voz do dedo com o processo no qual passamos a trabalhar para o outro de perdão: agora coloque o moeda no envelope, digite seu código, introduza o envelope na máquina. Ao final o banco dispensa o velho caixa e encontra alguém que faz o serviço de perdão para ele: você.

Essa operação seria insuportável se não fosse o lucro de modernidade que ela traz consigo: menos filas, a experiência de fazer você mesmo, decidindo quando e porquê. Tudo isso nos faz sentir “mais modernos e integrados”. Por isso não conseguimos entender quando pessoas de outras gerações resistem a essa troca, porquê vimos no filme “Eu, Daniel Blake” (Ken Loach, 2016) .

Quando nos integramos aos sistemas de informação porquê email, WhatsaApp e redes sociais, com exceção do Clubhouse, fomos abandonando a informação verbal e nos acostumando com as vantagens da escrita.

Com isso o problema da voz foi reduzido ao uso de letras maiúsculas cá e ali. Junto com a solução perdemos a entonação, o ritmo, as variações de volume, as torções átonas e tônicas muito porquê as emoções que são decisivas para formar a paisagem de sentimentos que definem e redefinem, permanentemente, o valor da mensagem.

Isso terminou por estabilizar conversas digitais em torno de dois polos: positividade tóxica ou ódio obediência.

O retorno da voz recoloca o risco representado pelo coeficiente de intimidade que ela implica.

Nosso repúdio à voz maquínica, seja pelas vantagens da informação por escrito seja por sua associação com o ilusão, a falsidade e a impostura, promete mudar nossos circuitos de afetos digitais.

A escrita do dedo é sintética. Comprime palavras, cria gírias, vai direto ao ponto, acelerando trocas e fixa o esquema: pergunta-resposta ou oferta-demanda.

A escrita do dedo habilita que façamos várias coisas ao mesmo tempo, escolhendo o que vem primeiro e o que fica para depois. Por isso, hoje, quando recebemos um áudio, cria-se uma complicação, não consigo ouvir, nem responder, se estou no ônibus ou no meio de uma reunião. Nos acostumamos com a precariedade da troca verbal sob tais circunstâncias.

Imagem: Gerd Altmannn/ Pixabay

No mundo da escrita acreditamos que “sabemos” qual é o truque, ao passo que quando escutamos uma voz, produzida por um algoritmo, onde faltam certas frequências, isso nos irrita sem que saibamos por quê.

Muita angústia e muita confusão ocorreram, durante estes anos, pela modulação temporal da mensagem entre amantes, ou seja, vida íntima.

Quando o outro não responde, ou morosidade para responder, ou responde de maneira pouco “empolgada”, concluímos imediatamente que há um decréscimo de interesse. Muitos amores iniciantes foram interrompidos simplesmente por uma revogação da conversa, também conhecida porquê um “perdido”.

Ora, a falta da voz é decisiva na lhaneza e no fechamento da conversa. O modo porquê dizemos “oi” e a forma porquê dizemos “tchau” diz muito sobre o que aconteceu no meio e sobre a relação entre esta conversa e outras futuras. Ela é chave para o que chamamos de passagem de vez, ou seja, o momento em que a termo passa de uma pessoa para outro. Há certos traços de entonação que indicam “agora é sua hora de falar”, outros que apontam para “me deixe entrar”, que são essenciais para a modulação da paisagem de afetos da conversa.

Uma das razões para o retorno da voz é a quarentena e o uso massivo de telas.

Sabidamente a voz cansa menos que o escrito. Mas isso só vale se a voz for realmente aprazível, familiar e amistosa. Confirmando mais uma vez nosso dilema do porco-espinho, quando nos abrimos para a proximidade afetiva trazida pela voz, baixamos muros também para sermos ofendidos por um tom hostil, por uma enunciação maliciosa, por uma variação tonal de desdém, ou por uma ironia que passaria desapercebida no texto escrito.

Isso talvez ajude a entender por que se pudermos escolher entre uma voz impessoal de uma máquina e uma voz falsamente empática porquê a Siri do iPhone, preferimos a primeira.

Ao contrário dos filtros de imagem, que nos tornam mais belos e desejáveis, até chegar a conta da veras malfazeja, zero pode ser pior do que uma voz falsa. Ela acende uma luz amarela no cérebro onde se lê escrito em letras gigantes “pataratice”, ali mesmo onde uma bela imagem desperta a mensagem “me engana que eu palato”.

A voz, porquê protagonista de nossas mensagens, depois de décadas submetida à redução imposta pela língua escrita trará uma janela de aprendizagem para o nosso atual analfabetismo do dedo. Talvez isso aconteça porque seremos expostos ao hiato entre a letra e a voz.

Explico. No oeste usamos predominantemente línguas glossolálicas, ou seja, nas quais os fonemas equivalem de forma perfeita e estável a letras, somos prisioneiros fáceis da ilusão de que a escrita é meramente a representação da fala, porquê se fosse exclusivamente um outro modo de expor a mesma coisa.

Mas há muitas línguas, porquê o mandarim, por exemplo, onde saber ler a língua não nos ajuda zero a falar e inversamente, escutando alguém falar, não conseguiremos transcrever os sons para sinais constantes. Isso ocorre porque na China a escrita se desenvolveu porquê uma prática que durante muitos séculos ficou restrita aos funcionários do Estado, o que estabeleceu uma espécie de código que se transformou de maneira dissemelhante das mudanças que ocorreram na língua falada.

Em menor graduação enfrentaremos alguma coisa parecido, no choque entre a língua escrita-do dedo e a língua-verbal.

Seguindo o exemplo chinês, a voz estaria para a intimidade e a vida privada, assim porquê a escrita está para a vida pública e a experiência generalidade.

Durante décadas, aprendemos sem nos darmos conta a praticar uma espécie de etiqueta para reduzir ambiguidades problemáticas: faça o cabeçalho de um email sempre com frase simpática, exagere no tom afetivo, faça despedidas mais carinhosas do que você faria, para não deixar margem à incerteza. Depois os emoticons, stickers e memes vieram delimitar mais claramente o tom da conversação.

A interpenetração voz e escrita acontece fora da linguagem do dedo. A escrita invade a tradução que temos sobre a fala. Nas trocas naturais os dois trabalham juntos porquê se fossem uma coisa só sem que nos demos conta.

Por exemplo, qual a diferença, na linguagem verbal entre a termo “ouve” e a termo “houve”. Nenhuma, ainda que o verbo ouvir opere gramaticalmente dissemelhante do verbo possuir. O recurso à leitura serve tanto para separar sentidos quanto para gerar ambiguidades, porquê por exemplo quando digo: “grande sertão”, e quando opto por ler um pausa entre “ser” e “tão”, de tal maneira que eu confirmo, um sentido redundante: “ser”http://www.uol.com.br/”tão” é ser “grande”.

Esperemos logo que mais confusão nos tire desta confusão a que chegamos. Talvez o retorno da voz nos faça hesitar um pouco mais antes de concluir o sentido das mensagem e das não-mensagens, antes de concluirmos quem é quem e quem é ninguém.





Fonte