Nova IA de criadores do ChatGPT gera áudio falso de qualquer voz; veja como funciona

Ferramenta da OpenAI só precisa de amostra de 15 segundos de fala para criar áudios com voz idêntica

Equipe InfoMoney

Publicidade

A OpenAI apresentou os primeiros testes de um novo recurso de inteligência artificial capaz de reproduzir áudios com uma voz humana convincente. Chamada de Voice Engine (motor de voz, em tradução livre), a tecnologia de conversão de texto em voz teve uma prévia demonstrada a cerca de 10 desenvolvedores, disse um porta-voz da companhia.

A empresa decidiu ainda não lançar a novidade para todos os usuários, mas a invenção já chamou a atenção por apresentar uma nova fronteira para IA, e por acender o alerta sobre os novos riscos de deepfakes (conteúdos falsos) na internet – especialmente em ano de eleições nos EUA e no Brasil.

Como funciona

Ao contrário de recursos já existes da OpenAI para gerar áudios, o Voice Engine pode criar falas que soam exatamente como pessoas, imitando a cadência e as entonações específicas de um ser humano na hora de falar. Tudo o que o software precisa é de 15 segundos de áudio gravado de uma pessoa falando para recriar sua voz.

Masterclass Gratuita

Rota Liberdade Financeira

Aprenda a investir e construa um patrimônio do zero com o treinamento exclusivo do InfoMoney

E-mail inválido!

Ao informar os dados, você concorda com a nossa Política de Privacidade.

Durante uma demonstração da ferramenta, a Bloomberg ouviu um áudio do CEO da OpenAI, Sam Altman, explicando brevemente a tecnologia em uma voz que parecia indistinguível de sua fala real, mas foi inteiramente gerada por IA.

“Se você tiver a configuração de áudio correta, é basicamente uma voz humana”, disse Jeff Harris, líder de produto da OpenAI. “É uma qualidade técnica bastante impressionante.” No entanto, Harris disse: “Há obviamente muita delicadeza de segurança em torno da capacidade de imitar com precisão a fala humana”.

Um dos atuais parceiros desenvolvedores da OpenAI que usa a ferramenta, o Norman Prince Neurosciences Institute, vinculado ao sistema de saúde sem fins lucrativos Lifespan, está usando a tecnologia para ajudar pacientes a recuperar a voz. A ferramenta foi usada, por exemplo, para restaurar a voz de uma jovem paciente que perdeu a capacidade de falar claramente devido a um tumor cerebral, replicando sua fala de uma gravação feita em um projeto escolar, disse a empresa.

Continua depois da publicidade

O modelo de fala personalizado da OpenAI também pode traduzir o áudio gerado para diferentes idiomas. O recurso pode ser útil para empresas como a Spotify, que já usou a tecnologia em um programa piloto para traduzir podcasts. A OpenAI também destacou outras aplicações benéficas da tecnologia, como a criação de uma gama mais ampla de vozes para conteúdo educacional para crianças.

Riscos

A empresa havia planejado lançar a ferramenta para até 100 desenvolvedores por meio de um processo de inscrição, de acordo com uma coletiva de imprensa realizada no começo do mês. No entanto, acabou decidindo pelo adiamento após receber contribuições de legisladores, especialistas, educadores e artistas.

“Reconhecemos que gerar um discurso que se assemelhe às vozes das pessoas apresenta sérios riscos, que são especialmente importantes em um ano eleitoral”, escreveu a empresa em uma nota na sexta-feira (29). “Estamos nos envolvendo com parceiros de governos e setores da imprensa, entretenimento, educação, sociedade civil e outros para garantir que iremos incorporar seus comentários à medida que construímos [a tecnologia].”

Outras tecnologias de IA já foram usadas para falsificar vozes em alguns contextos. Em janeiro, um telefonema falso, mas de aparência realista, supostamente do presidente Joe Biden, encorajou as pessoas em New Hampshire, nos Estados Unidos, a não votarem nas primárias – um evento que alimentou temores sobre a IA antes de um período crítico eleitoral.

No programa de testes, a OpenAI exige que seus parceiros concordem com suas políticas de uso, obtenham o consentimento do dono da voz antes de usá-la e divulguem aos ouvintes que as vozes que estão ouvindo são geradas por IA. A empresa também vai aplicar uma marca d’água de áudio inaudível para permitir distinguir se um trecho de áudio foi criado por sua ferramenta.

Quando será liberado?

Antes de decidir se lançará o recurso para todos, a OpenAI disse que está solicitando contribuições de mais especialistas. “É importante que as pessoas em todo o mundo entendam para onde esta tecnologia está indo, quer nós a lancemos mesmo ou não”, disse a empresa.

A OpenAI também afirmou que espera que a demonstração “motive a necessidade de reforçar a resiliência social” contra os desafios trazidos pelas tecnologias de IA mais avançadas. Por exemplo, a empresa fez um apelo a bancos para eliminarem gradualmente a autenticação de voz como medida de segurança para acessar contas bancárias e informações sensíveis. A companhia também pediu por educação pública sobre conteúdo enganoso de IA e maior desenvolvimento de técnicas para detectar se o conteúdo de áudio é real ou gerado por IA.

(Com Bloomberg)