O que significam os bloqueios de jornais aos treinamentos de IA generativa

Empresas de comunicação têm impedido que modelos de inteligência artificial generativa usem os conteúdos publicados em seus veículos para abastecer ferramentas como ChatGPT e Bard. Atentos ao uso não remunerado de suas informações, veículos de jornalismo estrangeiros e nacionais estão atualizando seus termos de uso e criando barreiras digitais para não servirem de base no treinamento dos Large Language Models (LLM), os modelos de inteligência artificial que servem como motor para assistentes por chat.

A exemplo de grandes editores estrangeiros, como New York Times, Washington Post, Financial Times e Bloomberg, a Editora Globo anunciou na última semana uma atualização em sua política, bloqueando que informações publicadas em seus jornais sejam “escavadas”, como dizem os técnicos, para treinar linguagens de IA generativa.

A Editora Globo, responsável pelos jornais O Globo, Valor Econômico e Extra, diz que o modelo de apropriação sem remuneração enfraquece as empresas de jornalismo, já que as ferramentas da big techs “se beneficiam de um manancial de informações já publicadas sem a permissão do criador original do conteúdo”.

Continua depois da publicidade

A reivindicação por algum tipo de remuneração a veículos jornalísticos pelas big techs é uma pauta que antecede a popularização das IAs generativas. No Congresso brasileiro, por exemplo, corre a “PL das Fake News”, que determinaria o pagamento pela reprodução de notícias de veículos jornalísticos em redes sociais ou sites de companhias como Meta e Alphabet (dona do Google). Medidas similares já foram tomadas em países como Canadá e Austrália.

O efeito do bloqueio de conteúdos sobre modelos, no entanto, ainda é visto como incerta por especialistas. Apesar de relevantes, os textos jornalísticos não são a única maneira de treinar LLMs e alguns argumentam que, como os fatos reportados normalmente acompanham o desenrolar dos eventos de forma fragmentada, muitas vezes vale mais para a linguagem aprender com base em conteúdos consolidados.

“Falamos naquela história de que o jornalismo é o primeiro rascunho da história. Para treinar um modelo de linguagem em termos específicos de informação, rascunhos não são bons”, diz Pedro Burgos, programador e coordenador do master em jornalismo de dados do insper. “Livros, artigos, páginas da Wikipédia, em inglês especialmente, e outros periódicos são melhores para, digamos, criar um modelo mental do mundo para esses LLMs”, explica.

Continua depois da publicidade

Uma reportagem recente da revista digital americana especializada em tecnologia Digiday diz que os bloqueios promovidos por editoras às LLM ao redor do mundo têm servido mais como uma espécie de gesto simbólico a favor do jornalismo. Como o modelo de distribuição de notícias pelos veículos é cada vez mais pulverizado em diversos canais, como sites, aplicativos e mídias sociais, pode ser difícil esconder seu conteúdo dos escavadores.

A natureza do jornalismo é baseada em levar os fatos à maior quantidade de pessoas e, por isso, é normal que quando uma publicação divulga uma informação de interesse coletivo, seus pares também a compartilhem. Nesse caso, ainda não ficou claro qual seria o limite de um modelo em ler a página do concorrente que deu a mesma notícia, mas não fez nenhum bloqueio.

A iniciativa, no entanto, traça uma linha sobre o limite das empresas de IA generativa. “Se algum LLM usar dados delas [empresas de jornalismo] para treino, uma linha ética clara terá sido cruzada”, diz Kenneth Corrêa, professor de MBAs da FGV.

Continua depois da publicidade

Novos modelos de linguagem normalmente são treinados do zero, e não a partir de uma adaptação da sua versão anterior. Isso quer dizer que o GPT 4 não foi uma simples atualização do GPT 3. Teoricamente, qualquer novo modelo, portanto, não deveria ter em sua base informações de sites que bloqueiam seu conteúdo.

De olho nisso, as empresas de IA generativa já possuem soluções para os publicadores. O Google, por exemplo, desenvolveu uma ferramenta por meio do Google-Extended para que os editores possam gerenciar o acesso dos modelos de IA generativa aos seus sites.

“Acreditamos que os publishers devem ter poder de escolha e controle sobre seu conteúdo na web, e isso inclui seu uso por IA e tecnologias emergentes”, disse o Google em nota ao IM Business. “Acreditamos que o treinamento de grandes modelos de linguagem (LLMs) é um uso benéfico e transformador do conteúdo da web aberta, e continuaremos inovando com IA de maneira ousada e responsável, comprometidos com um ecossistema saudável e aberto da web.”

Continua depois da publicidade

A Editora Globo não diz como faria o monitoramento dos modelos de linguagem para saber se o seu conteúdo foi utilizado.

Em agosto, a OpenAI também divulgou diretrizes para que proprietários de páginas na internet possam bloquear o seu escavador. A redação tentou contato com a assessoria da empresa nos Estados Unidos, mas não teve resposta.

O que significam os bloqueios de jornais aos treinamentos de IA generativa

Nada de alvenaria: com aço leve e placas, construtech leva R$ 230 milhões no semestre

OpenAI anuncia mecanismo de busca chamado de “SearchGPT”, em desafio direto ao Google

Tópicos relacionados