Possibilidades e limitações da inteligência artificial generativa

Entenda o funcionamento de ferramentas DALL-E, ChatGPT e D-ID e suas 

implicações na sociedade

Inteligência artificial (IA), termo que há alguns anos quase não era conhecido, hoje faz parte do cotidiano da sociedade. Na IA, a automação e os dados são utilizados para tomada de decisões empresariais e pessoais. Essa tecnologia está presente em diversas áreas como economia, educação, artes, administração pública e privada. 

De acordo com o Instituto de Engenharia, o conceito de Inteligência Artificial começou a ser utilizado e estudado a partir de 1956, quando John McCarthy, cientista da computação, e um grupo de colegas estudantes, se propuseram a pensar na capacidade da máquina em resolver problemas, utilizar a linguagem humana e formar abstrações e conceitos.

A IA Generativa se desenvolveu na área de neurociência computacional, que procura a solução de problemas complexos, com ou sem a intervenção de um indivíduo neste processo. Apesar de se inspirar no modelo neural humano, a estrutura adotada nos processos de Machine Learning - ou aprendizado da máquina -, apresentam diferenças consideráveis do cérebro humano. No processo de machine learning, o “neurônio artificial” da máquina apresenta três canais: o Input, que é a camada de entrada, o Hidden, camada oculta - fase de processamento dos dados, e o Output, camada de saída. O Deep Learning, por sua vez, é um dos métodos mais promissores de Machine Learning, especialmente para melhorar a capacidade de abstração e aprimoramento de um sistema de IA. Nele, há mais camadas presentes na fase de processamento, que irão possibilitar o uso de uma quantidade gigantesca de dados e, assim, gerar novas informações que se aprimoram a partir da retroalimentação.

Para saber mais sobre o tema, ouça o  podcast produzido por nossa equipe e disponível aqui no site. 

O professor do Instituto de Informática (INF) da Universidade Federal de Goiás (UFG) Ricardo Franco, comenta que a Inteligência Artificial atua quando inserimos na máquina informações e características, “por exemplo, um objeto desejado, para que ela possa definir e diferenciar os objetos uns dos outros, fazendo com que a mesma consiga tomar decisões baseadas em uma inteligência mais humana”. Para ele, um exemplo para entender como funciona a Inteligência Artificial é a detecção de objetos. Por exemplo, “podemos ensinar a inteligência artificial a reconhecer cadeiras, então ela vai reconhecer as características de uma cadeira, ou seja, tem quatro pés, assento e um encosto. Não importa qual cadeira eu coloque, se a IA aprendeu a reconhecer essas características ela vai poder reconhecer qualquer cadeira”, ilustra Ricardo.

A Inteligência Artificial Generativa, ou apenas IA Generativa, é considerada uma subárea na Inteligência Artificial. Ela “aprende” a gerar dados baseado no conhecimento e informações que tem. Ela utiliza dados que aprendeu para poder gerar novos objetos baseados no aspecto desejado.

Continuando com o exemplo da cadeira, Ricardo explica que a IA Generativa “aprende” quais são as características de uma cadeira, mas diferente da IA que apenas reconheceria o objeto, a IA Generativa possui a capacidade de gerar uma cadeira diferente baseada naquelas cadeiras que ela viu. “A IA Generativa começa a gerar dados baseado naquele conhecimento e informações que ela tem, ela vai usar essas características que ela aprendeu para poder gerar novos objetos baseados naquela característica”, argumenta o professor.

A Inteligência Artificial Generativa vem sendo utilizada em ferramentas para gerar vários outros tipos de informações, podendo trabalhar com criação de textos, imagens e vídeos. Mas quais são essas ferramentas? Como elas funcionam? Abaixo algumas plataformas que fazem uso da IA Generativa para a geração de conteúdo:


DALL-E:

O DALL-E 2 é um sistema, criado pela empresa OpenAI, que utiliza a IA Generativa para criar imagens realísticas e artísticas a partir de descrições textuais. A ferramenta usa uma versão de 12 bilhões de parâmetros do modelo GPT-3 Transformer, que interpreta a linguagem natural e gera imagens. O nome do sistema surge da combinação do nome do pintor modernista Salvador Dalí e do robô WALL-E, da Pixar Animation Studios.

De acordo com os criadores de DALL-E 2, conteúdos explícitos, como linguagem inapropriada, pornografia e violência extrema, foram removidos dos dados de treinamento, limitando assim a capacidade do sistema. A OpenAI também passou a utilizar técnicas avançadas para prevenir a geração de fotos realísticas com o rosto de pessoas de verdade, especialmente de figuras públicas.

Testamos as habilidades de geração de imagens realísticas do DALL-E 2 pesquisando “cachorro lendo um livro”. Nenhum desses cachorros existe de verdade, eles foram criados pela IA Generativa. Confira o resultado abaixo:

Você pode testar a ferramenta se cadastrando no OpenAI Labs. Para gerar imagens é necessário comprar créditos e cada pesquisa utiliza um crédito. Outras ferramentas de geração de imagem que utilizam IA Generativa são o Midjourney e o Stable Diffusion.


ChatGPT

O ChatGPT é uma ferramenta de inteligência artificial generativa no formato chatbot online. Desenvolvido pela OpenAI com apoio multi bilionário da Microsoft, o ChatGPT funciona como um assistente digital especializado em diálogo. O chatbot é treinado para entender comandos e perguntas e responder de maneira detalhada e conversacional, como um humano. Ele pode admitir erros e até mesmo rejeitar pedidos impróprios.

Testamos as habilidades conversacionais e descritivas do ChatGPT e também sua capacidade de entender perguntas adicionais, sem que o tema da conversa esteja inserido na pergunta ou comando. Confira abaixo:

Os desenvolvedores da ferramenta afirmam que o modelo de linguagem tem algumas limitações e pode errar: “Às vezes, o ChatGPT escreve respostas que parecem plausíveis, mas são incorretas ou sem sentido.” Isso acontece porque, de acordo com a OpenAI, por ser treinado com algoritmos de aprendizado por reforço de feedback humano, não é possível identificar uma “fonte da verdade”.

Outro exemplo de limitação é que, embora os esforços da empresa para que o chatbot recuse solicitações inapropriadas, às vezes ele responde a instruções prejudiciais ou exibe um comportamento tendencioso. “Estamos usando a API (Application Programming Interface - Interface de Programação de Aplicação) de moderação  para avisar ou bloquear certos tipos de conteúdo inseguro, mas esperamos que ela tenha alguns falsos negativos e positivos por enquanto”, declara a empresa.

Lançado em novembro de 2022 para obter o feedback dos usuários e aprender sobre seus pontos fortes e fracos, o modelo do chatbot ainda está sendo desenvolvido e aprimorado. Durante a prévia da pesquisa, o uso do ChatGPT é gratuito e pode ser utilizado no OpenAI ChatGPT. Outras ferramentas de geração de texto que utilizam IA Generativa são o Bing Chat, da Microsoft, e o Bard, do Google - este ainda não disponível no Brasil.


D-ID

A D-ID é uma plataforma que utiliza a IA Generativa para a criação de vídeos. Dentro dela, encontra-se o chat.D-ID, aplicativo gratuito que utiliza técnicas avançadas de text-to-speech (síntese de fala) e animação facial em tempo real para criar uma experiência conversacional humana com a inteligência artificial ChatGPT.

Além disso, a plataforma oferece desde soluções de reconhecimento facial e automatização da produção de conteúdos até um estúdio digital para a criação de vídeos personalizados. Usando o Creative Reality™ Studio, os usuários podem transformar ideias em vídeos e criar avatares humanóides que “falam” em mais de 100 idiomas diferentes. Ao combinar os poderes da tecnologia de deep learning em animações faciais do D-ID com a habilidade de geração textual do sistema GPT3 e a capacidade de criação de imagens a partir de descrições textuais do Stable Diffusion, o estúdio se torna uma ferramenta essencial para aqueles que procuram produzir vídeos e conteúdos de maneira prática e barata. No site há tutoriais que descrevem como criar rostos realísticos ou ilustrados, e também como fazer o  avatar falar.


A IA Generativa e a criação de Deepfakes

Esse tipo de tecnologia generativa , que envolve criações de texto, áudio e vídeo, facilita a geração de deepfakes, técnica que usa IA para manipular e adulterar a voz e rosto de uma pessoa, a fim de criar imagens e vídeos realísticos. Um exemplo disso foi a criação de um vídeo deepfake, em 2019, de Mark Zuckerberg, cofundador do Facebook, em que ele fala sobre planos para a dominação do mundo.

Portanto, nem todos os deepfakes são criados com intenções humorísticas. De acordo com relatórios da empresa Sensity, entre julho de 2019 e julho de 2020, em torno de 105 mil mulheres tiveram suas imagens alteradas e transformadas em conteúdo pornográfico. Giorgio Patrini, presidente-executivo da Sensity, diz que, durante a investigação, percebeu a existência de fotos que retratavam menores de idade, "sugerindo que alguns usuários usavam o robô principalmente para gerar e compartilhar conteúdo pedófilo", explica ele em entrevista à BBC News. Patrini alerta que "ter uma conta nas redes sociais com fotos abertas ao público é o suficiente para que qualquer pessoa se torne um alvo".

Para saber mais sobre deepfakes, nossa equipe produziu outros materiais disponíveis aqui no site. 

Mas então, como identificar esses deepfakes? A própria Sensity é uma empresa especializada em detecção desse tipo de fraude tanto em texto, quanto em imagens e vídeos, mais comuns em deepfakes. Ricardo Franco fala sobre a limitação das IA Generativa quando se trata da criação, ou recriação, de imagens de pessoas. “Observamos em várias pesquisas, que algo que consideramos simples, a máquina está tendo dificuldade em realizar: gerar as mãos. Ela tem bastante dificuldade nisso e em algumas outras características mais minuciosas. Mas consegue gerar um rosto bem feito, de acordo com as características da própria pessoa”, afirma o professor da UFG.


O céu é o limite? 

Ao ser questionado sobre as perspectivas para o futuro da IA Generativa, Ricardo Franco -  professor do Instituto de Informática (INF) da UFG -  diz que as mudanças vieram para ficar e que essas ferramentas servem para auxiliar tanto nas atividades cotidianas quanto nas profissionais. O educador alega que, quando essas limitações da máquina forem superadas e ela for corretamente treinada para não produzir conteúdos nocivos e pornográficos, ela passará a ser crucial no dia a dia de diversas áreas do conhecimento. “Acho que, com a otimização dos modelos de geração de imagens e artes, essas ferramentas vão ser usadas cada vez mais, por exemplo, para áreas da criatividade como jogos ou até contribuir na criação de designs", explica.  

Além disso, o pesquisador também fala sobre a substituição do humano pela máquina, principalmente, quando se trata das profissões. “Teve muito debate sobre o ChatGPT, sobre essa parte do ensino. Ele vai substituir o papel de, por exemplo, um professor? Não, essa tecnologia vem para poder agregar, nós temos que nos adaptar”, destaca. O professor ainda pontua que “Como em toda sociedade a tecnologia evolui, a gente tem que evoluir também. Evoluir nas formas de ensino, evoluir na forma de aprendizagem, estudando novas formas de aprendizagem e incluir aquilo dentro do nosso dia a dia. Usar, por exemplo, o ChatGPT e essas outras formas de Inteligência Artificial Generativa como um auxiliar”.

Ele ainda comenta sobre uma possível “dominação do mundo” por parte das IAs, muito abordada em filmes de ficção. “Acho que isso é algo muito futurista mesmo, presente nos filmes de sci-fi. Não vai chegar a esse ponto, porque a gente também trabalha com a parte ética das inteligências artificiais e em como lidar com isso”, afirma Ricardo. Ao falar sobre ética, vale pensar na normatização do uso desse tipo de tecnologia no Brasil. Atualmente existem debates sobre a regulamentação IA Generativa como o Projeto de Lei n° 21/2020 e você pode compreender suas propostas e objetivos na nossa reportagem: O debate sobre Inteligência Artificial Generativa na economia global. Existem muitas perspectivas e possibilidades sobre o futuro da Inteligência Artificial Generativa e, para Ricardo Franco, “o céu é o limite”.