Você já conhece a inteligência artificial?
Nos últimos seis meses, os chatbots, como o ChatGPT, e os geradores de imagens, como o Midjourney, rapidamente se tornaram um fenômeno cultural.
Mas os modelos de inteligência artificial (IA) ou "aprendizado de máquina" já existem há algum tempo.
Neste guia para iniciantes, iremos além dos chatbots para examinar diferentes tipos de IA - e ver como ela já desempenha um papel em nossas vidas.
A chave para todo aprendizado de máquina é um processo chamado treinamento, em que um programa de computador recebe uma grande quantidade de dados - às vezes com rótulos explicando o que são os dados - e um conjunto de instruções.
A instrução pode ser algo como: "encontre todas as imagens que contêm rostos" ou "categorize esses sons".
O programa então procurará padrões nos dados que recebeu para atingir esses objetivos.
Pode ser necessário algum empurrão ao longo do caminho - como "isso não é um rosto" ou "esses dois sons são diferentes" - mas o que o programa aprende com os dados e as pistas fornecidas torna-se o modelo de IA - e o material de treinamento termina definindo suas habilidades.
Uma maneira de ver como esse processo de treinamento pode criar diferentes tipos de IA é pensar em diferentes animais.
Ao longo de milhões de anos, o ambiente natural levou os animais a desenvolver habilidades específicas. De maneira semelhante, os milhões de ciclos que uma IA faz por meio de seus dados de treinamento moldarão a maneira como ela se desenvolve e levarão a modelos especializados de IA.
Então, quais são alguns exemplos de como treinamos IAs para desenvolver diferentes habilidades?
Pense em um chatbot como um papagaio. Ele faz imitação e pode repetir palavras que ouviu com alguma compreensão de seu contexto, mas sem um sentido completo de seu significado.
Os chatbots fazem o mesmo - embora num nível mais sofisticado - e estão prestes a mudar a nossa relação com a palavra escrita.
Mas como esses chatbots sabem escrever?
Eles são um tipo de IA conhecido como modelos de linguagem grande (MLLs) e são treinados com grandes volumes de texto.
Um MLL é capaz de considerar não apenas palavras individuais, mas frases inteiras e comparar o uso de palavras e frases em uma passagem com outros exemplos em todos os seus dados de treinamento.
Usando esses bilhões de comparações entre palavras e frases, é possível ler uma pergunta e gerar uma resposta - como uma mensagem de texto preditiva em seu telefone, mas em grande escala.
O incrível sobre os grandes modelos de linguagem é que eles podem aprender as regras da gramática e descobrir o significado das palavras, sem ajuda humana.
Se você já usou Alexa, Siri ou qualquer outro tipo de sistema de reconhecimento de voz, está usando IA.
Imagine um coelho com suas orelhas grandes, adaptadas para captar pequenas variações de som.
A IA grava os sons enquanto você fala, remove o ruído de fundo, separa sua fala em unidades fonéticas – os sons individuais que compõem uma palavra falada – e depois os compara a uma biblioteca de sons de linguagem.
Sua fala é então transformada em texto, onde quaisquer erros de escuta podem ser corrigidos antes que uma resposta seja dada.
Esse tipo de inteligência artificial é conhecido como processamento de linguagem natural.
É a tecnologia por trás de tudo, desde você dizer "sim" para confirmar uma transação bancária por telefone, até pedir ao seu celular para informar sobre o tempo nos próximos dias em uma cidade para a qual você está viajando.
Seu telefone já reuniu suas fotos em pastas com nomes como "na praia" ou "Natal"?
Então você está usando IA sem perceber. Um algoritmo de IA descobriu padrões em suas fotos e os agrupou para você.
Esses programas foram treinados examinando uma grande quantidade de imagens, todas rotuladas com uma descrição simples.
Se você der a uma IA de reconhecimento de imagem exemplos suficientes rotulados como "bicicleta", eventualmente ela começará a descobrir como é uma bicicleta e como ela é diferente de um barco ou carro.
Às vezes, a IA é treinada para descobrir pequenas diferenças em imagens semelhantes.
É assim que o reconhecimento facial funciona, encontrando uma relação sutil entre as características do seu rosto que o tornam distinto e único quando comparado a todos os outros rostos do planeta.
O mesmo tipo de algoritmo foi treinado com exames médicos para identificar tumores que oferecem risco à vida - e pode funcionar em milhares de investigações no tempo que levaria para um médico examinar apenas um paciente.
Recentemente, o reconhecimento de imagem foi adaptado a modelos de IA que aprenderam o poder camaleônico de manipular padrões e cores.
Essas IAs geradoras de imagens podem transformar os padrões visuais complexos que coletam de milhões de fotografias e desenhos em imagens completamente novas.
Você pode pedir à IA para criar uma imagem fotográfica de algo que nunca aconteceu - por exemplo, a foto de uma pessoa andando na superfície de Marte.
Ou você pode direcionar criativamente o estilo de uma imagem: "Faça um retrato da técnica de futebol do Brasil, pintado no estilo de Picasso".
As IAs mais recentes iniciam o processo de geração dessa nova imagem com uma coleção de pixels coloridos aleatoriamente.
Ela procura nos pontos aleatórios qualquer sugestão de um padrão que aprendeu durante o treinamento - padrões para construir objetos diferentes.
Esses padrões são lentamente aprimorados pela adição de mais camadas de pontos aleatórios, mantendo os pontos que desenvolvem o padrão e descartando outros, até que finalmente surge uma semelhança.
Desenvolva todos os padrões necessários como "superfície de Marte", "astronauta" e "caminhando" juntos e você terá uma nova imagem.
Como a nova imagem é construída a partir de camadas de pixels aleatórios, o resultado é algo que nunca existiu antes, mas ainda é baseado nos bilhões de padrões aprendidos com as imagens de treinamento originais.
A sociedade agora está começando a lidar com o que isso significa para coisas como direitos autorais e a ética da criação de obras de arte treinadas a partir do trabalho árduo de verdadeiros artistas, designers e fotógrafos.
Os carros autônomos fazem parte do debate sobre IA há décadas, e a ficção científica os fixou na imaginação popular.
A IA nos carros deste tipo é conhecida como direção autônoma e os carros são equipados com câmeras, radares e lasers de detecção de alcance.
Pense em uma libélula, com visão de 360 graus e sensores nas asas para ajudá-la a manobrar e fazer ajustes constantes durante o voo.
De maneira semelhante, o modelo de IA usa os dados de seus sensores para identificar objetos e descobrir se eles estão se movendo e, em caso afirmativo, que tipo de objeto em movimento eles são - outro carro, uma bicicleta, um pedestre ou qualquer outra coisa.
Milhares e milhares de horas de treinamento para entender como é uma boa direção permitiram que a IA pudesse tomar decisões e agir no mundo real para dirigir o carro e evitar colisões.
Os algoritmos preditivos podem ter lutado por muitos anos para lidar com a natureza muitas vezes imprevisível dos motoristas humanos, mas os carros sem motorista já coletaram milhões de quilômetros de dados em estradas reais. Em São Francisco, na Califórnia, eles já estão transportando passageiros pagantes.
A direção autônoma também é um exemplo muito público de como as novas tecnologias devem superar mais do que apenas obstáculos técnicos.
A legislação governamental e os regulamentos de segurança, juntamente com um profundo sentimento de ansiedade sobre o que acontece quando entregamos o controle às máquinas, ainda são obstáculos potenciais para um futuro totalmente automatizado em nossas estradas.
Algumas IAs simplesmente lidam com números, coletando e combinando-os em volume para criar um enxame de informações, cujos produtos podem ser extremamente valiosos.
Provavelmente já existem vários perfis de suas ações financeiras e sociais, principalmente online, que podem ser usados para fazer previsões sobre seu comportamento.
O cartão de fidelização do supermercado acompanha os seus hábitos e gostos através das suas compras. As agências de crédito rastreiam quanto você tem no banco e quanto deve em seus cartões de crédito.
A Netflix e a Amazon estão acompanhando quantas horas de conteúdo você assistiu na noite passada. Suas contas de mídia social sabem em quantos vídeos você comentou hoje.
E não é só com você, esses números existem para todos, permitindo que os modelos de IA os percorram em busca de tendências sociais.
Esses modelos de IA já estão moldando sua vida, desde ajudar a decidir se você pode obter um empréstimo ou hipoteca, até influenciar o que você compra, escolhendo quais anúncios você vê online.
Seria possível combinar algumas dessas habilidades em um único modelo híbrido de IA?
É exatamente isso que um dos avanços mais recentes da IA faz.
Chamado IA multimodal, ela permite que um modelo analise diferentes tipos de dados - como imagens, texto, áudio ou vídeo - e descubra novos padrões entre eles.
Essa abordagem multimodal foi uma das razões para o enorme salto de capacidade entre o ChatGPT3, que era treinado apenas com texto, e o ChatGPT4, que também era treinado com imagens.
A ideia de um único modelo de IA capaz de processar qualquer tipo de dados e, portanto, executar qualquer tarefa, desde traduzir entre idiomas até projetar novos medicamentos, é conhecida como inteligência geral artificial (AGI).
Para alguns, é o objetivo final de toda pesquisa de inteligência artificial; para outros é um caminho para todas aquelas distopias de ficção científica nas quais liberamos uma inteligência tão além de nossa compreensão que não somos mais capazes de controlá-la.
Até recentemente, o processo-chave no treinamento da maioria das IAs era conhecido como "aprendizagem supervisionada".
Enormes conjuntos de dados de treinamento receberam rótulos de humanos e a IA foi solicitada a descobrir padrões nos dados.
A IA foi então solicitada a aplicar esses padrões a alguns novos dados e fornecer feedback sobre sua precisão.
Por exemplo, imagine dar a uma IA uma dúzia de fotos - seis são rotuladas como "carro" e seis são rotuladas como "van".
Em seguida, diga à IA para elaborar um padrão visual que classifique os carros e as vans em dois grupos.
Agora, o que você acha que acontece quando você pede para categorizar esta foto?
Infelizmente, parece que a IA pensa que é uma van - não tão inteligente.
Agora você mostra isso.
E diz-lhe que isto é um carro.
Está bem claro o que deu errado.
A partir do número limitado de imagens com as quais foi treinado, a IA decidiu que a cor é a maneira mais forte de separar carros e vans.
Mas o incrível sobre o programa de IA é que ele tomou essa decisão por conta própria - e podemos ajudá-lo a refinar sua tomada de decisão.
Podemos dizer a ele que identificou erroneamente os dois novos objetos - isso o forçará a encontrar um novo padrão nas imagens.
Porém, mais importante, podemos corrigir o viés em nossos dados de treinamento fornecendo imagens mais variadas.
Essas duas ações simples tomadas juntas - e em grande escala - são como a maioria dos sistemas de IA foi treinada para tomar decisões incrivelmente complexas.
Muitos dos avanços mais recentes em IA foram possibilitados pelo aprendizado profundo.
Em termos mais simples, é aqui que o uso de algoritmos complexos e enormes conjuntos de dados significa que a IA pode aprender sem qualquer orientação humana.
ChatGPT é o exemplo mais conhecido.
A quantidade de texto na internet e em livros digitalizados é tão vasta que ao longo de muitos meses o ChatGPT conseguiu aprender sozinho como combinar palavras de forma significativa.
Imagine que você tenha uma grande pilha de livros em língua estrangeira, talvez alguns deles com imagens.
Eventualmente, você pode descobrir que a mesma palavra aparecia em uma página sempre que havia um desenho ou foto de uma árvore e outra palavra quando havia uma foto de uma casa.
E você veria que muitas vezes havia uma palavra perto dessas palavras que poderia significar “um” ou talvez “o” - e assim por diante.
Esse é o modelo de aprendizado profundo, também conhecido como aprendizado não supervisionado.
Ele depende de uma enorme quantidade de poder de computação que permite que a IA memorize grandes quantidades de palavras - sozinhas, em grupos, em frases e páginas - e depois leia e compare como elas são usadas repetidamente em uma fração de um segundo.
Os rápidos avanços feitos pelos modelos de aprendizado profundo no ano passado impulsionaram a nova onda de entusiasmo e preocupação com o potencial da inteligência artificial, e não há sinais de que isso desacelere.
As promessas e advertências da ficção científica parecem ter surgido repentinamente sobre nós e descobrimos que já estamos vivendo em um mundo onde a IA está começando a revelar suas estranhas habilidades inumanas.
Escrito por Paul Sargeant
Design de Jenny Law, Debie Loizou, Patricia Ofuono e Oli Powell
Desenvolvimento de Assiz Pereira e Alli Shultes
Edição adicional por Emma Atkinson e Bella Hurrell. Agradecemos a Maryam Ahmed por sua orientação sobre modelos de aprendizado de máquina.
Fotos: Getty Images