José Hernández-Orallo, especialista em IA: "As escalas dos seres humanos não podem ser usadas para avaliar a inteligência artificial"

José Hernández-Orallo (Kennington, Londres, 51 anos) ganhou seu primeiro computador, aos 10 anos, em uma rifa. “Era um Spectrum, meu irmão fazia uma coleção de uma enciclopédia de informática parcelada e, se você terminasse, entrava no sorteio”, lembra. Eles venceram. “Jogávamos, como qualquer criança hoje em dia, mas também programávamos, tínhamos controle total do computador. Eles não são como são agora.” Hoje é médico e professor da Universidade Politécnica de Valência, especialista mundial na avaliação da inteligência artificial e liderou a carta que, junto com outros 15 pesquisadores, publicou a revista Ciência em que afirmam a necessidade de “repensar” a avaliação das ferramentas de IA de forma a avançar para modelos mais transparentes e saber qual a sua real eficácia, o que podem e não podem fazer.

Perguntar. O que você acha da decisão de Geoffrey Hinton de deixar seu emprego no Google para poder alertar com mais liberdade sobre os perigos representados pela inteligência artificial?

Responder. O que Hinton diz é bastante razoável, mas estou um pouco surpreso que ele o diga agora, quando já dizemos a mesma coisa há muito tempo em centros como o Centro de Estudos do Risco Existencial ou o Leverhulme Centro para o Futuro da Inteligência [ambos de la Universidad de Cambridge y a los que está afiliado]. E acho que ele já disse coisas semelhantes antes, talvez não tão claramente ou tão alto. Estou surpreso que Hinton agora perceba que os sistemas artificiais e naturais são muito diferentes, e o que funciona para um (capacidade, avaliação, controle, ética, etc.) e multiplicidade (eles podem replicar, comunicar e atualizar muito mais rápido que os humanos). Mas é bem-vindo que um cientista tão importante diga isso assim e agora. Há uma coincidência muito grande nos riscos, embora possamos diferir nas prioridades. Por exemplo, não acredito que a geração de material falso (texto, imagens ou vídeo) seja tão problemática, pois aumentar nosso ceticismo e nos obrigar a comparar as fontes é saudável. Estou mais preocupado com algumas soluções para o “problema de alinhamento” que estão permitindo que certos países, grupos políticos ou religiosos alinhem a IA aos seus interesses e ideologias ou censurem os sistemas de IA em uma direção específica. A palavra “alinhamento”, entendida como “alinhamento único”, me remete a tempos muito sombrios da humanidade.

P. Como você chegou à inteligência artificial?

R. Havia outra enciclopédia em casa, sobre a evolução humana. Eu era fascinado pela inteligência, como ela havia evoluído, e queria entendê-la. Também leio livros de filosofia. E, com todas as peças juntas, eu estudei Ciência da Computação porque era o que meu irmão estudava mesmo que, naquela época, inteligência artificial fosse meio assunto. Mais tarde fiz a minha tese no Departamento de Lógica e Filosofia da Ciência da Universidade de Valência, que tinha um programa mais orientado para a filosofia da inteligência artificial. Fiquei cativado e também não tive outras opções porque não tínhamos recursos. Foi um ano em que também pude trabalhar no que gostava, escrever um livro e fazer o benefício social substitutivo. Às vezes você não escolhe, uma coisa vai atrás da outra mas no final eu me dedico ao que sempre gostei, que é entender a inteligência, tanto natural quanto artificial.

P. Qual é a avaliação dos sistemas de inteligência artificial?

R. Sabemos para que servem as bicicletas ou robôs de cozinha, e as tarefas que podem realizar, e são avaliados do ponto de vista da qualidade. Até recentemente, os sistemas de inteligência artificial seguiam esse caminho. Se eles tinham que classificar cães e gatos, o importante era que eles classificassem cães e gatos da melhor maneira possível. Eles eram sistemas orientados a tarefas. Se você souber avaliá-lo, saberá se serve para a tarefa que deseja e quantos erros comete. Mas isso é muito diferente de sistemas como o GPT4, que têm capacidade cognitiva.

P. Como são esses sistemas agora?

R. Um sistema é bom se funciona para você, se atende às suas expectativas, se não o surpreende negativamente. AI são sistemas de propósito geral. Você deve determinar o que eles são capazes de fazer com base na maneira como você os instrui. Eles são muito bons, mas não são seres humanos, pensa-se que eles reagirão como uma pessoa e é aí que começam os problemas. Eles respondem com alguma certeza e você acha que está correto. Isso não quer dizer que o ser humano sempre responda corretamente, mas estamos acostumados a avaliar as pessoas, saber se são confiáveis ou não, e esses sistemas não funcionam com as intuições que usamos com os seres humanos.

P. E como melhorar as avaliações nessas ferramentas de uso geral, capazes de fazer tantas coisas?

R. Bem, é algo que foi tentado. É chamado de avaliação baseada em habilidades, não em tarefas. Existe uma grande tradição e uma ciência para esse tipo de avaliação mas muitos se lançaram a usar os mesmos testes que são usados para humanos e tentam aplicá-los em IA e não são projetados para máquinas. É como usar um termômetro de parede para medir a temperatura do corpo, não vai funcionar.

P. Mas existe uma maneira de avaliar a inteligência artificial por capacidades?

R. É o que estamos tentando desenvolver. Por exemplo, o GPT4 dá uma avaliação com provas, principalmente educação, vestibular, química, física, linguagem, de tudo um pouco. Tentar comparar o resultado obtido com o de humanos e dizer que está no percentil 70% não faz o menor sentido. Pode ser um indicador, mas isso não significa que esteja acima de 70% das pessoas. Quando você aplica esses instrumentos em humanos, você assume muitas coisas, que um café pode lhe trazer, por exemplo… agora diga ao sistema para lhe trazer um café.

P. Então não há como avaliá-los?

R. Não podemos medir como eles funcionam por tarefas porque nunca terminaríamos. Para a avaliação de um sistema como estes, é necessário extrair indicadores, neste caso capacidades, que nos permitam extrapolar como o sistema funcionará no futuro. Não está dando um número. Deveríamos ser capazes de comparar humanos e sistemas de inteligência artificial, mas isso está sendo feito de maneira errada. É um sistema muito complexo, mas não perco a esperança. Somos como a física era no século XV ou XVI. Agora está tudo muito confuso. É preciso quebrar esquemas e o objetivo final é, em décadas ou séculos, chegar a uma série de indicadores universais que possam ser aplicados não só aos humanos e à inteligência artificial, mas também a outros animais.

P. Você entende que é assustador?

R. Somos uma espécie no contexto da evolução e somos apenas um tipo de inteligência que pode haver. Às vezes acreditamos que somos sublimes, mas chegamos lá por muitas chances de evolução. O mais próximo são os bonobos e há um salto importante porque adquirimos a linguagem e acreditamos que somos um pico na escala natural e não somos. Com a inteligência artificial, nos perguntamos qual é o nosso lugar. A diferença é que nossa evolução nos foi dada e há bastante consenso de que não jogamos ou alguém começa a criar novas espécies, mas com inteligência artificial estamos jogando e quando você joga pode se queimar. Estamos atingindo níveis de sofisticação de que jogos não são brincadeiras e devem ser levados a sério. É fascinante, é como criar um novo mundo.

P. Os autores da carta propõem um roteiro para modelos de IA, no qual seus resultados são apresentados de maneira mais sutil e os resultados da avaliação caso a caso são disponibilizados ao público.

R. Sim. O nível de escrutínio deve ser maior. Em outros casos, com os dados de treinamento, algoritmo e código, posso executá-lo, mas com esses sistemas é impossível devido ao custo computacional e de energia.

P. Mas eles podem ser mais transparentes?

R. Você pode ser transparente no processo. O que pedimos é que sejam mais detalhistas nos resultados. Que o acesso aos detalhes seja dado em cada um dos exemplos. Se há um milhão de exemplos, quero os resultados de cada um dos milhões de exemplos porque não tenho capacidade para reproduzir isso e não só porque não tenho acesso ao computador e isso limita o que é básico em ciência , que é o escrutínio dos pares. Não temos acesso às partes onde falha.

P. A regulamentação é uma solução?

R. É necessário, mas tem que ser bem feito. Se não for regulamentado, certamente haverá rebotes. Se você não regulamentar a aviação, acidentes acontecem, as pessoas perdem a confiança e o setor não decola. Se algo grande acontecer, a reação da sociedade pode ser se voltar contra esses sistemas e a médio e longo prazo eles terão menos difusão e uso do que podem ter para ferramentas que, em geral, são positivas para a sociedade. Você tem que regular, mas não frear muito. As pessoas têm medo de voar, mas sabemos que os regulamentos da aviação são dos mais rigorosos, que o avião é um dos meios de transporte mais seguros e as empresas sabem que, a longo prazo, é benéfico para elas.

P. Pode haver uma regulamentação para todos, em todo o mundo?

R. Existe uma Agência de Energia Atômica e acordos de DNA recombinante. Os alimentos geneticamente modificados falharam, os países não concordam e na Europa estamos consumindo esses alimentos, mas não podemos produzi-los, e é isso que pode acontecer conosco. O regulamento da UE pode conter erros, mas você precisa entrar em ação e colocá-lo em operação.

P. ¿Cree que esta regulación debe ser estricta o laxa?

R. Eu acho que tem que ser particularizado para o volume. Deve ser rigoroso com os grandes e mais relaxado com os pequenos. Você não pode exigir do Google o mesmo que de um comece quatro filhos na faculdade porque se você não matar a inovação.

P. Houve uma lacuna entre regulamentação e ciência novamente?

R. É que a inteligência artificial anda muito rápido e há coisas que não podem ser antecipadas. É difícil regular algo que é tão transversal, tão cognitivo. Somos lentos, mas também atrasados com as redes sociais e demoramos muito com o tabaco.

P. Isso lançaria alguma luz sabendo como as caixas pretas funcionam?

R. As caixas pretas não explicam o que o sistema faz. Para realmente saber o que é, quando falha e quais expectativas você tem, é necessária muita avaliação. Para avaliar os alunos não lhes damos um scanner, damos-lhes um teste. Se queremos saber como funciona um carro, queremos saber se testaram se sai ou não em curva e não me vai ajudar saber quantas velas tem mas sim saber quantos testes fizeram . Por isso a questão da avaliação é essencial. O que queremos é testar esses sistemas até definirmos em que área você pode usá-lo com segurança. É assim que carros e aviões são avaliados.

P. Por que a inteligência artificial cria tanta ansiedade?

R. Esforços de divulgação estão sendo feitos, mas seu objetivo não é entender como isso funciona. La crítica a OpenAI, es que ha dado acceso al sistema más potente de inteligencia artificial a cientos de millones de personas, incluidos niños y personas con problemas mentales, con una cláusula con la que no se hacen responsables y esa es la cultura que tenemos hoy em dia. Baixamos aplicativos e ninguém é responsável. Acho que eles pensaram que, se não levarem as pessoas a usá-lo, como saberão os riscos. Mas testes-piloto podem ser feitos. Dizem que o acesso é gradual, mas é uma política de carreira. É um desafio para o Google em seu negócio de mecanismos de busca ser líder. E as pessoas têm medo porque alguns jogadores dominam tudo e é um oligopólio.

você pode seguir O PAÍS Tecnologia em Facebook y Twitter ou cadastre-se aqui para receber nossos newsletter semanal.