Pontuação completa GPT-4 através da matemática de graduação do MIT? Receio que seja falso, há algo errado com o próprio conjunto de dados

Question

Título original: "O papel explosivo "GPT-4 MIT Undergraduate Mathematics Full Score" foi enganado, o próprio conjunto de dados tem problemas"

Nos últimos dois dias, um artigo sobre o GPT-4 passar no MIT MIT EECS e nos exames de graduação em matemática com nota máxima se tornou viral no Twitter.

Endereço de papel:

Em breve recapitulação, uma equipe de pesquisa do MIT compilou um conjunto de dados abrangente de 4.550 problemas e soluções de perguntas do curso, exames intermediários e finais para os cursos de Matemática, Engenharia Elétrica e Ciência da Computação (EECS) em sua escola.

Então, a equipe de pesquisa pediu a vários modelos de linguagem grandes para completar o tópico desse conjunto de dados, e os resultados foram muito assustadores: o GPT-3.5 conseguiu fazer 1/3 corretamente e o GPT-4 passou quase a nota máxima.

O autor do artigo disse que melhorar o desempenho do modelo depende principalmente do "conjunto de quatro peças": aprendizado de poucos tiros, CoT, autocrítica, especialista.

Conforme mostrado na tabela acima, quanto mais maneiras de adicionar GPT-4, maior a taxa de acertos do modelo. O GPT-4 original foi capaz de obter uma pontuação de taxa correta de 90% e, após algumas operações, obteve uma pontuação completa diretamente.

Mas a maioria dos internautas que tiveram uma discussão acalorada podem não ter notado que essa pontuação em si foi pontuada com GPT-4...

Três alunos que também são do MIT descobriram este papel pela primeira vez.Como um grupo quase ultrapassado pelo GPT-4, eles queriam entender imediatamente a metodologia do popular papel.

Após uma hora de pesquisa, eles ficaram com dúvidas sobre os métodos do jornal.

Duas horas depois, eles perceberam: havia algo errado com o próprio conjunto de dados.

Embora os autores do artigo original afirmassem ter revisado manualmente o conjunto de dados liberados quanto à qualidade, o trio encontrou sinais claros de que uma parte significativa do conjunto de dados de teste estava contaminada.

Em outras palavras, o modelo é como um aluno que recebeu a resposta antes do exame, o que é uma "cola" flagrante.

Após o questionamento, eles imediatamente começaram a executar o GPT-4 de amostra zero no conjunto de dados e pontuaram manualmente os 30% principais dos dados. O resultado estava longe do papel original. Deve-se dizer que é um céu e um subterrâneo.

“Como alunos de graduação do MIT, pelo menos em nossa experiência, este conjunto de testes não representa com precisão a amplitude e a profundidade de compreensão necessárias para obter um diploma do EECS no MIT”, escreveu o trio em um post de blog.

*Último progresso: A taxa de precisão do GPT-4 de amostra zero pode chegar a 62,5%, mas ainda está longe dos 90% reivindicados no artigo. *

O trio também questionou a maré de "excesso de publicidade": "Esses documentos costumam ser carregados no Arxiv e amplamente compartilhados no Twitter antes de qualquer revisão por pares legítima. O futuro do trabalho estabelece um mau precedente."

O lutador de "aprendizagem profunda" Gary Marcus também apoiou, sem surpresa, essa onda de dúvidas:

Ao mesmo tempo, os três também apontaram em seus blogs que vários dos autores listados no artigo "Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models" são pesquisadores de graduação, tornando essas pessoas responsáveis por quaisquer erros em seu trabalho. inapropriado. Em vez disso, o ônus deve recair sobre os autores mentores – são eles que devem garantir que seu trabalho esteja em conformidade com os padrões de erudição pública em seu campo.

A seguir, vamos dar uma olhada nos problemas desse papel "explosivo".

O que há de errado com o conjunto de dados?

Primeiro, como se sabe do artigo original, o conjunto de dados coletado pelos pesquisadores contém 4.550 problemas e soluções correspondentes para 30 cursos de matemática e EECS necessários para obter o exame de graduação do MIT, abrangendo cursos básicos e disciplinas eletivas.

"Um conjunto de teste de 288 questões foi selecionado aleatoriamente entre as questões sem imagens e com soluções", diz o jornal.

Esse conjunto de dados (excluindo o conjunto de treinamento usado para ajustar o LLM de código aberto) também foi liberado para o GitHub com a publicação do artigo, juntamente com o código usado para gerar o teste de desempenho relatado. No entanto, o autor, Prof. Drori, o removeu em uma submissão recente.

Após verificação e comparação, os três ficaram convencidos de que esse arquivo excluído representava o conjunto de teste analisado no artigo, pois o caminho do arquivo de todos os dados no código de avaliação apontava para ele, nenhum código foi fornecido para modificar seu conteúdo e foi inicialmente A versão está disponível no repositório GitHub. Além disso, o arquivo atende a todos os requisitos de esquema (número de linhas etc.) especificados no documento. A evidência parece apoiar fortemente todas as seguintes afirmações,

"No entanto, reconhecemos que é possível que este arquivo tenha sido substituído por um arquivo diferente usado para teste. Se for esse o caso, acreditamos que o ônus da prova recai sobre os autores para divulgar publicamente esses dados e todas as análises feitas com eles ."

Então, qual é o problema que está sendo encoberto? Os três deram sua própria análise.

Problemas insolúveis (aproximadamente 4% do conjunto de teste)

Dado que o artigo original dizia que qualquer forma de GPT-4 produziria uma pontuação perfeita no conjunto de teste, o trio começou a examinar pontos de dados individuais. Eles logo descobriram que uma pontuação perfeita simplesmente não era possível, pois havia pelo menos 10 questões no conjunto de dados que não podiam ser resolvidas com as informações fornecidas, e várias outras simplesmente não eram questões válidas neste caso.

Essas "perguntas problemáticas" representaram pelo menos 4% do conjunto de teste.

Em um documento Excel estendido, o trio anotou exemplos de conjuntos de dados que foram considerados problemáticos. "Vermelho" representa um problema que não pode ser resolvido com as informações fornecidas e "amarelo" representa uma parte do problema que não é razoável.

Endereço da página:

Perguntas duplicadas (cerca de 5% do conjunto de teste)

Usando a detecção de similaridade textual, o trio descobriu que 14 perguntas (7 pares) eram duplicadas no conjunto de teste de 288 perguntas e, nesses casos, a única diferença entre as sequências de perguntas era o ruído mínimo no nível dos caracteres, ou mesmo completo.

Dados esses problemas insolúveis, é incrível que o GPT-4 possa atingir 100% de precisão por qualquer meio. Ou houve um vazamento de resposta no meio em algum momento ou a pergunta não foi avaliada corretamente.

Essas descobertas iniciais os levaram a investigar mais, começando com exemplos de poucos tiros (se o modelo falhar com precisão de tiro zero), finalmente descobrindo que havia um vazamento de informações de solução de problemas e um problema com o método usado para classificar o modelo. saída. Detalhes a seguir:

Divulgação de informações em alguns exemplos de amostra

Vale a pena notar que o artigo original também mencionou a questão de "alguns exemplos".

Resumindo, o artigo realiza uma pesquisa de similaridade de cosseno em problemas semelhantes no conjunto de dados incorporado do OpenAI e incorpora esses problemas e soluções no modelo como contexto adicional para ajudar o modelo a resolver o problema.

Essa abordagem é boa por si só, desde que os exemplos sejam suficientemente diferentes do problema em questão e evite expor informações injustas.

Examinando aleatoriamente o conjunto de dados de teste publicado, o trio notou algo estranho: muitos dos "exemplos de poucas tomadas" apresentados ao modelo eram quase palavra por palavra para a própria pergunta.

Para entender isso melhor, eles escreveram um script simples que examinava a sobreposição entre a declaração do problema e os problemas listados para alguns exemplos fornecidos e traçavam um histograma:

Muitos forneceram poucas amostras quase idênticas à própria pergunta, o que significa que o modelo obteve uma resposta para a pergunta ou uma pergunta muito semelhante à pergunta. Normalmente, isso vem da repetição de um grande número de perguntas de várias sessões que compartilham o histórico.

Eles argumentam que, para avaliar adequadamente as habilidades de resolução de problemas do GPT, outras partes de problemas de vários estágios devem ser completamente excluídas de exemplos de problemas de poucos tiros. Na verdade, eles descobriram que as soluções para esses problemas de várias partes frequentemente se referiam diretamente ou davam respostas a outra parte do problema que o modelo deveria resolver.

Não apenas isso, mas ao minerar os dados, eles encontraram instâncias em que toda a pergunta foi repetida. por exemplo:

Em ambos os casos, a resposta é exatamente a mesma. É difícil dizer que não é um vazamento de informações.

GPT-4 pontuação automática, há um problema

Além disso, os três também encontraram problemas no mecanismo de pontuação de código aberto do artigo original:

def repeat_grading(input_path, output_path, num_experts = 3, num_fs = 3, most_recent_q = 0):

df = pd.read_csv(input_path)

df = df.iloc[most_recent_q:]

para índice, linha em df.iterrows():

print('Completando questão', índice)

question_output = row.values.tolist()

course_name = row['Nome do curso']

pergunta = linha['Pergunta']

solução = linha['Solução']

fs_qs = [[row['Questão de poucos tiros 1'], linha['Solução de poucos tiros 1']], [linha['Questão de poucos tiros 2'], linha['Solução de poucos tiros 2']], [linha[ 'Questão de poucos tiros 3'], linha['Solução de poucos tiros 3']]]

experts = get_experts(course_name, question, num_experts).split(', ')

s = [especialista em lambda: zero_shot_response(pergunta, especialista),

lambda expert: Few_shot_response(expert, question, fs_qs),

lambda expert: Few_shot_response(expert, question, fs_qs, True)

]

criticals = [["Reveja sua resposta anterior e encontre problemas com sua resposta.", "Com base nos problemas que você encontrou, melhore sua resposta."], ["Por favor, forneça feedback sobre a seguinte resposta incorreta.","Dado este feedback , responda novamente."]]

para especialista em especialistas:

print("Usando especialista", especialista)

question_output.append(especialista)

crítico = Verdadeiro

para em s:

_response = (expert) # chama novo ChatCompletion.create

_grade = grade(course_name, question, solution, _response) # Avaliação automática GPT-4 comparando resposta com solução

question_output+=[_response, _grade]

se correto(_grau):

crítico=Falso

quebrar

se crítico:

para crítica em críticas:

crit_response = self_critique_response(expert, course_name, question, question_output[-2], critique) # chama novo ChatCompletion.create

crit_grade = grade(course_name, question, solution, crit_response) # GPT-4 auto-avaliação comparando resposta a solução

question_output+=[crit_response,crit_grade]

se correto(crit_grade):

quebrar

repeat_grading('MIT_test_set.csv', 'MIT_test_set_graded.csv')

No código, percebe-se que há sérios problemas no processo de avaliação: o trabalho é avaliado e conferido com o GPT-4, incluindo a) a pergunta original, b) a solução ec) a própria resposta do GPT, conforme um parâmetro na classificação.

Em campos mais técnicos, é mais provável que o GPT tenha mal-entendidos implícitos, e essa pontuação automática é mais provável que tenha resultados de "autoengano".

Além disso, embora a concatenação seja uma técnica comum em muitos artigos GPT recentes, há muito potencial para vazamento de dados aqui. Cada nível não apenas fornece informações binárias com base na verdade, mas continua até que a resposta correta seja alcançada.

Embora estes criados não vejam a resposta real, basta repetir o formulário até chegar à resposta correta, principalmente no caso de questões de múltipla escolha, que perfazem 16% do conjunto de testes, onde um número infinito de tentativas (quase) garante que a resposta correta deve ser Irá aparecer.

É como alguém segurando uma folha de respostas e dizendo aos alunos que estão fazendo o teste se eles acertaram ou não, e continua lembrando os alunos até que eles obtenham a resposta correta.

Resumo

No final do blog, os três escreveram:

O artigo fala de uma tendência maior nas pesquisas recentes no campo da inteligência artificial. À medida que o campo avança cada vez mais rápido, a cadência temporal de novas descobertas parece encurtar, muitas vezes acompanhada de atalhos. Uma tendência particularmente preocupante é o uso de modelos baseados em linguagem como o GPT-4 para avaliar a precisão de um modelo.

Embora seja uma ferramenta útil, suas conclusões nunca devem ser exageradas, nem devem ser tomadas como verdade absoluta. Trabalhos recentes mostraram que, sem informações precisas de verdade, os avaliadores GPT-4 não podem ser usados de forma confiável para verificação. No mínimo, um subconjunto aleatório do conjunto de dados deve ser escolhido para comparar o desempenho do GPT-4 com as avaliações humanas. Os modelos de linguagem ainda não podem ser considerados como oráculos para gerar verdades básicas.

Além disso, é extremamente importante reavaliar todos os pontos de dados e realizar verificações básicas antes de usar os dados, seja para treinamento, inferência, benchmarking ou outros. Dado o pequeno tamanho do conjunto de dados em questão, uma verificação manual simples é facilmente realizada dentro do escopo do trabalho.

A nossa crítica dirige-se principalmente à metodologia e ao rigor deste estudo, não ao seu conteúdo. Não temos opinião sobre a capacidade de grandes modelos de linguagem realmente resolverem o currículo do MIT, exceto que o artigo falha em demonstrar isso de maneira cientificamente rigorosa.

Link de referência:

Ver original