MIT lisans matematiğinden GPT-4 tam puanı? Korkarım bu sahte, veri setinin kendisinde bir sorun var

Question

Orijinal başlık: "Patlayıcı "GPT-4 MIT Lisans Matematik Tam Puan" kağıdı kopyalandı, veri setinin kendisinde sorunlar var"

Geçtiğimiz iki gün içinde, GPT-4'ün MIT MIT EECS ve matematik lisans sınavlarını tam notla geçtiğine dair bir makale Twitter'da viral oldu.

Kağıt adresi:

Kısaca özetlemek gerekirse, MIT'den bir araştırma ekibi, okullarındaki Matematik, Elektrik Mühendisliği ve Bilgisayar Bilimleri (EECS) ana dalları için ders soruları, ara sınavlar ve final sınavlarından 4.550 problem ve çözümden oluşan kapsamlı bir veri kümesi derledi.

Ardından, araştırma ekibi çeşitli büyük dil modellerinden bu veri setinin konusunu tamamlamasını istedi ve sonuçlar çok korkutucuydu: GPT-3.5 1/3'ü doğru bir şekilde yapabildi ve GPT-4 neredeyse tam notları geçti.

Makalenin yazarı, modelin performansını artırmanın temel olarak "dört parçalı sete" bağlı olduğunu söyledi: Birkaç adımda öğrenme, CoT, Özeleştiri, Uzman.

Yukarıdaki tabloda gösterildiği gibi, GPT-4'ü eklemek için ne kadar çok yol varsa, modelin doğru yanıt oranı o kadar yüksek olur. Orijinal GPT-4 %90 doğru puan alabiliyordu, hatta bazı işlemlerden sonra doğrudan tam puan bile aldı.

Ancak hararetli bir tartışma yürüten netizenlerin çoğu, bu puanın kendisinin GPT-4 ile puanlandığını fark etmemiş olabilir...

Yine MIT'den üç öğrenci bu makaleyi ilk kez keşfetti ve GPT-4 tarafından neredeyse geride bırakılan bir grup olarak, popüler makalenin metodolojisini hemen anlamak istediler.

Bir saatlik araştırmadan sonra, makalenin yöntemleri hakkında şüpheleri vardı.

İki saat sonra fark ettiler: veri kümesinin kendisinde bir sorun vardı.

Orijinal makalenin yazarları, yayınlanan veri setini kalite açısından manuel olarak incelediklerini iddia etseler de, üçlü, test veri setinin önemli bir kısmının kirlenmiş olduğuna dair açık işaretler buldu.

Başka bir deyişle, model, sınavdan önce cevabı söylenen bir öğrenci gibidir, ki bu apaçık "kopya"dır.

Sorgulamanın ardından hemen veri seti üzerinde sıfır örneklemli GPT-4 çalışmasını tamamlamak için yola çıktılar ve verilerin ilk %30'unu manuel olarak puanladılar.Sonuç orijinal kağıttan çok uzaktı. cennet ve bir yeraltı.

Üçlü bir blog yazısında, "MIT lisans öğrencileri olarak, en azından bizim deneyimimize göre, bu test seti, MIT'de bir EECS derecesi kazanmak için gereken anlayışın genişliğini ve derinliğini doğru bir şekilde temsil etmiyor" diye yazdı.

*Son ilerleme: Sıfır örnekli GPT-4'ün doğruluk oranı %62,5'e ulaşabilir, ancak yine de makalede iddia edilen %90'dan çok uzaktır. *

Üçlü ayrıca "aşırı tanıtım" dalgasını da sorguladı: "Bu makaleler genellikle Arxiv'e yüklenir ve herhangi bir meşru akran incelemesinden önce Twitter'da geniş çapta paylaşılır. İşin geleceği kötü bir emsal teşkil ediyor."

"Derin öğrenme" savaşçısı Gary Marcus da şaşırtıcı olmayan bir şekilde bu şüphe dalgasını destekledi:

Aynı zamanda, üçü de bloglarında, "Büyük Dil Modelleri Kullanarak MIT Matematik ve EECS Müfredatını Keşfetmek" makalesinde listelenen yazarlardan birçoğunun lisans araştırmacıları olduğunu ve bu kişilerin çalışmalarındaki herhangi bir hatadan sorumlu olduklarını belirtti. uygunsuz. Bunun yerine, sorumluluk akıl hocalığı yapan yazarlara ait olmalıdır - çalışmalarının kendi alanlarındaki kamu bursu standartlarına uygun olmasını sağlamaları beklenen yazarlardır.

Ardından, bu "patlayıcı" kağıtla ilgili sorunlara bir göz atalım.

Veri kümesinde yanlış olan ne?

İlk olarak, orijinal makaleden bilindiği gibi, araştırmacılar tarafından toplanan veri seti, zorunlu dersleri ve seçmeli dersleri kapsayan, MIT derece sınavını almak için gerekli olan 30 matematik ve EECS dersi için 4550 problem ve bunlara karşılık gelen çözümleri içermektedir.

Makalede "288 soruluk bir test seti, resimsiz ve çözümlü sorular arasından rastgele seçildi" yazıyor.

Bu veri seti (açık kaynak LLM'de ince ayar yapmak için kullanılan eğitim seti hariç), rapor edilen performans testini oluşturmak için kullanılan kodla birlikte makalenin yayınlanmasıyla birlikte GitHub'da yayınlandı. Ancak yazar Prof. Drori, yakın zamanda yaptığı bir gönderide bunu kaldırdı.

Kontrol ettikten ve karşılaştırdıktan sonra üçü, silinen bu dosyanın makalede analiz edilen test setini temsil ettiğine ikna oldu, çünkü değerlendirme kodundaki tüm verilerin dosya yolu onu gösteriyor, içeriğini değiştirmek için herhangi bir kod sağlanmıyor ve başlangıçta Sürüm, GitHub deposunda mevcuttur. Ayrıca dosya, kağıtta belirtilen tüm şema gereksinimlerini (satır sayısı vb.) karşılamaktadır. Kanıtlar, aşağıdaki iddiaların hepsini çok güçlü bir şekilde destekliyor gibi görünüyor,

"Ancak, bu dosyanın test için kullanılan farklı bir dosyayla değiştirilmiş olabileceğini kabul ediyoruz. Bu durumda, bu verileri ve onunla yapılan tüm analizleri kamuya açıklamak için ispat külfetinin yazarlara ait olduğuna inanıyoruz. ."

Peki, üstü kapatılan sorun nedir? Üçlü kendi analizlerini yaptı.

Çözülemeyen sorunlar (test setinin yaklaşık %4'ü)

Orijinal makalenin herhangi bir GPT-4 formunun test setinde mükemmel bir puan üreteceğini söylediği göz önüne alındığında, üçlü bireysel veri noktalarını incelemeye koyuldu. Veri setinde verilen bilgilerle çözülemeyen en az 10 soru olduğu ve diğer birkaç soru bu durumda geçerli olmadığı için kısa sürede mükemmel bir puanın mümkün olmadığını keşfettiler.

Bu tür "sorunlu sorular", test setinin en az %4'ünü oluşturuyordu.

Üçlü, genişletilmiş bir Excel belgesinde, sorunlu olduğu tespit edilen veri kümelerinin örneklerini açıkladı. "Kırmızı", verilen bilgilerle çözülemeyecek bir sorunu, "sarı" ise sorunun makul olmayan bir bölümünü temsil eder.

Sayfa adresi:

Yinelenen sorular (test setinin yaklaşık %5'i)

Metinsel benzerlik tespitini kullanan üçlü, 288 soruluk test setinde 14 sorunun (7 çift) yinelendiğini ve bu durumlarda soru dizileri arasındaki tek farkın karakter düzeyinde minimum gürültü, hatta tamamen aynı olduğunu buldu.

Bu çözülemez sorunlar göz önüne alındığında, GPT-4'ün herhangi bir yöntemle %100 doğruluk elde edebilmesi inanılmaz. Ya bir aşamada ortaya bir cevap sızıntısı oldu ya da soru doğru derecelendirilmedi.

Bu ilk bulgular, birkaç adımlık örneklerle başlayarak (model sıfır atış doğruluğunda başarısız olursa) daha fazla araştırma yapmalarını ve sonunda hem problem çözme bilgisinde bir sızıntı olduğunu hem de modelin sıralamasını yapmak için kullanılan yöntemle ilgili bir sorun olduğunu bulmalarını sağladı. çıktı. Detaylar aşağıdaki gibidir:

Birkaç örnek örnekte bilgi ifşası

Orijinal makalenin de "birkaç örnek örnek" meselesinden bahsettiğini belirtmekte fayda var.

Kısacası, makale, OpenAI'nin gömülü veri kümesindeki benzer problemler üzerinde bir kosinüs benzerlik araştırması gerçekleştirir ve bu problemleri ve çözümleri, modelin problemi çözmesine yardımcı olmak için ek bağlam olarak modele dahil eder.

Örnekler söz konusu problemden yeterince farklı olduğu ve haksız bilgileri ifşa etmekten kaçındığı sürece bu yaklaşım kendi içinde iyidir.

Yayınlanan test veri setini rastgele tarayan üçlü, tuhaf bir şey fark etti: Modele sunulan "birkaç atış örneğin" çoğu, sorunun kendisi için neredeyse kelimesi kelimesineydi.

Bunu daha iyi anlamak için, sağlanan birkaç örnek için problem bildirimi ile listelenen problemler arasındaki örtüşmeye bakan basit bir senaryo yazdılar ve bir histogram çizdiler:

Birçoğu, sorunun kendisiyle neredeyse aynı olan birkaç örnek sağladı; bu, modelin soruya çok benzer bir soruya veya soruya çok benzer bir yanıt aldığı anlamına gelir. Tipik olarak bu, arka planı paylaşan çok sayıda çok oturumlu sorunun tekrarlanmasından gelir.

GPT'nin problem çözme yeteneklerini doğru bir şekilde değerlendirmek için, çok aşamalı problemlerin diğer bölümlerinin, bir problemin birkaç örnek örneğinden tamamen çıkarılması gerektiğini savunuyorlar. Aslında, bu çok parçalı problemlere yönelik çözümlerin genellikle modelden çözmesi istenen problemin başka bir kısmına doğrudan atıfta bulunduğunu veya cevaplar verdiğini buldular.

Sadece bu da değil, verileri incelerken tüm sorunun tekrarlandığı örnekler buldular. Örneğin:

Her iki durumda da cevap tamamen aynıdır. Bunun bir bilgi sızıntısı olmadığını söylemek zor.

GPT-4 otomatik puanlama, bir sorun var

Ek olarak, üçü orijinal makalenin açık kaynak puanlama mekanizmasında da sorunlar buldu:

def tekrar_derecelendirme(input_path, output_path, sayı_uzmanlar = 3, sayı_fs = 3, en_recent_q = 0):

df = pd.read_csv(input_path)

df = df.iloc[most_recent_q:]

dizin için df.iterrows() içindeki satır:

print('Soru tamamlanıyor', dizin)

soru_çıktısı = satır.değerler.tolist()

kurs_adı = satır['Ders Adı']

soru = satır['Soru']

çözüm = satır['Çözüm']

fs_qs = [[sıra['Az atışlı soru 1'], sıra['Az atışlı çözüm 1']], [sıra['Az atışlı soru 2'], sıra['Az atışlı soru 2']], [sıra[ 'Az atışlı soru 3'], sıra['Az atışlı çözüm 3']]]

uzmanlar = get_experts(kurs_adı, soru, sayı_uzmanlar).split(', ')

s = [lambda uzmanı: zero_shot_response(soru, uzman),

lambda uzmanı: az_shot_response(uzman, soru, fs_qs),

lambda uzmanı: az_shot_response(uzman, soru, fs_qs, Doğru)

]

critiques = [["Önceki yanıtınızı gözden geçirin ve yanıtınızla ilgili sorunları bulun.", "Bulduğunuz sorunlara göre yanıtınızı iyileştirin."], ["Lütfen aşağıdaki yanlış yanıtla ilgili geri bildirimde bulunun.","Given this feedback , tekrar cevap ver."]]

uzmanlar için uzman:

print("Kullanma uzmanı", uzman)

soru_çıkışı.append(uzman)

kritik = Doğru

s için:

_response = (uzman) # yeni ChatCompletion.create çağrısı

_grade = not(kurs_adı, soru, çözüm, _yanıt) # Yanıtı çözümle karşılaştıran GPT-4 otomatik derecelendirme

soru_çıkışı+=[_yanıt, _derece]

doğruysa(_grade):

crit=Yanlış

kırmak

kritik ise:

eleştiri içinde eleştiri için:

crit_response = self_critique_response(uzman, kurs_adı, soru, soru_çıktı[-2], eleştiri) # yeni ChatCompletion.create çağrısı

crit_grade = grade(kurs_adı, soru, çözüm, crit_response) # Cevabı çözümle karşılaştıran GPT-4 otomatik derecelendirme

Question_output+=[crit_response,crit_grade]

eğer doğruysa(crit_grade):

kırmak

tekrarlama_grading('MIT_test_set.csv', 'MIT_test_set_graded.csv')

Kodda notlandırma sürecinde ciddi problemlerin olduğu görülmektedir: kağıt a) asıl soru, b) çözüm ve c) GPT'nin kendi cevabı olmak üzere GPT-4 ile değerlendirilip kontrol edilmektedir. derecelendirmede bir parametre.

Daha teknik alanlarda, GPT'nin üstü kapalı yanlış anlamalara sahip olma olasılığı daha yüksektir ve bu otomatik puanlamanın "kendini kandırma" sonuçları verme olasılığı daha yüksektir.

Ayrıca, son zamanlardaki GPT makalelerinin çoğunda birleştirme yaygın bir teknik olsa da, burada çok fazla veri sızıntısı potansiyeli vardır. Her seviye yalnızca temel gerçeğe dayalı ikili bilgi sağlamakla kalmaz, aynı zamanda doğru cevaba ulaşılana kadar devam eder.

Oluşturulanlar asıl cevabı görmese de, özellikle test setinin %16'sını oluşturan ve sonsuz sayıda denemenin yapıldığı çoktan seçmeli sorularda, doğru cevaba ulaşılana kadar formu tekrar oynatmak yeterlidir. (neredeyse) doğru cevabın olması gerektiğini garanti eder.

Bu, birinin elinde bir cevap kâğıdı ile sınava giren öğrencilere cevabı doğru yapıp yapmadıklarını söylemesi ve doğru cevabı alana kadar öğrencilere hatırlatmaya devam etmesi gibidir.

Özetle

Blogun sonunda, üçü şunları yazdı:

Makale, yapay zeka alanındaki son araştırmalardaki daha büyük bir eğilimden bahsediyor. Alan daha hızlı ve daha hızlı ilerledikçe, genellikle kısayolların eşlik ettiği yeni keşiflerin zaman akışı kısalıyor gibi görünüyor. Özellikle endişe verici bir eğilim, bir modelin doğruluğunu değerlendirmek için GPT-4 gibi dil tabanlı modellerin kullanılmasıdır.

Yararlı bir araç olmakla birlikte, sonuçları asla abartılmamalı ve temel gerçek olarak alınmamalıdır. Son zamanlarda yapılan çalışmalar, doğru yer gerçeği bilgisi olmadan GPT-4 değerlendiricilerinin doğrulama için güvenilir bir şekilde kullanılamayacağını göstermiştir. En azından, GPT-4 performansını insan değerlendirmeleriyle karşılaştırmak için veri kümesinin rastgele bir alt kümesi seçilmelidir. Dil modelleri henüz temel gerçeği üretmek için kehanetler olarak kabul edilemez.

Ayrıca, ister eğitim, çıkarım, kıyaslama veya başka amaçlar için olsun, verileri kullanmadan önce her veri noktasını yeniden değerlendirmek ve temel kontroller yapmak son derece önemlidir. Söz konusu veri setinin küçük boyutu göz önüne alındığında, çalışma kapsamında basit manuel doğrulama kolayca gerçekleştirilir.

Eleştirimiz öncelikle bu çalışmanın içeriğine değil metodolojisine ve titizliğine yöneliktir. Büyük dil modellerinin MIT müfredatını gerçekten çözme yeteneği hakkında, makalenin bunu bilimsel olarak titiz bir şekilde gösterememesi dışında hiçbir fikrimiz yok.

Referans linki:

View Original