LeCun'un dünya modeli görünümü! Meta, dünyayı anladıktan sonra bir resmin yarısını tamamlayan ve herkes tarafından kendi kendini denetleyen öğrenmenin beklendiği ilk "insansı" modelin piyasaya sürülmesiyle şok oldu.

**Kaynak:**Xinzhiyuan

**Giriş:**LeCun'un dünya modeli nihayet burada, herkesin beklediği gibi olduğu söylenebilir. Artık büyük model dünyayı anlamayı ve bir insan gibi akıl yürütmeyi öğrendiğine göre, AGI çok uzakta değil mi?

Uzun zamandır LeCun'un ideal yapay zekası her zaman insan seviyesine götüren yapay zeka olmuştur, bu nedenle "dünya modeli" kavramını önermiştir.

Son zamanlarda, halka açık bir konuşmada LeCun, GPT büyük modelini bir kez daha eleştirdi: olasılığa dayalı büyük otoregresif üretim modeli, halüsinasyon problemini hiçbir şekilde çözemez. Hatta doğrudan GPT modelinin 5 yıl dayanamayacağını iddia ediyor.

Bugün, LeCun nihayet hayaline bir adım daha yaklaştı!

Meta şok, eksik görüntüleri mevcut modellerden daha doğru bir şekilde analiz edip tamamlayabilen "insan benzeri" bir yapay zeka modeli I-JEPA'yı piyasaya sürdü.

Kağıt adresi:

Alt satır: I-JEPA eksik parçaları tamamladığında, dünya hakkında arka plan bilgisini kullanır! Diğer modellerin yaptığı gibi sadece yakındaki piksellere bakmak yerine.

"Dünya modeli" konseptinin önerilmesinin üzerinden bir yıldan fazla zaman geçti ve LeCun kendi yıldız denizini gerçekleştirmek üzere.

Bugün, eğitim kodu ve modelleri açık kaynaklıdır. Bildiri önümüzdeki hafta CVPR 2023'te sunulacak.

LeCun'un dünya modeli burada

Günümüzün en gelişmiş AI sistemleri bile bazı önemli sınırlamaları aşamadı.

Bu pranga katmanını kırmak için Meta'nın baş yapay zeka bilimcisi Yann LeCun yeni bir mimari önerdi.

Vizyonu, dünyanın nasıl çalıştığına dair dahili bir modeli öğrenebilen, böylece daha hızlı öğrenebilen, karmaşık görevleri planlayabilen ve yeni ve alışılmadık durumlara her an yanıt verebilen bir makine yaratmaktır.

Bugün Meta tarafından başlatılan görüntü ortak yerleşik tahmin çerçevesi I-JEPA modeli, LeCun'un dünya modeli vizyonunun önemli bir bölümünü temel alan tarihteki ilk yapay zeka modelidir.

I-JEPA, dış dünyanın içsel bir modelini oluşturarak öğrenir. Görüntüleri tamamlama sürecinde, piksellerin kendilerini karşılaştırmak yerine görüntülerin soyut temsillerini karşılaştırır.

I-JEPA, birden çok bilgisayarlı görü görevinde güçlü performans göstermiştir ve yaygın olarak kullanılan diğer CV modellerinden çok daha hesaplama açısından verimlidir.

ImageNet Doğrusal Değerlendirme: I-JEPA yöntemi, diğer yöntemlerden daha az hesaplama kullanarak semantik görüntü temsillerini öğrenmek için ön eğitim sırasında herhangi bir görsel veri artırma kullanmaz.

I-JEPA tarafından öğrenilen gösterimler, kapsamlı ince ayar yapılmadan birçok farklı uygulamada kullanılabilir.

Örneğin araştırmacılar, 632M parametreli görsel bir Transformer modelini eğitmek için 72 saat içinde 16 A100 GPU kullandı.

ImageNet'teki düşük seviyeli sınıflandırma görevinde, sınıf başına 12 etiketli örneğe kadar en son teknolojiyi başarır.

Diğer yöntemler tipik olarak 2 ila 10 kat daha fazla GPU saati gerektirir ve aynı miktarda veriyle eğitildiklerinde daha yüksek hata oranlarına sahiptir.

Kendi kendine denetimli öğrenme yoluyla sağduyu kazanın

Genel olarak, insanlar sadece pasif gözlem yoluyla dünya hakkında çok fazla arka plan bilgisi öğrenebilirler.

Spekülatif olarak, bu tür sağduyulu bilgilerin, yeni kavramların, temellerin ve planların geçerli örneklerini elde etmek gibi akıllı davranışları mümkün kılmanın anahtarı olduğu görülüyor.

Doğrusal bir okumayı öğrenmek olarak kavram öğrenmeyi modelleyin

Meta'nın I-JEPA (ve daha genel olarak Ortak Gömme Tahmin Mimarisi JEPA modeli) üzerindeki çalışması bu gerçeğe dayanmaktadır.

Araştırmacıların denediği şey, dünya hakkında sağduyulu arka plan bilgisini yakalayan ve ardından bunu algoritmanın erişebileceği dijital bir temsile kodlayan bir öğrenme algoritması tasarlamaktır.

Yeterince verimli olmak için, sistemlerin bu temsilleri kendi kendini denetleyen bir şekilde yani manuel olarak birleştirilmiş etiketli veri kümelerinden ziyade doğrudan görüntüler veya sesler gibi etiketlenmemiş verilerden öğrenmesi gerekir.

Daha yüksek bir düzeyde, JEPA, aynı girdinin (resim veya metin) diğer bölümlerinin temsillerine dayalı olarak bir girdinin bölümlerinin temsillerini tahmin etmeyi amaçlar.

Bir görüntünün çoklu görünümlerini/artırılmış temsillerini tek bir noktaya daraltmayı içermediğinden, JEPA, yaygın olarak kullanılan yöntemlerde (yani değişmezliğe dayalı ön eğitim) ortaya çıkan önyargıları ve sorunları önleme konusunda büyük umut vaat ediyor.

Ortak bir yerleştirme yaklaşımı temsilin çökmesini önler

Aynı zamanda, doğrudan piksel değerlerini tahmin etmek yerine temsilleri oldukça soyut bir düzeyde tahmin ederek JEPA, üretken yöntemlerin sınırlamalarından kaçınırken yararlı temsilleri doğrudan öğrenebilmeyi vaat ediyor.Büyük dil modelleri için heyecanlı.

Bunun aksine, genel üretken modeller, girdi modelinin bazı kısımlarını çıkararak veya bozarak öğrenir.

Örneğin, bir fotoğrafın bir bölümünü silin veya bir metin paragrafındaki belirli kelimeleri gizleyin ve ardından bozuk veya eksik pikselleri veya kelimeleri tahmin etmeye çalışın.

Ancak bu yaklaşımın önemli bir eksikliği, dünyanın kendisi tahmin edilemezken, modelin her eksik bilgi parçasını doldurmaya çalışmasıdır.

Sonuç olarak, bu tür yaklaşımlar, daha üst düzey, öngörülebilir kavramları yakalamak yerine ilgisiz ayrıntılara çok fazla odaklandıkları için insanların asla yapmayacağı hatalar yapabilir.

İyi bilinen bir örnek, üretken modellerin sağ elleri oluşturmakta zorluk çekmesidir.

Kendi kendini yöneten öğrenmenin genel mimarisinde, sistem farklı girdiler arasındaki ilişkiyi yakalamayı öğrenir.

Amacı, uyumsuz girdilere yüksek enerjiler ve uyumlu girdilere düşük enerjiler atamaktır.

Kendi Kendine Denetimli Öğrenme için Ortak Mimariler

Bu üç yapı arasındaki fark-

(a) Bir ortak yerleştirme (değişmez) mimarisi, uyumlu x, y girişleri için benzer yerleştirmeler ve uyumsuz girdiler için farklı yerleştirmeler çıkarmayı öğrenir.

(b) Üretken bir mimari, yeniden yapılandırmayı kolaylaştırmak için ek bir değişken z (muhtemelen gizli bir değişken) üzerinde şartlandırılmış bir kod çözücü ağı kullanarak, uyumlu bir x sinyalinden doğrudan bir y sinyalini yeniden oluşturmayı öğrenir.

(c) Ortak gömme tahmin mimarisi, tahmini kolaylaştırmak için ek bir değişken z (muhtemelen bir gizli değişken) üzerinde şartlandırılmış bir tahmin ağı kullanarak, uyumlu x sinyalinden y sinyalinin gömülmesini tahmin etmeyi öğrenir.

ortak gömme tahmin mimarisi

I-JEPA'nın arkasındaki ilke, insan anlayışına daha yakın soyut bir temsil yoluyla eksik bilgileri tahmin etmektir.

I-JEPA'nın anlamsal temsiller oluşturmasına rehberlik etmek için temel tasarımlardan biri, çok bloklu maskeleme stratejisidir.

Ekip özellikle anlamsal bilgi içeren büyük parçaları tahmin etmenin önemini gösterdi. Bu parçalar, önemli anlamsal özellikleri kapsamak için yeterli boyuttadır.

Bu stratejinin avantajı, gereksiz ayrıntıları azaltması ve daha yüksek düzeyde bir anlamsal anlayış sağlamasıdır.

Model, büyük anlamsal bilgi yığınlarına odaklanarak, resimlerdeki veya metinlerdeki önemli kavramları daha iyi yakalayabilir ve bu da daha güçlü tahmin yeteneklerine yol açar.

Görüntü tabanlı Birleşik Gömülü Tahmin Mimarisi (I-JEPA), aynı görüntüden temsilleri tahmin etmek için tek bir bağlamsal blok kullanır

Bunların arasında bağlam kodlayıcı, yalnızca görünür bağlam yamalarını işleyen bir görsel Dönüştürücüdür (ViT).

Tahmin edici, bağlam kodlayıcının çıktısını alan ve hedefin konum belirtecine dayalı olarak hedef bloğun temsilini tahmin eden dar bir ViT'dir.

Hedef gösterimi, ağırlıkları her yinelemede bağlam kodlayıcı ağırlıklarının üstel bir hareketli ortalaması ile güncellenen hedef kodlayıcının çıktısına karşılık gelir.

I-JEPA'da tahmin edici, bilinmeyen bölgelerin içeriğini anlamak için bilinen bağlam bilgisinden yararlanma yeteneğine sahip ilkel (ve kısıtlı) bir dünya modeli olarak görülebilir.

Bu yetenek, modelin statik görüntüler hakkında akıl yürütmesini sağlayarak görüntülerdeki uzamsal belirsizliği anlamasını sağlar.

Yalnızca piksel düzeyindeki ayrıntılara odaklanan yöntemlerden farklı olarak, I-JEPA, görüntülerin anlamsal içeriğini daha iyi yakalamak için görünmeyen bölgelerin üst düzey anlamsal bilgilerini tahmin edebilmektedir.

Bir yordayıcının dünyanın anlamını modellemeyi öğrendiği süreç

Her görüntü için, mavi kutunun dışındaki parçalar kodlanır ve tahmin ediciye bağlam olarak sağlanır. Tahmin edici ise mavi kutunun içinde bekleneni temsil eden bir temsil verir.

Ekip, modelin neyi yakaladığını anlamak için stokastik bir kod çözücüyü I-JEPA tarafından tahmin edilen temsilleri piksel uzayına eşleyecek ve mavi kutu içinde tahminler yaparken modelin çıktısını gösterecek şekilde eğitti.

Açıkça, öngörücü, doldurulması gereken anlamsal bilgiyi (bir köpeğin kafasının üstü, kuşun bacağı, kurdun bacağı, bir binanın diğer tarafı) tanımlayabilir.

Bir görüntü verildiğinde, rastgele 4 hedef yamayı örnekleyin, aralık ölçekli bir bağlam yamasını rastgele örnekleyin ve çakışan hedef yamaları kaldırın. Bu strateji altında, hedef blok nispeten anlamsaldır ve bağlam bloğu büyük miktarda bilgiye sahiptir, ancak çok seyrektir, bu nedenle işleme verimliliği yüksektir.

Kısacası, I-JEPA görüntüdeki yerel konum bilgilerini atmadan nesne parçalarının üst düzey temsillerini öğrenebilir.

Daha yüksek verimlilik, daha güçlü performans

Ön eğitimde, I-JEPA'nın hesaplanması daha etkilidir.

İlk olarak, birden çok görünüm oluşturmak için hesaplama açısından daha yoğun veri artırma uygulamasına gerek yoktur, bu nedenle ek yüke neden olmaz.

İkinci olarak, hedef kodlayıcının görüntünün yalnızca bir görünümünü işlemesi gerekir ve bağlam kodlayıcının yalnızca bağlam bloğunu işlemesi gerekir.

Deneyler, I-JEPA'nın yapay görünüm büyütme olmaksızın güçlü hazır semantik temsilleri öğrenebildiğini göstermektedir.

Ayrıca I-JEPA, ImageNet-1K lineer algılama ve yarı denetimli değerlendirmede piksel yeniden oluşturma ve belirteç yeniden yapılandırma yöntemlerinden daha iyi performans gösterir.

Ön Eğitim Sırasında GPU Saatlerinin Bir Fonksiyonu Olarak ImageNet-1k Üzerinde Doğrusal Değerlendirme Performansını Kıyaslama

Anlamsal görevlerde I-JEPA, büyütme için yapay verilere dayanan önceki eğitim öncesi yöntemlerden daha iyi performans gösterir.

Bu yöntemlerle karşılaştırıldığında I-JEPA, nesne sayma ve derinlik tahmini gibi düşük seviyeli görüş görevlerinde daha iyi performans sağlar.

Daha basit ve daha esnek bir endüktif önyargı modeli kullanılarak, I-JEPA daha geniş bir görev yelpazesinde kullanılabilir.

Low-shot sınıflandırma doğruluğu: %1 etiketli ImageNet-1k üzerinde yarı denetimli değerlendirme (sınıf başına yaklaşık 12 etiketli görüntü)

AI, insan zekasını bir adım öteye taşıyor

I-JEPA, el yapımı bilgiden ek yardım almadan kullanıma hazır görüntü temsillerini öğrenmek için mimarinin potansiyelini gösterir.

Daha zengin modalitelerden daha genel dünya modellerini öğrenmek için JEPA'yı ilerletmek özellikle ödüllendirici bir çalışma olacaktır.

Örneğin, kısa bir bağlamdan, videolar üzerinde uzun menzilli uzamsal ve zamansal tahminler yapın ve bu tahminleri ses veya metin ipuçlarına göre koşullandırın.

I-JEPA öngörücü temsilinin görselleştirilmesi: ilk sütun orijinal görüntüyü içerir, ikinci sütun bağlam görüntüsünü içerir ve yeşil sınırlayıcı kutular, öngörücü çıktısı tarafından kodu çözülmüş üretken modelden örnekler içerir. Öngörücü, konumsal belirsizliği doğru bir şekilde yakalar, doğru poza sahip üst düzey nesne parçaları üretir, alt düzey kesin ayrıntıları ve arka plan bilgilerini göz ardı eder.

Ekip, JEPA yaklaşımını görüntü-metin eşleştirilmiş verileri ve video verileri gibi diğer alanlara genişletmeyi sabırsızlıkla beklediğini söylüyor.

Gelecekte JEPA modelleri, video anlama gibi görevlerde heyecan verici uygulamalara sahip olabilir. Ve dünya modellerini öğrenmek için kendi kendini denetleyen yöntemleri uygulamaya ve genişletmeye yönelik önemli bir adım olacaktır.

Önceden eğitilmiş model

### Tek GPU Eğitimi

Tek bir GPU kurulumunda, uygulama main.py'de başlar.

Örneğin, configs/in1k_vith14_ep300.yaml yapılandırmasını kullanarak yerel makinenizdeki GPU 0, 1 ve 2'de I-JEPA ön eğitimini çalıştırmak için aşağıdaki komutu girin:

python main.py \ --fname configs/in1k_vith14_ep300.yaml \ --devices cuda:0 cuda:1 cuda:2

NOT: ViT-H/14 yapılandırması, sonuçları yeniden oluşturmak için etkin parti boyutu 2048 olan 16 A100 80G grafik kartında çalıştırılmalıdır.

Çoklu GPU Eğitimi

Çoklu GPU kurulumunda uygulama, yapılandırma dosyalarının ayrıştırılmasına ek olarak dağıtılmış eğitimle ilgili ayrıntıların belirtilmesine izin veren main_distributed.py'de başlar.

Dağıtılmış eğitim için, bir SLURM kümesi örneği ile popüler açık kaynak gönderme aracı gereklidir.

Örneğin, configs/in1k_vith14_ep300.yaml içinde belirtilen eğitim öncesi deney yapılandırmasını kullanarak 16 A100 80G grafik kartında ön eğitim yapmak için aşağıdaki komutu girin:

python main_distributed.py \ --fname configs/in1k_vith14_ep300.yaml \ --folder $path_to_save_submitit_logs \ --partition $slurm_partition \ --nodes 2 --node başına görev 8 \ --time 1000

İncelemeler

Netizenler, LeCun liderliğindeki bu yeni çalışma için takdirlerini dile getirdi.

Gerçekten çığır açan bir çalışma, havaya uçtu. Otoregresif modelin halefi burada!

Federe gömme mimarilerinin üretken değil yapay zekanın geleceği olduğuna inanıyorum. Ama ben sadece merak ediyorum, neden multimodaliteye daha fazla girmiyoruz (yalnızca metin-görüntü çiftleri değil, ImageBind gibi) ve VIT kodlayıcılarını kodlayıcılar gibi algılayıcılarla değiştirmiyoruz?

Çok düzgün çalışma. Anladığım kadarıyla, maskelenmiş bir otomatik kodlayıcıya benzer, ancak giriş/piksel alanında değil, gizli alanda tanımlandığında özellikleri kaybeder. Ancak, ayrıntılı olarak anlamak istersem, yine de daha fazla ayrıntıya ihtiyacım var.

Beynim kağıdın yalnızca %10'unu anlayabiliyor, ancak I-JEPA gerçekten Şekil 3'teki hedef görüntüyü oluşturabilirse, bu harika olacak ve en önemlisi: yapay zeka tarafından üretilen MMORPG ile ilgili!

Bu proje açık kaynaklı olmak üzere ve netizenler ayrıca Meta'nın açık kaynak topluluğuna katkısını takdir ettiklerini ifade ettiler.

Referanslar:

View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin