Yüzlerce model savaşı: AI alanında birçok lider ortaya çıkıyor, büyük dil modelleri kâr zorluğuyla karşı karşıya.

AI alanında birçok rakip ortaya çıkıyor, LLM savaşı sürüyor

Geçen ay, AI dünyasında bir "hayvanlar savaşı" patlak verdi.

Bu çatışmanın bir tarafı Meta'nın tanıttığı Llama modelidir. Açık kaynaklı özellikleri sayesinde, Llama geliştiriciler arasında oldukça popülerdir. Japonya Elektrik Şirketi NEC, Llama makalesini ve kodunu inceledikten sonra, Japonca ChatGPT'yi hızla geliştirmiştir ve Japonya'nın AI alanındaki eksikliğini gidermiştir.

Diğer taraf, Falcon adı verilen büyük bir modeldir. Bu yıl Mayıs ayında, Falcon-40B piyasaya sürüldükten sonra açık kaynak LLM sıralamasında zirveye yerleşti. Bu liste, LLM yeteneklerini değerlendirmek için bir standart sağlayan Hugging Face topluluğu tarafından hazırlanmıştır. Sıralama temelde Llama ve Falcon'un sırayla birinci olduğu bir yapıdadır.

Llama 2 piyasaya sürüldükten sonra, geçici olarak avantajı geri aldı. Ancak Eylül ayının başında, Falcon 180B versiyonunu tanıttı ve tekrar daha yüksek bir sıralama elde etti.

İlginçtir ki, Falcon'un geliştiricileri bir teknoloji şirketi değil, Abu Dabi'deki Teknoloji İnovasyon Araştırma Enstitüsü'dür. BAE yetkilileri, bu alanda yer almalarının temel oyuncuları alt üst etmek için olduğunu belirtti.

180B versiyonunun yayımlanmasından sonraki gün, Birleşik Arap Emirlikleri Yapay Zeka Bakanı, "Zaman Dergisi" tarafından yapılan "Yapay Zeka Alanındaki En Etkili 100 Kişi" listesine alındı. Onunla birlikte "Yapay Zeka Babası" Hinton, OpenAI'nin Altman'ı gibi isimler de yer aldı.

Bugün, AI alanı yüzlerce sesin bir araya geldiği bir aşamaya girmiştir. Belirli bir mali gücü olan ülkeler ve şirketler kendi büyük dil modellerini oluşturmayı deniyorlar. Körfez bölgesinde sadece bir oyuncu yok. Ağustos ayında, Suudi Arabistan yerel üniversiteler için 3000'den fazla H100 çipi satın aldı ve bunları LLM eğitimi için kullanacak.

Bir yatırımcı şikayet etti: "O yıllarda internetin iş modeli yeniliklerini küçümsüyordum, bir engel olmadığını düşünüyordum. Beklenmedik bir şekilde, donanım teknolojisi büyük model girişimi, yine de yüzlerce modelin savaşı..."

Başlangıçta yüksek zorlukta bir sert teknoloji olduğunu düşünmüştüm, ama nasıl oldu da herkesin katılabileceği bir yarışma haline geldi?

Transformer oyunun kurallarını değiştirdi

İster ABD'li startuplar, ister Çinli teknoloji devleri, ister Orta Doğulu petrol baronları, büyük model geliştirmeye girebilmelerinin tek sebebi, o ünlü makale: "Attention Is All You Need".

2017 yılında, 8 Google bilim insanı bu makalede Transformer algoritmasını tanıttı. Bu makale, şu anda AI tarihindeki en çok alıntı yapılan üçüncü makaledir ve Transformer'ın ortaya çıkışı bu AI dalgasını tetikledi.

Şu anda çeşitli büyük modeller, özellikle de sansasyonel GPT serisi, Transformer temeli üzerinde inşa edilmiştir.

Bundan önce, "makineleri okumayı öğretmek" kabul görmüş bir akademik zorluktu. Görüntü tanımadan farklı olarak, insanlar okurken yalnızca mevcut kelime ve cümlelere odaklanmakla kalmaz, aynı zamanda bağlamı da anlayarak yorumlar.

Ancak erken dönem sinir ağlarının girdi verileri bağımsızdı ve uzun makalelerin genel anlamını anlayamıyordu, bu nedenle sık sık yanlış çeviri sorunları yaşanıyordu.

2014 yılında, Google bilim insanı Ilya ilk büyük başarıyı elde etti. Doğal dili işlemek için döngüsel sinir ağları (RNN) kullandı ve Google Çeviri'nin performansını büyük ölçüde artırdı.

RNN, "döngüsel tasarım"ı önerdi ve böylece nöronlar hem mevcut girişi hem de bir önceki zaman dilimindeki girişi alabiliyor, bu sayede "bağlamı birleştirme" yeteneğine sahip oldu.

RNN'nin ortaya çıkışı akademik camiada heyecan yarattı, Transformer makalesinin yazarı Shazeal da derinlemesine araştırmalar yaptı. Ancak geliştiriciler kısa sürede RNN'nin ciddi kusurları olduğunu fark ettiler:

Bu algoritma sıralı hesaplama kullanır, her ne kadar bağlam sorununu çözse de, çalışma verimliliği yüksek değildir ve çok sayıda parametreyi işlemek zordur.

RNN'nin karmaşık tasarımı Chazelle'i rahatsız etti. Bu nedenle 2015'ten itibaren Chazelle ve 7 meslektaşı RNN alternatifleri geliştirmeye başladı ve nihayetinde sonuç olarak Transformer ortaya çıktı.

RNN ile karşılaştırıldığında, Transformer'ın iki büyük devrimi vardır:

Birincisi, konum kodlamasının döngü tasarımının yerini alması, paralel hesaplamayı gerçekleştirmiştir ve bu da eğitim verimliliğini büyük ölçüde artırarak AI'yı büyük model çağında bir adım ileriye taşımıştır; ikincisi, bağlamı anlama yeteneğini daha da güçlendirmiştir.

Transformer bir kezde birçok eksikliği çözüyor, giderek NLP alanında standart bir çözüm haline geliyor, sanki "Transformer doğmasaydı, NLP sonsuz bir gece gibi olurdu" hissi veriyor. Hatta İlyia da RNN'i terk edip Transformer cephesine katıldı.

Başka bir deyişle, Transformer günümüzdeki tüm büyük modellerin temelidir, bu da büyük modelleri teorik araştırmadan saf mühendislik sorununa dönüştürmüştür.

2019'da, OpenAI'nin Transformer tabanlı geliştirdiği GPT-2 akademiyi şaşırttı. Buna yanıt olarak, Google daha güçlü bir performansa sahip Meena'yı hızla piyasaya sürdü.

GPT-2'ye kıyasla, Meena'nın herhangi bir algoritmik yeniliği yoktur, sadece 8.5 kat daha fazla eğitim parametresi ve 14 kat daha fazla hesaplama gücü eklenmiştir. Transformer'ın yazarı Vaswani, bu tür "şiddetli yığma" ile büyük bir şok yaşadı ve "Meena dünyayı yutuyor" başlıklı bir not yazdı.

Transformer'ın piyasaya sürülmesinden sonra, temel algoritma yenilik hızında bir yavaşlama oldu. Veri mühendisliği, hesaplama ölçeği, model mimarisi gibi mühendislik unsurları, AI yarışmasının anahtarı haline gelmeye başladı; belli bir teknik yeteneğe sahip olan şirketler, büyük modeller geliştirebiliyor.

Bu nedenle, bilim insanı Andrew Ng, Stanford'daki konuşmasında şunları belirtti: "Yapay zeka, denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme ve şimdi de üretken yapay zeka dahil olmak üzere bir dizi aracın toplamıdır. Bunlar, elektrik ve internet gibi genel teknolojilerdir."

OpenAI hala LLM'nin yön göstergesi, ancak yarı iletken analiz şirketi Semi Analysis, GPT-4'ün avantajının mühendislik çözümlerinden kaynaklandığını düşünüyor - eğer açık kaynak olursa, herhangi bir rakip bunu hızla kopyalayabilir.

Bu analist, diğer büyük teknoloji şirketlerinin yakında GPT-4 performansına eşdeğer büyük modeller geliştirebileceğini öngörüyor.

Hendekler aşılmaz değildir

Artık "yüz model savaşı" bir mecaz değil, gerçek.

Rapora göre, bu yıl Temmuz ayı itibarıyla, Çin'deki büyük model sayısı 130'a ulaştı ve Amerika'nın 114 modelini geçti, çeşitli efsane ve mitler artık yerli teknoloji şirketlerinin isimlendirmesi için neredeyse yetersiz kalıyor.

Çin ve ABD dışında, birçok daha zengin ülke de "bir ülke bir model" uygulamasını gerçekleştirmiştir: Japonya ve Birleşik Arap Emirlikleri'nin yanı sıra, Hindistan hükümeti tarafından yönlendirilen Bhashini, Güney Kore'nin Naver şirketi tarafından geliştirilen HyperClova X gibi projeler de bulunmaktadır.

Bu durum, internetin erken dönemindeki balonların patladığı ve sermaye çılgınlığının yaşandığı sahneleri hatırlatıyor.

Daha önce belirtildiği gibi, Transformer büyük modelleri saf mühendislik sorunlarına dönüştürüyor; yeterince yetenek, sermaye ve hesaplama kaynağı olduğunda geliştirilebilir. Ancak, sektöre girmek kolaydır, AI çağının devlerinden biri olmak ise o kadar da kolay değildir.

Başlangıçta bahsedilen "Hayvanlar Savaşı" tipik bir örnektir: Falcon, Llama'yı geçici olarak geride bırakmış olsa da, Meta üzerinde ne kadar etki yaratacağına dair bir şey söylemek zordur.

Herkesçe bilindiği gibi, şirketler kendi başarılarını açık kaynak yaparak hem teknolojinin faydalarını paylaşmayı hem de sosyal güçten yararlanmayı umuyor. Akademik çevreler, araştırma kurumları ve şirketler Llama'yı sürekli olarak kullanıp geliştirdikçe, Meta bu sonuçları kendi ürünlerinde uygulayabilir.

Açık kaynak büyük modeller için, aktif bir geliştirici topluluğu temel rekabet avantajıdır.

2015 yılında AI laboratuvarı kurulduğunda, Meta açık kaynak yolunu belirlemişti; Zuckerberg zaten sosyal medya ile başladığı için "kamu ilişkilerini iyi yürütmenin" önemini daha iyi anlıyor.

Örneğin Ekim ayında, Meta özel olarak "Yapay Zeka Yaratıcıları Teşvik" etkinliği düzenledi: Llama 2 ile eğitim, çevre gibi sosyal sorunları çözmeye yönelik geliştiriciler, 500.000 dolar hibe alma fırsatına sahip olacak.

Bugün, Meta'nın Llama serisi açık kaynaklı LLM'lerin standardı haline geldi.

Ekim ayının başı itibarıyla, Hugging Face açık kaynak LLM sıralamasının ilk 10'unda, 8'i Llama 2 tabanlı geliştirilmiş ve açık kaynak lisansını kullanmaktadır. Sadece Hugging Face'te, Llama 2 lisansını kullanan LLM'lerin sayısı 1500'ü geçmiştir.

Elbette, Falcon gibi performansı artırmak da mümkündür, ancak şu anda piyasadaki çoğu LLM ile GPT-4 arasında hala belirgin bir fark var.

Örneğin, kısa bir süre önce, GPT-4, AgentBench testinde 4.41 puanla birinci oldu. AgentBench, Tsinghua Üniversitesi ve birçok ünlü Amerikan üniversitesi tarafından, LLM'nin çok boyutlu açık ortamlardaki akıl yürütme ve karar verme yeteneklerini değerlendirmek için geliştirilmiştir. Test içeriği, işletim sistemleri, veritabanları, bilgi grafikleri, kart savaşları gibi 8 farklı ortamda görevleri içermektedir.

Test sonuçları, ikinci olan Claude'un sadece 2.77 puan aldığını ve aranın belirgin olduğunu gösteriyor. Oysa o etkileyici açık kaynaklı LLM'lerin çoğu, ortalama 1 puan civarında, GPT-4'ün dörtte birinden bile az.

Bunu bilmek gerekir ki, GPT-4 bu yıl Mart ayında piyasaya sürüldü ve bu, dünya çapındaki rakiplerin yarım yıl sonra geldiği bir sonuçtur. Bu farkı yaratan, OpenAI'nin yüksek seviyedeki araştırma ekibi ve uzun süredir biriken deneyimdir; bu nedenle her zaman önde kalmayı başardılar.

Yani, büyük modelin temel yeteneği parametreler değil, ekosistem inşasıdır ( açık kaynak ) veya saf çıkarım yeteneği ( kapalı kaynak ).

Açık kaynak topluluğunun giderek daha aktif hale gelmesiyle, tüm LLM'lerin performansı benzer model mimarileri ve veri setleri kullanıldığı için benzeşebilir.

Başka daha sezgisel bir soru: Midjourney dışında, görünüşe göre başka bir büyük model kâr elde edemiyor.

Değerin Sabitlenmesi

Bu yılın Ağustos ayında, "OpenAI 2024 yılının sonunda iflas edebilir" başlıklı bir makale ilgi uyandırdı. Makalenin ana fikri neredeyse bir cümleyle özetlenebilir: OpenAI'nin para harcama hızı çok hızlı.

Metinde, ChatGPT'nin geliştirilmesinden bu yana OpenAI'nin zararlarının hızla büyüdüğü, 2022'de yaklaşık 540 milyon dolar zarar ettiği ve yalnızca Microsoft'un yatırımına bağımlı kalabildiği belirtiliyor.

Makale başlığı dikkat çekici olsa da, birçok büyük model sağlayıcısının durumunu da açığa çıkarıyor: maliyetler ve gelirler arasında ciddi bir dengesizlik var.

Aşırı yüksek maliyetler, şu anda AI ile büyük para kazananların sadece Nvidia olduğunu, en fazla Broadcom'un da eklenebileceğini gösteriyor.

Danışmanlık şirketi Omdia'nın tahminlerine göre, Nvidia bu yılın ikinci çeyreğinde 300.000'den fazla H100 satışı gerçekleştirdi. Bu, son derece verimli bir AI çipi ve dünya çapındaki teknoloji şirketleri ile araştırma kuruluşları tarafından kapışılıyor. Eğer bu 300.000 H100'ü üst üste koyarsanız, ağırlığı 4.5 adet Boeing 747'ye eşit olur.

NVIDIA'nin performansı bu doğrultuda fırladı, yıllık gelir %854 artış gösterdi ve Wall Street'i şok etti. Şunu belirtmekte fayda var ki, H100 ikinci el piyasada 40-50 bin dolara satılmakta, oysa malzeme maliyeti yalnızca yaklaşık 3000 dolar.

Yüksek hesaplama gücü maliyetleri, bir ölçüde sektörün gelişimi için bir engel haline gelmiştir. Sequoia Capital, küresel teknoloji şirketlerinin her yıl büyük model altyapı inşaatına 200 milyar dolar harcayacağını tahmin etmiştir; buna karşın, büyük modellerin her yıl en fazla 75 milyar dolar gelir yaratabileceği ve arada en az 125 milyar dolarlık bir açığın bulunduğu belirtilmiştir.

Ayrıca, Midjourney gibi birkaç istisna dışında, çoğu yazılım şirketi büyük yatırımlar yaptıktan sonra hâlâ bir kâr modeli bulamadı. Özellikle sektörün liderleri Microsoft ve Adobe zorluklarla karşılaştı.

Microsoft'un OpenAI ile birlikte geliştirdiği AI kod üretim aracı GitHub Copilot, her ne kadar aylık 10 dolar ücretlense de, tesis maliyetleri nedeniyle Microsoft her kullanıcıdan 20 dolar zarar ediyor. Aşırı kullanıcılar ise Microsoft'un aylık 80 dolar zarar etmesine sebep oluyor. Bu nedenle, 30 dolara satılan Microsoft 365 Copilot'un daha fazla zarar etmesi muhtemel.

Aynı şekilde, yeni Firefly AI aracını piyasaya süren Adobe, kullanıcıların aşırı kullanımının şirketin zarar etmesine neden olmasını önlemek için hızla bir puan sistemi geliştirdi. Kullanıcılar aylık tahsis edilen puanı aştığında, Adobe hizmet hızını düşürecek.

Microsoft ve Adobe'nin iş senaryolarının net olduğu ve çok sayıda ücretli kullanıcıya sahip yazılım devleri olduğunu bilmek gerekir. Çoğu parametre yığın halinde olan büyük modellerin en büyük uygulama senaryosu hala sohbet.

Inkar edilemez ki, eğer OpenAI ve ChatGPT ortaya çıkmasaydı, bu AI devrimi muhtemelen hiç gerçekleşmeyecekti; ancak şu anda, büyük modellerin eğitiminden elde edilen değerin henüz tartışmaya açık olduğu söylenebilir.

Ayrıca, homojenleşen rekabetin artması ve açık kaynaklı modellerin sayısının giderek artmasıyla, yalnızca büyük model tedarikçileri daha büyük zorluklarla karşılaşabilir.

iPhone 4'ün başarısı 45nm üretim sürecine sahip A4 işlemcisinden değil, bitkilerle zombi savaşları ve öfkeli kuşlar oynayabilmesinden kaynaklanıyor.

GPT5.22%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 7
  • Share
Comment
0/400
DAOplomacyvip
· 12h ago
tbh, dibe doğru sürdürülemez başka bir yarış... bu filmi daha önce gördüm
View OriginalReply0
ThatsNotARugPullvip
· 07-25 12:40
Sadece dedikodu savaşı.
View OriginalReply0
ReverseTradingGuruvip
· 07-25 12:39
İçeride enayilerden biri, büyük model.
View OriginalReply0
VitaliksTwinvip
· 07-25 12:38
Açık Kaynak model biraz kendini kaptırmak.
View OriginalReply0
MonkeySeeMonkeyDovip
· 07-25 12:36
Gerçek · Mücadele başlıyor
View OriginalReply0
AllInAlicevip
· 07-25 12:20
Yine bir döngü başladı.
View OriginalReply0
AirdropSweaterFanvip
· 07-25 12:18
Kim kazanırsa kazansın, ben de merakla izliyorum.
View OriginalReply0
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)