Ulang tahun keenam Transformer: Bahkan NeurIPS Oral tidak diperoleh, dan 8 penulis telah mendirikan beberapa unicorn AI

Beberapa orang bergabung dengan OpenAI, beberapa mendirikan startup, dan beberapa tetap menggunakan Google AI. Merekalah yang bersama-sama memulai era pengembangan AI saat ini.

Dari ChatGPT hingga teknologi menggambar AI, gelombang terobosan baru-baru ini di bidang kecerdasan buatan mungkin berkat Transformer.

Hari ini menandai ulang tahun keenam penyerahan kertas transformator terkenal.

Tautan kertas:

Enam tahun lalu, sebuah makalah dengan nama yang dibesar-besarkan diunggah ke platform kertas pracetak arXiv. Ungkapan "xx is All You Need" diulangi oleh pengembang di bidang AI, bahkan menjadi tren judul kertas. , dan Transformer bukan lagi arti dari Transformers, sekarang merupakan teknologi tercanggih di bidang AI.

Enam tahun kemudian, melihat kembali makalah ini tahun itu, kita dapat menemukan banyak tempat menarik atau sedikit diketahui, seperti yang dirangkum oleh Jim Fan, seorang ilmuwan AI di Nvidia.

## ** "Mekanisme Perhatian" tidak diusulkan oleh pembuat Transformer**

Model Transformer meninggalkan unit CNN dan RNN tradisional, dan seluruh struktur jaringan seluruhnya terdiri dari mekanisme perhatian.

Meskipun nama makalah Transformer adalah "Perhatian Adalah Yang Anda Butuhkan", kami terus mempromosikan mekanisme perhatian karena itu, tetapi harap perhatikan fakta yang menarik: bukan para peneliti Transformer yang menemukan perhatian, tetapi mereka menempatkan ini sebagai The mekanisme didorong ke ekstrim.

Mekanisme Perhatian diusulkan oleh tim yang dipimpin oleh pionir pembelajaran mendalam Yoshua Bengio pada tahun 2014:

* "Terjemahan Mesin Neural dengan Belajar Bersama Menyelaraskan dan Menerjemahkan", judulnya relatif sederhana. *

Dalam makalah ICLR 2015 ini, Bengio dkk mengusulkan kombinasi RNN + "vektor konteks" (yaitu perhatian). Meskipun ini adalah salah satu tonggak terbesar dalam NLP, itu jauh kurang terkenal daripada Transformer, dengan makalah tim Bengio telah dikutip 29.000 kali hingga saat ini, dan Transformer 77.000.

Mekanisme perhatian AI secara alami dimodelkan pada perhatian visual manusia. Ada kemampuan bawaan di otak manusia: saat kita melihat gambar, pertama-tama kita memindai gambar dengan cepat, lalu mengunci area target yang perlu difokuskan.

Jika Anda tidak melepaskan informasi lokal apa pun, Anda pasti akan melakukan banyak pekerjaan yang tidak berguna, yang tidak kondusif untuk kelangsungan hidup. Demikian pula, memperkenalkan mekanisme serupa dalam jaringan pembelajaran mendalam dapat menyederhanakan model dan mempercepat komputasi. Intinya, Perhatian adalah menyaring sejumlah kecil informasi penting dari sejumlah besar informasi, dan fokus pada informasi penting tersebut, mengabaikan sebagian besar informasi yang tidak penting.

Dalam beberapa tahun terakhir, mekanisme perhatian telah digunakan secara luas di berbagai bidang pembelajaran mendalam, seperti dalam visi komputer untuk menangkap bidang reseptif pada gambar, atau dalam NLP untuk menemukan token atau fitur kunci. Sejumlah besar percobaan telah membuktikan bahwa model dengan mekanisme perhatian telah mencapai peningkatan kinerja yang signifikan dalam tugas-tugas seperti klasifikasi gambar, segmentasi, pelacakan, peningkatan, dan pengenalan bahasa alami, pemahaman, menjawab pertanyaan, dan terjemahan.

Model Transformer yang memperkenalkan mekanisme perhatian dapat dianggap sebagai komputer urutan tujuan umum. Mekanisme perhatian memungkinkan model untuk menetapkan bobot perhatian yang berbeda sesuai dengan korelasi posisi yang berbeda dalam urutan saat memproses urutan input. Ini memungkinkan Transformer untuk menangkap dependensi jarak jauh dan informasi konteks, sehingga meningkatkan efek pemrosesan urutan.

Tetapi pada tahun itu, baik Transformer maupun kertas perhatian asli berbicara tentang komputer sekuensial untuk keperluan umum. Sebaliknya, penulis melihatnya sebagai mekanisme untuk memecahkan masalah yang sempit dan spesifik - terjemahan mesin. Jadi saat kami melacak asal usul AGI di masa mendatang, kami mungkin dapat melacaknya kembali ke Google Terjemahan yang "tidak mencolok".

Meskipun diterima oleh NeurIPS 2017, bahkan tidak mendapatkan Oral

Meskipun makalah Transformer sangat berpengaruh sekarang, bahkan tidak mendapatkan Lisan, apalagi penghargaan, di konferensi AI top dunia NeurIPS 2017. Konferensi ini menerima total 3.240 makalah pada tahun itu, 678 di antaranya dipilih sebagai makalah konferensi. Makalah Transformer adalah salah satu makalah yang diterima. Di antara makalah ini, 40 makalah Oral, 112 makalah Spotlight, dan 3 makalah terbaik. Papers, penghargaan Test of time, Transformer melewatkan penghargaan tersebut.

Meskipun melewatkan penghargaan makalah NeurIPS 2017, pengaruh Transformer terlihat jelas bagi semua orang.

Jim Fan berkomentar: Bukan kesalahan para juri bahwa sulit bagi orang untuk menyadari pentingnya studi yang berpengaruh sebelum menjadi berpengaruh. Namun, ada juga makalah yang cukup beruntung untuk ditemukan, misalnya ResNet yang diusulkan oleh He Kaiming dan lainnya memenangkan makalah terbaik CVPR 2016 tahun itu. KTT AI. Namun saat ini di tahun 2017, para peneliti yang sangat cerdas mungkin tidak dapat memprediksi perubahan yang dibawa oleh LLM sekarang, seperti di tahun 1980-an, hanya sedikit orang yang dapat meramalkan tsunami yang ditimbulkan oleh pembelajaran mendalam sejak tahun 2012.

## Delapan penulis, hidup mereka luar biasa

Saat itu, ada 8 penulis makalah ini, mereka berasal dari Google dan University of Toronto.Lima tahun kemudian, sebagian besar penulis makalah telah meninggalkan institusi asalnya.

Pada 26 April 2022, sebuah perusahaan bernama "Adept" secara resmi didirikan, dengan 9 pendiri, termasuk Ashish Vaswani dan Niki Parmar, dua penulis makalah Transformer.

Ashish Vaswani menerima gelar Ph.D. dari University of Southern California, di bawah bimbingan cendekiawan China David Chiang dan Liang Huang, dan terutama meneliti penerapan awal deep learning modern dalam pemodelan bahasa. Pada tahun 2016, dia bergabung dengan Google Brain dan memimpin penelitian Transformer, meninggalkan Google pada tahun 2021.

Niki Parmar lulus dari University of Southern California dengan gelar master dan bergabung dengan Google pada tahun 2016. Selama bekerja, dia mengembangkan beberapa model penjawab pertanyaan dan kemiripan teks yang berhasil untuk penelusuran dan periklanan Google. Dia memimpin pekerjaan awal untuk memperluas model Transformer ke pembuatan gambar, visi komputer, dan banyak lagi. Pada tahun 2021, dia juga akan keluar dari Google.

Setelah pergi, keduanya mendirikan Adept dan menjabat sebagai Chief Scientist (Ashish Vaswani) dan Chief Technology Officer (Niki Parmar). Visi Adept adalah menciptakan AI yang disebut "rekan satu tim kecerdasan buatan" yang dilatih untuk menggunakan berbagai alat perangkat lunak dan API yang berbeda.

Pada Maret 2023, Adept mengumumkan penyelesaian putaran pembiayaan Seri B senilai US$350 juta. Valuasi perusahaan melebihi US$1 miliar dan dipromosikan menjadi unicorn. Namun, saat Adept mengumpulkan dana publiknya, Niki Parmar dan Ashish Vaswani telah meninggalkan Adept untuk memulai startup AI baru mereka sendiri. Namun, perusahaan baru saat ini sedang dirahasiakan dan kami tidak memiliki akses ke detail perusahaan.

Penulis makalah lainnya, Noam Shazeer, adalah salah satu karyawan awal terpenting Google. Dia bergabung dengan Google pada akhir tahun 2000, hingga akhirnya keluar pada tahun 2021, dan kemudian menjadi CEO sebuah perusahaan start-up bernama "Character.AI".

Selain Noam Shazeer, pendiri Character.AI adalah Daniel De Freitas, keduanya dari tim LaMDA Google. Sebelumnya, mereka membuat LaMDA, model bahasa yang mendukung program percakapan, di Google.

Pada bulan Maret tahun ini, Character.AI mengumumkan penyelesaian pembiayaan 150 juta dolar AS, dengan valuasi 1 miliar dolar AS, merupakan salah satu dari sedikit perusahaan rintisan yang berpotensi bersaing dengan OpenAI, agensi dari ChatGPT, dan juga jarang tumbuh hanya dalam 16 bulan.Untuk perusahaan unicorn. Aplikasinya, Character.AI, adalah chatbot model bahasa neural yang dapat menghasilkan respons teks mirip manusia dan terlibat dalam percakapan kontekstual.

Character.AI diluncurkan di Apple App Store dan Google Play Store pada 23 Mei 2023, dengan lebih dari 1,7 juta unduhan di minggu pertamanya. Pada Mei 2023, layanan menambahkan langganan berbayar $9,99 per bulan yang disebut c.ai+, yang memungkinkan pengguna mengakses obrolan prioritas, waktu respons lebih cepat, dan akses awal ke fitur baru, di antara fasilitas lainnya.

Aidan N. Gomez keluar dari Google pada awal 2019, lalu bekerja sebagai peneliti di FOR.ai, dan sekarang menjadi salah satu pendiri dan CEO Cohere.

Cohere adalah startup AI generatif yang didirikan pada 2019. Bisnis intinya termasuk menyediakan model NLP dan membantu perusahaan meningkatkan interaksi manusia-komputer. Ketiga pendiri tersebut adalah Ivan Zhang, Nick Frosst dan Aidan Gomez, dimana Gomez dan Frosst adalah mantan anggota tim Google Brain. Pada November 2021, Google Cloud mengumumkan bahwa mereka akan bekerja sama dengan Cohere, Google Cloud akan menggunakan infrastrukturnya yang kuat untuk mendukung platform Cohere, dan Cohere akan menggunakan TPU Cloud untuk mengembangkan dan menerapkan produknya.

Khususnya, Cohere baru saja mengumpulkan $270 juta dalam pendanaan Seri C, menjadikannya unicorn senilai $2,2 miliar.

Łukasz Kaiser keluar dari Google pada tahun 2021, bekerja di Google selama 7 tahun 9 bulan, dan sekarang menjadi peneliti di OpenAI. Selama menjadi ilmuwan riset di Google, dia berpartisipasi dalam desain model saraf SOTA untuk terjemahan mesin, parsing, dan tugas algoritme dan generatif lainnya, dan merupakan rekan penulis sistem TensorFlow, pustaka Tensor2Tensor.

Jakob Uszkoreit keluar dari Google pada tahun 2021 dan bekerja di Google selama 13 tahun sebelum bergabung dengan Inceptive sebagai salah satu pendiri. Inceptive adalah perusahaan farmasi AI yang didedikasikan untuk menggunakan pembelajaran mendalam untuk merancang obat RNA.

Selama di Google, Jakob Uszkoreit membantu membangun tim pemahaman bahasa untuk Asisten Google dan mengerjakan Google Terjemahan sejak dini.

Illia Polosukhin keluar dari Google pada tahun 2017 dan sekarang menjadi salah satu pendiri dan CTO NEAR.AI (perusahaan teknologi yang mendasari blockchain).

Satu-satunya yang masih di Google adalah Llion Jones, tahun ini adalah tahun ke-9 dia bekerja di Google.

Sekarang, 6 tahun telah berlalu sejak publikasi makalah "Perhatian Adalah Yang Anda Butuhkan". Beberapa penulis asli telah memilih untuk keluar, dan beberapa memilih untuk tetap di Google. Bagaimanapun, pengaruh Transformer terus berlanjut.

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)