ظهور نموذج عالمي لـ LeCun! صدمت ميتا إطلاق أول نموذج "بشري" ، والذي يكمل نصف صورة بعد فهم العالم ، والتعلم بإشراف ذاتي متوقع من الجميع.

** المصدر: ** Xinzhiyuan

** مقدمة: ** لقد وصل نموذج LeCun العالمي أخيرًا ، ويمكن القول إنه ما يتوقعه الجميع. الآن بعد أن تعلم النموذج الكبير أن يفهم العالم والعقل مثل الإنسان ، أليس الذكاء الاصطناعي العام بعيدًا؟

لفترة طويلة ، كان الذكاء الاصطناعي المثالي لـ LeCun هو الذكاء الاصطناعي الذي يقود إلى المستوى البشري ، ولهذا السبب اقترح مفهوم "النموذج العالمي".

في الآونة الأخيرة ، في خطاب عام ، انتقد LeCun مرة أخرى نموذج GPT الكبير: النموذج الكبير للجيل الانحدار الذاتي القائم على الاحتمالية لا يمكنه كسر مشكلة الهلوسة على الإطلاق. حتى أنها تؤكد بشكل مباشر أن نموذج GPT لن يستمر لمدة 5 سنوات.

اليوم ، اقترب LeCun أخيرًا من حلمه!

أطلقت Meta shock نموذج ذكاء اصطناعي "يشبه الإنسان" I-JEPA ، والذي يمكنه تحليل واستكمال الصور المفقودة بشكل أكثر دقة من النماذج الحالية.

عنوان الورق:

خلاصة القول: عندما تملأ I-JEPA الأجزاء المفقودة ، فإنها تستخدم معلومات أساسية عن العالم! بدلاً من مجرد النظر إلى وحدات البكسل القريبة مثل النماذج الأخرى.

لقد مر أكثر من عام منذ اقتراح مفهوم "النموذج العالمي" ، ويوشك LeCun على تحقيق نجم البحر الخاص به.

اليوم ، كود التدريب والنماذج مفتوحة المصدر. سيتم تقديم الورقة في CVPR 2023 الأسبوع المقبل.

** نموذج LeCun العالمي هنا **

حتى أنظمة الذكاء الاصطناعي الأكثر تقدمًا اليوم لم تتمكن من اختراق بعض القيود الرئيسية.

من أجل اختراق هذه الطبقة من الأغلال ، اقترح كبير علماء الذكاء الاصطناعي في Meta Yann LeCun بنية جديدة.

تتمثل رؤيته في إنشاء آلة يمكنها تعلم نموذج داخلي لكيفية عمل العالم ، حتى تتمكن من التعلم بسرعة أكبر ، والتخطيط للمهام المعقدة ، والاستجابة للمواقف الجديدة وغير المألوفة في أي وقت.

نموذج I-JEPA الذي أطلقته Meta اليوم هو أول نموذج AI في التاريخ يعتمد على جزء رئيسي من رؤية النموذج العالمي لشركة LeCun.

تتعلم I-JEPA من خلال إنشاء نموذج داخلي للعالم الخارجي. في عملية استكمال الصور ، تقارن التمثيلات المجردة للصور ، بدلاً من مقارنة وحدات البكسل نفسها.

أظهر I-JEPA أداءً قويًا في مهام رؤية الكمبيوتر المتعددة وهو أكثر كفاءة من الناحية الحسابية من نماذج السيرة الذاتية الأخرى المستخدمة على نطاق واسع.

التقييم الخطي ImageNet: لا تستخدم طريقة I-JEPA أي زيادة في البيانات المرئية أثناء التدريب السابق لتعلم تمثيلات الصور الدلالية ، باستخدام حساب أقل من الطرق الأخرى

يمكن استخدام التمثيلات التي تعلمتها I-JEPA في العديد من التطبيقات المختلفة دون ضبط دقيق شامل.

على سبيل المثال ، استخدم الباحثون 16 وحدة معالجة رسومات A100 خلال 72 ساعة لتدريب نموذج محول مرئي مع معلمات 632M.

في مهمة التصنيف ذات اللقطات المنخفضة على ImageNet ، تحقق أحدث ما يصل إلى 12 مثالًا معنونًا لكل فئة.

تتطلب الطرق الأخرى عادةً من 2 إلى 10 أضعاف عدد ساعات GPU ولها معدلات خطأ أعلى عند التدريب بنفس كمية البيانات.

** اكتساب الفطرة السليمة من خلال التعلم تحت الإشراف الذاتي **

بشكل عام ، يمكن للبشر تعلم قدر كبير من المعرفة الأساسية حول العالم ببساطة عن طريق الملاحظة السلبية.

من الناحية التخمينية ، يبدو أن هذا النوع من المعلومات المنطقية هو المفتاح لتمكين السلوك الذكي ، مثل الحصول على عينات صالحة من المفاهيم والأسس والخطط الجديدة.

نموذج مفهوم التعلم كتعلم قراءات خطية

يعتمد عمل Meta على I-JEPA (وبشكل أعم نموذج JEPA لهندسة التضمين المشترك) على هذه الحقيقة.

ما حاول الباحثون هو ابتكار خوارزمية تعليمية تلتقط المعرفة الخلفية المنطقية حول العالم ثم ترميزها في تمثيل رقمي يمكن للخوارزمية الوصول إليه.

لكي تكون فعالة بما فيه الكفاية ، يجب أن تتعلم الأنظمة هذه التمثيلات بطريقة تخضع للإشراف الذاتي - أي مباشرة من البيانات غير المسماة مثل الصور أو الأصوات ، بدلاً من مجموعات البيانات المصنفة التي تم تجميعها يدويًا.

على مستوى أعلى ، تهدف JEPA إلى التنبؤ بتمثيل أجزاء من الإدخال بناءً على تمثيلات أجزاء أخرى من نفس الإدخال (صورة أو نص).

نظرًا لأنه لا ينطوي على انهيار وجهات النظر المتعددة / التمثيلات المعززة للصورة في نقطة واحدة ، فإن JEPA تحمل وعدًا كبيرًا لتجنب التحيزات والقضايا التي تنشأ في الأساليب المستخدمة على نطاق واسع (أي التدريب المسبق القائم على الثبات).

يتجنب نهج التضمين المشترك انهيار التمثيل

في الوقت نفسه ، من خلال التنبؤ بالتمثيلات على مستوى مجردة للغاية ، بدلاً من التنبؤ المباشر بقيم البكسل ، تعد JEPA بأن تكون قادرة على تعلم تمثيلات مفيدة بشكل مباشر مع تجنب قيود الأساليب التوليدية. متحمس لنماذج اللغة الكبيرة.

في المقابل ، تتعلم النماذج التوليدية العامة عن طريق إزالة أو تشويه أجزاء من نموذج الإدخال.

على سبيل المثال ، امسح جزءًا من صورة ، أو قم بإخفاء كلمات معينة في فقرة نصية ، ثم حاول التنبؤ بوحدات البكسل أو الكلمات التالفة أو المفقودة.

لكن أحد أوجه القصور المهمة في هذا النهج هو أنه بينما لا يمكن التنبؤ بالعالم نفسه ، يحاول النموذج ملء كل معلومة مفقودة.

نتيجة لذلك ، يمكن لمثل هذه الأساليب أن ترتكب أخطاء لن يرتكبها البشر أبدًا ، لأنها تركز كثيرًا على التفاصيل غير ذات الصلة بدلاً من التقاط مفاهيم عالية المستوى يمكن التنبؤ بها.

ومن الأمثلة المعروفة أن النماذج التوليدية تواجه صعوبة في توليد اليد اليمنى.

في العمارة العامة للتعلم تحت الإشراف الذاتي ، يتعلم النظام كيفية التقاط العلاقة بين المدخلات المختلفة.

هدفها هو تخصيص طاقات عالية لمدخلات غير متوافقة وطاقات منخفضة للمدخلات المتوافقة.

البنى المشتركة للتعلم الذاتي

الفرق بين هذه الهياكل الثلاثة هو

(أ) تتعلم معمارية التضمين المشترك (الثابت) إخراج عمليات تطريز مماثلة للمدخلات المتوافقة x و y وحفلات الزفاف غير المتشابهة للمدخلات غير المتوافقة.

(ب) تتعلم العمارة التوليدية إعادة بناء إشارة y مباشرة من إشارة متوافقة x ، باستخدام شبكة مفكك شفرات مشروطة بمتغير إضافي z (ربما متغير كامن) لتسهيل إعادة البناء.

(ج) تتعلم معمارية التنبؤ بالتضمين المشترك التنبؤ بتضمين الإشارة y من إشارة متوافقة x ، باستخدام شبكة تنبؤ مشروطة بمتغير إضافي z (ربما متغير كامن) لتسهيل التنبؤ.

** هندسة توقع التضمين المشترك **

المبدأ الكامن وراء I-JEPA هو التنبؤ بالمعلومات المفقودة من خلال تمثيل مجرد أقرب إلى الفهم البشري.

من أجل توجيه I-JEPA لإنشاء تمثيلات دلالية ، فإن أحد التصميمات الأساسية هو استراتيجية التقنيع متعددة الكتل.

على وجه التحديد ، أظهر الفريق أهمية توقع الأجزاء الكبيرة التي تحتوي على معلومات دلالية. هذه الأجزاء ذات حجم كافٍ لتغطية السمات الدلالية الهامة.

ميزة هذه الاستراتيجية هي أنها تقلل من التفاصيل غير الضرورية وتوفر مستوى أعلى من الفهم الدلالي.

من خلال التركيز على أجزاء كبيرة من المعلومات الدلالية ، يمكن للنموذج التقاط المفاهيم المهمة بشكل أفضل في الصور أو النصوص ، مما يؤدي إلى قدرات تنبؤية أقوى.

تستخدم بنية التنبؤ المشتركة القائمة على الصور (I-JEPA) كتلة سياقية واحدة للتنبؤ بالتمثيلات من نفس الصورة

من بينها ، يعد برنامج ترميز السياق عبارة عن محول مرئي (ViT) ، والذي يعالج فقط تصحيحات السياق المرئية.

المتنبئ هو ViT الضيق الذي يأخذ مخرجات مشفر السياق ويتنبأ بتمثيل الكتلة المستهدفة بناءً على الرمز المميز لموقع الهدف.

يتوافق التمثيل الهدف مع إخراج المشفر الهدف ، الذي يتم تحديث أوزانه في كل تكرار بواسطة متوسط متحرك أسي لأوزان مشفر السياق.

في I-JEPA ، يمكن اعتبار المتنبئ نموذجًا عالميًا بدائيًا (ومقيدًا) قادرًا على استغلال معلومات السياق المعروفة لاستنتاج محتوى المناطق غير المعروفة.

تمكن هذه القدرة النموذج من التفكير في الصور الثابتة ، وبناء فهم لعدم اليقين المكاني في الصور.

تختلف عن الطرق التي تركز فقط على التفاصيل على مستوى البكسل ، فإن I-JEPA قادرة على التنبؤ بالمعلومات الدلالية عالية المستوى للمناطق غير المرئية ، وذلك لالتقاط المحتوى الدلالي للصور بشكل أفضل.

العملية التي يتعلم من خلالها المتنبئ أن يصمم دلالات العالم

لكل صورة ، يتم ترميز الأجزاء الموجودة خارج المربع الأزرق وتقديمها إلى المتنبئ كسياق. من ناحية أخرى ، يقوم المتنبئ بإخراج تمثيل يمثل ما هو متوقع داخل المربع الأزرق.

لفهم ما يلتقطه النموذج ، قام الفريق بتدريب وحدة فك ترميز عشوائية لتعيين تمثيلات I-JEPA المتوقعة مرة أخرى إلى مساحة البكسل ، مع إظهار مخرجات النموذج عند إجراء تنبؤات داخل المربع الأزرق.

من الواضح أن المتنبئ قادر على تحديد المعلومات الدلالية التي يجب ملؤها (أعلى رأس الكلب ، ساق الطائر ، ساق الذئب ، الجانب الآخر من المبنى).

بالنظر إلى صورة ، قم بأخذ عينات عشوائية من 4 تصحيحات مستهدفة ، وأخذ عينة عشوائية من تصحيح سياق مقياس النطاق ، وأزل أي تصحيحات هدف متداخلة. في ظل هذه الإستراتيجية ، تكون الكتلة المستهدفة دلالية نسبيًا ، وتحتوي كتلة السياق على كمية كبيرة من المعلومات ، ولكنها قليلة جدًا ، وبالتالي فإن كفاءة المعالجة عالية

باختصار ، I-JEPA قادرة على تعلم تمثيلات عالية المستوى لأجزاء الكائن دون تجاهل معلومات الموقع المحلي في الصورة.

** كفاءة أعلى وأداء أقوى **

في مرحلة ما قبل التدريب ، يكون حساب I-JEPA أكثر كفاءة.

أولاً ، لا يحتاج إلى زيادة البيانات الحسابية المكثفة لتوليد طرق عرض متعددة ، وبالتالي عدم تكبد أي نفقات إضافية.

ثانيًا ، يحتاج برنامج التشفير الهدف فقط إلى معالجة عرض واحد للصورة ، ويحتاج برنامج ترميز السياق فقط إلى معالجة كتلة السياق.

تثبت التجارب أن I-JEPA قادرة على تعلم تمثيلات دلالية قوية جاهزة دون زيادة العرض الاصطناعي.

بالإضافة إلى ذلك ، يتفوق I-JEPA أيضًا على أساليب إعادة بناء البكسل وإعادة بناء الرمز المميز في الكشف الخطي ImageNet-1K والتقييم شبه الخاضع للإشراف.

معيار أداء التقييم الخطي على ImageNet-1k كدالة لساعات وحدة معالجة الرسومات أثناء التدريب المسبق

في المهام الدلالية ، تفوق I-JEPA في الأداء على أساليب ما قبل التدريب السابقة التي تعتمد على البيانات الاصطناعية في الزيادة.

بالمقارنة مع هذه الأساليب ، تحقق I-JEPA أداءً أفضل في مهام الرؤية منخفضة المستوى مثل عد الأشياء والتنبؤ بالعمق.

باستخدام نموذج تحيز استقرائي أبسط وأكثر مرونة ، يمكن استخدام I-JEPA في نطاق أوسع من المهام.

دقة تصنيف اللقطات المنخفضة: تقييم شبه خاضع للإشراف على ImageNet-1k مع تسميات 1٪ (حوالي 12 صورة مصنفة لكل فئة)

** يأخذ الذكاء الاصطناعي خطوة إلى الأمام بالذكاء البشري **

يوضح I-JEPA إمكانات البنية لتعلم تمثيلات الصور الجاهزة دون مساعدة إضافية من المعرفة المصنوعة يدويًا.

إن تعزيز JEPA لتعلم المزيد من النماذج العالمية العامة من طرائق أكثر ثراءً سيكون عملًا مجزًا بشكل خاص.

على سبيل المثال ، من سياق قصير ، قم بعمل تنبؤات مكانية وزمنية طويلة المدى على مقاطع الفيديو واضبط هذه التنبؤات بناءً على الإشارات الصوتية أو النصية.

تصور تمثيل توقع I-JEPA: يحتوي العمود الأول على الصورة الأصلية ، ويحتوي العمود الثاني على صورة السياق ، وتحتوي المربعات المحيطة الخضراء على عينات من النموذج التوليدي الذي تم فك تشفيره بواسطة إخراج التوقع. يلتقط المتنبئ بشكل صحيح عدم اليقين الموضعي ، وينتج أجزاء كائن عالية المستوى بالوضع الصحيح ، ويتجاهل التفاصيل الدقيقة منخفضة المستوى ومعلومات الخلفية

يقول الفريق إنه يتطلع إلى توسيع نهج JEPA ليشمل مجالات أخرى ، مثل البيانات المقترنة بنص الصورة وبيانات الفيديو.

في المستقبل ، قد تحتوي نماذج JEPA على تطبيقات مثيرة في مهام مثل فهم الفيديو. وستكون خطوة مهمة نحو تطبيق وتوسيع أساليب الإشراف الذاتي لتعلم نماذج العالم.

** نموذج مدرب مسبقًا **

### ** تدريب واحد على وحدة معالجة الرسومات **

في إعداد GPU واحد ، يبدأ التنفيذ في main.py.

على سبيل المثال ، لتشغيل تدريب I-JEPA على وحدات معالجة الرسومات 0 و 1 و 2 على جهازك المحلي باستخدام configs / in1k \ _vith14 \ _ep300.yaml ، أدخل الأمر التالي:

python main.py \ --fname configs / in1k_vith14_ep300.yaml \ --devices cuda: 0 cuda: 1 cuda: 2

ملاحظة: يجب تشغيل تهيئة ViT-H / 14 على 16 بطاقة رسومات A100 80G بحجم دفعة فعال يبلغ 2048 لإعادة إنتاج النتائج.

** تدريب متعدد على GPU **

في إعداد متعدد GPU ، يبدأ التنفيذ في main \ _distributed.py ، مما يسمح بتحديد تفاصيل حول التدريب الموزع بالإضافة إلى تحليل ملفات التكوين.

بالنسبة للتدريب الموزع ، فإن أداة الإرسال الشائعة مفتوحة المصدر مطلوبة ، مع مثال على مجموعة SLURM.

على سبيل المثال ، للتدريب المسبق على 16 بطاقة رسومات A100 80G باستخدام تكوين تجربة ما قبل التدريب المحدد في configs / in1k \ _vith14 \ _ep300.yaml ، أدخل الأمر التالي:

python main_distributed.py \ - تكوين الاسم / in1k_vith14_ep300.yaml \ - المجلد $ path_to_save_submitit_logs \ - partition $ slurm_partition \ - العقد 2 - المهام لكل عقدة 8 \ - الوقت 1000

** التعليقات **

أعرب مستخدمو الإنترنت عن تقديرهم لهذا العمل الجديد بقيادة LeCun.

حقا عمل رائد ، في مهب. وريث نموذج الانحدار الذاتي هنا!

أعتقد أن معماريات التضمين الموحدة هي مستقبل الذكاء الاصطناعي ، وليست إنتاجية. لكنني أشعر بالفضول فقط ، لماذا لا نذهب إلى أبعد من ذلك في الوسائط المتعددة (مثل ImageBind ، وليس فقط أزواج الصور النصية) ، واستبدال مشفرات VIT بأجهزة تشفير مثل المشفرات؟

عمل أنيق جدا. من وجهة نظري ، فهو مشابه لبرنامج التشفير التلقائي المقنع ، لكنه يفقد الميزات عند تحديده في مساحة كامنة ، وليس مساحة الإدخال / البكسل. ومع ذلك ، إذا أردت أن أفهمها بالتفصيل ، فما زلت بحاجة إلى مزيد من التفاصيل.

يستطيع عقلي فهم 10٪ فقط من الورقة ، ولكن إذا تمكنت I-JEPA حقًا من إنشاء الصورة المستهدفة في الشكل 3 ، فستكون مذهلة ، والأهم من ذلك أنها مرتبطة بلعبة MMORPG التي تم إنشاؤها بواسطة الذكاء الاصطناعي!

هذا المشروع على وشك أن يكون مفتوح المصدر ، كما أعرب مستخدمو الإنترنت عن تقديرهم لمساهمة Meta في مجتمع المصادر المفتوحة.

مراجع:

شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت