تقدم قدرة معالجة النصوص الطويلة لنماذج الذكاء الاصطناعي الكبير: المنافسة والتحديات من 4000 إلى 400000 توكن

robot
إنشاء الملخص قيد التقدم

وراء النصوص الطويلة لمصنعي النماذج الكبيرة

مع التطور السريع لتقنية النماذج الكبيرة، أصبحت القدرة على معالجة النصوص الطويلة أحد المؤشرات الهامة لقياس أداء النموذج. من 4000 توكن في البداية إلى 400000 توكن الآن، حققت النماذج الكبيرة تقدمًا ملحوظًا في معالجة النصوص الطويلة.

حالياً، تركز العديد من الشركات الكبرى في نموذج الذكاء الاصطناعي ومراكز البحث على توسيع طول السياق كأحد أولويات التحديث. على سبيل المثال، قامت OpenAI بترقية طول السياق لـ GPT-3.5 و GPT-4 إلى 16,000 و 32,000 توكن على التوالي. بينما قامت Anthropic بزيادة طول السياق مرة واحدة إلى 100,000 توكن. كما أطلق مشروع "وجه القمر المظلم" المحلي Kimi Chat الذي يدعم إدخال نصوص تصل إلى حوالي 400,000 توكن.

إن تحسين قدرة معالجة النصوص الطويلة لا يعني فقط أن النموذج يمكنه معالجة مزيد من المعلومات، بل يضع أيضًا الأساس لتطبيقاته في مجالات مثل المالية والقانون والبحث العلمي. تحتاج هذه المجالات غالبًا إلى معالجة كميات كبيرة من الوثائق المعقدة، ولها متطلبات عالية في التلخيص والفهم القرائي وقدرات الأسئلة والأجوبة.

ومع ذلك، فإن دعم الإدخالات السياقية الأطول لا يعادل تحسين الأداء العام للنموذج. أظهرت الأبحاث أن الاستخدام الفعال لمحتوى السياق هو الأمر الحاسم. حاليا، لا يزال استكشاف تقنيات النصوص الطويلة مستمراً، وقد تكون 400000 توكن مجرد بداية.

الأسباب الرئيسية التي تدفع لتطوير تقنية النصوص الطويلة هي كما يلي:

  1. حل صعوبات تنفيذ التطبيقات الحالية، مثل مشاكل الذاكرة في مشاهد الشخصيات الافتراضية، والتحليل العميق للمحتوى في المجالات المتخصصة.

  2. دعم التطبيقات الأصلية للوكيل والذكاء الاصطناعي في المستقبل، والتي تحتاج إلى الاعتماد على المعلومات التاريخية لاتخاذ القرارات والحفاظ على تجربة متماسكة.

  3. من خلال توفير المزيد من معلومات السياق، تقليل مشاكل وهم النموذج، وزيادة دقة الاستدلال.

  4. دفع النماذج الكبيرة نحو التخصص والتخصيص والتعمق، تمهيد الطريق لتطبيقات الصناعة وظهور التطبيقات الفائقة.

ومع ذلك، فإن تطور تقنية النصوص الطويلة يواجه أيضًا مأزق "مثلث المستحيل": التناقض بين طول النص والانتباه والقدرة الحسابية. وهذا ينجم بشكل رئيسي عن التعقيد الحسابي لآلية الانتباه الذاتي في هيكل Transformer الذي ينمو بمعدل تربيعي مع طول السياق.

لحل هذه المشكلة، هناك حاليًا ثلاث خطط رئيسية:

  1. استخدام أدوات خارجية للمساعدة في معالجة النصوص الطويلة، مثل تقسيم النص الطويل إلى نصوص قصيرة متعددة.

  2. تحسين حساب آلية الانتباه الذاتي، مثل تقنية LongLoRA التي تقلل من كمية الحساب من خلال الحسابات المجمعة.

  3. تحسين النموذج، مثل LongLLaMA الذي يحقق التمديد لسلاسل أطول من خلال التعديل.

على الرغم من أن تقنيات النصوص الطويلة لا تزال تواجه تحديات، إلا أنها توفر إمكانيات جديدة لتطوير النماذج الكبيرة وتطبيقاتها. في المستقبل، ستستمر شركات النماذج الكبيرة في البحث عن أفضل توازن بين طول النص، والانتباه، وقدرة الحوسبة لتحقيق قدرات معالجة نصوص طويلة أكثر قوة.

TOKEN-3.75%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 4
  • مشاركة
تعليق
0/400
OnlyOnMainnetvip
· منذ 6 س
هل يمكنك التعامل مع مقال طويل كهذا...
شاهد النسخة الأصليةرد0
MissedTheBoatvip
· 07-20 07:14
يبدو أنه يحرق المال! التفكير في فاتورة الكهرباء يجعلني أشعر بالقلق.
شاهد النسخة الأصليةرد0
TheShibaWhisperervip
· 07-20 07:13
لقد كسرت السقف~
شاهد النسخة الأصليةرد0
ser_ngmivip
· 07-20 06:52
لا تتدحرج، لقد وصلت إلى 400,000 ولا يزال غير كافٍ
شاهد النسخة الأصليةرد0
  • تثبيت