قدرة النص الطويل تصبح "المعيار" الجديد لمصنعي النماذج الكبيرة
تعمل النماذج الكبيرة على تعزيز قدرتها على معالجة النصوص بسرعة مذهلة، حيث توسعت من 4000 توكن في البداية إلى 400,000 توكن حالياً. يبدو أن القدرة على معالجة النصوص الطويلة قد أصبحت معياراً جديداً لقياس قوة شركات النماذج الكبيرة.
في الوقت الحالي، تركز الشركات الكبرى في مجال النماذج الكبيرة والمؤسسات البحثية المحلية والدولية على توسيع طول السياق كوجهة ترقية رئيسية. تم ترقية نماذج GPT من OpenAI عدة مرات، حيث زاد طول السياق من 4000 إلى 32000 توكن. ورفعت Anthropic طول السياق إلى 100000 توكن دفعة واحدة. أطلقت شركة "الوجه المظلم للقمر" المحلية نموذج Kimi Chat الذي يدعم إدخال 200000 حرف صيني، وهو ما يعادل حوالي 400000 توكن.
تحسين قدرة النص الطويل يعني أن النموذج يمكنه معالجة نصوص إدخال أطول، مما يعزز من قدرة الفهم القرائي. من القدرة في البداية على قراءة مقالة قصيرة فقط، إلى القدرة الآن على معالجة رواية طويلة. هذا لا يوسع فقط نطاق تطبيقات النموذج، بل يوفر أيضًا إمكانية الترقية الذكية في مجالات مثل المالية والقانون والبحث العلمي.
ومع ذلك، فإن طول النص ليس كلما زاد كان أفضل. أظهرت الأبحاث أن دعم النموذج لإدخال سياق أطول لا يعني بالضرورة تحسين الأداء بشكل مباشر. الأهم هو الاستخدام الفعال لمحتوى السياق من قبل النموذج.
يعتقد مؤسس الجانب المظلم من القمر، يانغ تشي لين، أن الحد الأقصى للنموذج الكبير يتحدد من خلال القدرة الأحادية وعدد خطوات التنفيذ، حيث ترتبط القدرة الأحادية بكمية المعلمات، بينما يشير عدد خطوات التنفيذ إلى طول السياق. تعتبر تقنية النصوص الطويلة قادرة على حل بعض المشكلات المبكرة للنموذج الكبير، وهي واحدة من التقنيات الرئيسية لدفع الصناعة نحو التطبيق.
حاليًا، تُظهر تقنيات النصوص الطويلة إمكانيات قوية في مجالات استخراج المعلومات، وتوليد الشفرات، وأدوار اللعب. ولكن لا تزال هناك بعض المشاكل في التطبيق العملي، مثل عدم القدرة على الاتصال بالإنترنت للحصول على المعلومات الجديدة، وعدم القدرة على إيقاف عملية التوليد لتعديلها.
تواجه التقنية المتعلقة بالنصوص الطويلة مأزق "مثلث المستحيل": من الصعب التوفيق بين طول النص، والانتباه، والقدرة الحاسوبية. وهذا يعود أساسًا إلى أن كمية الحساب المطلوبة في آلية الانتباه الذاتي داخل بنية Transformer تتزايد بشكل تربيعي مع طول السياق.
لحل هذه الأزمة، هناك حاليًا ثلاث خطط رئيسية:
استخدام أدوات خارجية للمساعدة في معالجة النصوص الطويلة
تحسين حساب آلية الانتباه الذاتي
الطرق العامة لتحسين النموذج
على الرغم من أن "مثلث الاستحالة" في النصوص الطويلة لا يزال بلا حل مؤقتًا، إلا أن هذا يوضح أيضًا اتجاه الاستكشاف لمصنعي النماذج الكبيرة: البحث عن أفضل نقطة توازن بين طول النصوص، والانتباه، وقوة الحوسبة، لمعالجة معلومات كافية مع مراعاة قيود حساب الانتباه وتكاليف الحوسبة.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 16
أعجبني
16
6
مشاركة
تعليق
0/400
ChainDoctor
· 07-24 11:17
بصراحة، إنه علم مقسم.
شاهد النسخة الأصليةرد0
GigaBrainAnon
· 07-24 06:55
آه، مرة أخرى في طول اللف.
شاهد النسخة الأصليةرد0
quiet_lurker
· 07-24 06:52
من يستطيع تحمل تكاليف استهلاك GPU؟
شاهد النسخة الأصليةرد0
Blockwatcher9000
· 07-24 06:51
ما فائدة النص الطويل، هل لا يمكن شرحه في عشرة كلمات؟
أصبح معالجة النصوص الطويلة باستخدام النماذج الكبيرة معيارًا جديدًا، حيث تتواجد التحديات والفرص معًا.
قدرة النص الطويل تصبح "المعيار" الجديد لمصنعي النماذج الكبيرة
تعمل النماذج الكبيرة على تعزيز قدرتها على معالجة النصوص بسرعة مذهلة، حيث توسعت من 4000 توكن في البداية إلى 400,000 توكن حالياً. يبدو أن القدرة على معالجة النصوص الطويلة قد أصبحت معياراً جديداً لقياس قوة شركات النماذج الكبيرة.
في الوقت الحالي، تركز الشركات الكبرى في مجال النماذج الكبيرة والمؤسسات البحثية المحلية والدولية على توسيع طول السياق كوجهة ترقية رئيسية. تم ترقية نماذج GPT من OpenAI عدة مرات، حيث زاد طول السياق من 4000 إلى 32000 توكن. ورفعت Anthropic طول السياق إلى 100000 توكن دفعة واحدة. أطلقت شركة "الوجه المظلم للقمر" المحلية نموذج Kimi Chat الذي يدعم إدخال 200000 حرف صيني، وهو ما يعادل حوالي 400000 توكن.
تحسين قدرة النص الطويل يعني أن النموذج يمكنه معالجة نصوص إدخال أطول، مما يعزز من قدرة الفهم القرائي. من القدرة في البداية على قراءة مقالة قصيرة فقط، إلى القدرة الآن على معالجة رواية طويلة. هذا لا يوسع فقط نطاق تطبيقات النموذج، بل يوفر أيضًا إمكانية الترقية الذكية في مجالات مثل المالية والقانون والبحث العلمي.
ومع ذلك، فإن طول النص ليس كلما زاد كان أفضل. أظهرت الأبحاث أن دعم النموذج لإدخال سياق أطول لا يعني بالضرورة تحسين الأداء بشكل مباشر. الأهم هو الاستخدام الفعال لمحتوى السياق من قبل النموذج.
يعتقد مؤسس الجانب المظلم من القمر، يانغ تشي لين، أن الحد الأقصى للنموذج الكبير يتحدد من خلال القدرة الأحادية وعدد خطوات التنفيذ، حيث ترتبط القدرة الأحادية بكمية المعلمات، بينما يشير عدد خطوات التنفيذ إلى طول السياق. تعتبر تقنية النصوص الطويلة قادرة على حل بعض المشكلات المبكرة للنموذج الكبير، وهي واحدة من التقنيات الرئيسية لدفع الصناعة نحو التطبيق.
حاليًا، تُظهر تقنيات النصوص الطويلة إمكانيات قوية في مجالات استخراج المعلومات، وتوليد الشفرات، وأدوار اللعب. ولكن لا تزال هناك بعض المشاكل في التطبيق العملي، مثل عدم القدرة على الاتصال بالإنترنت للحصول على المعلومات الجديدة، وعدم القدرة على إيقاف عملية التوليد لتعديلها.
تواجه التقنية المتعلقة بالنصوص الطويلة مأزق "مثلث المستحيل": من الصعب التوفيق بين طول النص، والانتباه، والقدرة الحاسوبية. وهذا يعود أساسًا إلى أن كمية الحساب المطلوبة في آلية الانتباه الذاتي داخل بنية Transformer تتزايد بشكل تربيعي مع طول السياق.
لحل هذه الأزمة، هناك حاليًا ثلاث خطط رئيسية:
على الرغم من أن "مثلث الاستحالة" في النصوص الطويلة لا يزال بلا حل مؤقتًا، إلا أن هذا يوضح أيضًا اتجاه الاستكشاف لمصنعي النماذج الكبيرة: البحث عن أفضل نقطة توازن بين طول النصوص، والانتباه، وقوة الحوسبة، لمعالجة معلومات كافية مع مراعاة قيود حساب الانتباه وتكاليف الحوسبة.