تزداد طول سياق النماذج الكبيرة بسرعة، من 4000 رمز إلى 400000 رمز. يبدو أن قدرة النصوص الطويلة أصبحت معيارًا جديدًا لشركات النماذج الكبيرة.
بالنسبة للخارج، قامت OpenAI من خلال عدة ترقيات بزيادة طول السياق لـ GPT-3.5 و GPT-4 إلى 16,000 و 32,000 توكن على التوالي. بينما قامت Anthropic بتوسيع طول السياق دفعة واحدة إلى 100,000 توكن. كما أن LongLLaMA قامت بتوسيع طول السياق إلى 256,000 توكن وأكثر.
فيما يتعلق بالوضع المحلي، علم أن هناك منتجات مساعد ذكي أصدرتها شركات ناشئة يمكنها دعم إدخال 200,000 حرف صيني، ما يعادل حوالي 400,000 توكن. كما طور فريق بحثي تقنية جديدة يمكن أن توسع طول نص نموذج 7B إلى 100,000 توكن.
حالياً، هناك العديد من شركات النماذج الكبيرة الرائدة والمؤسسات البحثية في الداخل والخارج التي تعتبر توسيع طول السياق كوجهة رئيسية للتطوير. معظم هذه الشركات تحظى بشعبية كبيرة في سوق رأس المال، وتقييمها وحجم التمويل في مستويات مرتفعة.
ما الذي يعنيه تركيز شركات النماذج الكبيرة على تقنيات النصوص الطويلة وزيادة طول السياق بمقدار 100 مرة؟
من الظاهر أن هذا يجعل النص الذي يمكن إدخاله في النموذج أطول، مما يزيد من قدرته على القراءة. من القدرة على قراءة مقال قصير فقط، إلى القدرة الآن على قراءة رواية كاملة.
من منظور أعمق، تعمل تقنية النصوص الطويلة على دفع تطبيقات النماذج الكبيرة في مجالات الاحتراف مثل المالية، والعدالة، والبحث العلمي. تعتبر قدرات تلخيص الوثائق الطويلة، وفهم القراءة، والإجابة على الأسئلة هي المفتاح للترقية الذكية في هذه المجالات.
ومع ذلك، على غرار حجم المعلمات، فإن طول النص ليس بالضرورة كلما زاد الطول كان أفضل. تظهر الأبحاث أن دعم النموذج لمدخلات سياقية أطول لا يعني بالضرورة زيادة في الأداء. الأهم من ذلك هو كيفية استفادة النموذج بشكل فعال من محتوى السياق.
حالياً، لا يزال الاستكشاف المحلي والدولي لطول النص بعيداً عن "نقطة الحرجة". قد تكون 400000 توكن مجرد بداية، ولا تزال الشركات الكبرى تتجاوز الحدود.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تتنافس النماذج الكبيرة في قدرة النصوص الطويلة، حيث أدت زيادة طول السياق بمقدار 100 مرة إلى إحداث تغييرات في الصناعة.
النماذج الكبيرة تتجه نحو "الأطول"
تزداد طول سياق النماذج الكبيرة بسرعة، من 4000 رمز إلى 400000 رمز. يبدو أن قدرة النصوص الطويلة أصبحت معيارًا جديدًا لشركات النماذج الكبيرة.
بالنسبة للخارج، قامت OpenAI من خلال عدة ترقيات بزيادة طول السياق لـ GPT-3.5 و GPT-4 إلى 16,000 و 32,000 توكن على التوالي. بينما قامت Anthropic بتوسيع طول السياق دفعة واحدة إلى 100,000 توكن. كما أن LongLLaMA قامت بتوسيع طول السياق إلى 256,000 توكن وأكثر.
فيما يتعلق بالوضع المحلي، علم أن هناك منتجات مساعد ذكي أصدرتها شركات ناشئة يمكنها دعم إدخال 200,000 حرف صيني، ما يعادل حوالي 400,000 توكن. كما طور فريق بحثي تقنية جديدة يمكن أن توسع طول نص نموذج 7B إلى 100,000 توكن.
حالياً، هناك العديد من شركات النماذج الكبيرة الرائدة والمؤسسات البحثية في الداخل والخارج التي تعتبر توسيع طول السياق كوجهة رئيسية للتطوير. معظم هذه الشركات تحظى بشعبية كبيرة في سوق رأس المال، وتقييمها وحجم التمويل في مستويات مرتفعة.
ما الذي يعنيه تركيز شركات النماذج الكبيرة على تقنيات النصوص الطويلة وزيادة طول السياق بمقدار 100 مرة؟
من الظاهر أن هذا يجعل النص الذي يمكن إدخاله في النموذج أطول، مما يزيد من قدرته على القراءة. من القدرة على قراءة مقال قصير فقط، إلى القدرة الآن على قراءة رواية كاملة.
من منظور أعمق، تعمل تقنية النصوص الطويلة على دفع تطبيقات النماذج الكبيرة في مجالات الاحتراف مثل المالية، والعدالة، والبحث العلمي. تعتبر قدرات تلخيص الوثائق الطويلة، وفهم القراءة، والإجابة على الأسئلة هي المفتاح للترقية الذكية في هذه المجالات.
ومع ذلك، على غرار حجم المعلمات، فإن طول النص ليس بالضرورة كلما زاد الطول كان أفضل. تظهر الأبحاث أن دعم النموذج لمدخلات سياقية أطول لا يعني بالضرورة زيادة في الأداء. الأهم من ذلك هو كيفية استفادة النموذج بشكل فعال من محتوى السياق.
حالياً، لا يزال الاستكشاف المحلي والدولي لطول النص بعيداً عن "نقطة الحرجة". قد تكون 400000 توكن مجرد بداية، ولا تزال الشركات الكبرى تتجاوز الحدود.