Большие модели развиваются в направлении "более длинных"
Длина контекста больших моделей быстро растет, увеличиваясь с 4000 токенов до 400000 токенов. Способность работать с длинными текстами, похоже, становится новым стандартом для компаний, занимающихся большими моделями.
За границей OpenAI многократно обновлял GPT-3.5 и GPT-4, увеличив длину контекста до 16 000 и 32 000 токенов соответственно. Anthropic же один раз увеличил длину контекста до 100 000 токенов. LongLLaMA даже расширил длину контекста до 256 000 токенов и более.
Согласно информации из страны, стартапы выпустили продукты умного помощника, которые могут поддерживать ввод 200 000 иероглифов, что соответствует примерно 400 000 токенов. Также исследовательская группа разработала новую технологию, позволяющую расширить длину текста модели 7B до 100 000 токенов.
В настоящее время многие ведущие компании и исследовательские организации как в стране, так и за рубежом делают акцент на расширении длины контекста как на приоритетном направлении обновления. Большинство из этих компаний пользуются высоким спросом на капитальном рынке, их оценка и объем финансирования находятся на высоком уровне.
Что означает, что компании по разработке больших моделей сосредоточились на решении технологий длинного текста, увеличив длину контекста в 100 раз?
На первый взгляд, это позволяет модели вводить более длинные тексты и обладает большей способностью к чтению. От того, что она могла прочитать только короткое эссе, теперь она может читать целый роман.
С более глубокой точки зрения, технологии длинных текстов способствуют внедрению больших моделей в профессиональные области, такие как финансы, юстиция и научные исследования. Способности к суммированию длинных документов, пониманию прочитанного и вопросам-ответам являются ключевыми для интеллектуального обновления этих областей.
Однако, как и с размером параметров, длина текста не всегда лучше, чем длиннее. Исследования показывают, что увеличение поддержки более длинного входного контекста не всегда напрямую связано с улучшением производительности. Более важно то, как модель эффективно использует контент контекста.
В настоящее время исследование длины текста как внутри страны, так и за границей еще далеко от достижения "критической точки". 400000 токенов могут быть лишь началом, и многие компании продолжают делать прорывы.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Большие модели запускают соревнование по способности к длинным текстам, увеличение длины контекста в 100 раз вызывает изменения в отрасли
Большие модели развиваются в направлении "более длинных"
Длина контекста больших моделей быстро растет, увеличиваясь с 4000 токенов до 400000 токенов. Способность работать с длинными текстами, похоже, становится новым стандартом для компаний, занимающихся большими моделями.
За границей OpenAI многократно обновлял GPT-3.5 и GPT-4, увеличив длину контекста до 16 000 и 32 000 токенов соответственно. Anthropic же один раз увеличил длину контекста до 100 000 токенов. LongLLaMA даже расширил длину контекста до 256 000 токенов и более.
Согласно информации из страны, стартапы выпустили продукты умного помощника, которые могут поддерживать ввод 200 000 иероглифов, что соответствует примерно 400 000 токенов. Также исследовательская группа разработала новую технологию, позволяющую расширить длину текста модели 7B до 100 000 токенов.
В настоящее время многие ведущие компании и исследовательские организации как в стране, так и за рубежом делают акцент на расширении длины контекста как на приоритетном направлении обновления. Большинство из этих компаний пользуются высоким спросом на капитальном рынке, их оценка и объем финансирования находятся на высоком уровне.
Что означает, что компании по разработке больших моделей сосредоточились на решении технологий длинного текста, увеличив длину контекста в 100 раз?
На первый взгляд, это позволяет модели вводить более длинные тексты и обладает большей способностью к чтению. От того, что она могла прочитать только короткое эссе, теперь она может читать целый роман.
С более глубокой точки зрения, технологии длинных текстов способствуют внедрению больших моделей в профессиональные области, такие как финансы, юстиция и научные исследования. Способности к суммированию длинных документов, пониманию прочитанного и вопросам-ответам являются ключевыми для интеллектуального обновления этих областей.
Однако, как и с размером параметров, длина текста не всегда лучше, чем длиннее. Исследования показывают, что увеличение поддержки более длинного входного контекста не всегда напрямую связано с улучшением производительности. Более важно то, как модель эффективно использует контент контекста.
В настоящее время исследование длины текста как внутри страны, так и за границей еще далеко от достижения "критической точки". 400000 токенов могут быть лишь началом, и многие компании продолжают делать прорывы.