Контекстна довжина великих моделей швидко зростає, розширюючись з 4000 токенів до 400 000 токенів. Здатність працювати з довгими текстами, здається, стає новим стандартом для компаній, що займаються великими моделями.
За кордоном OpenAI неодноразово оновлювала GPT-3.5 і GPT-4, збільшивши довжину контексту до 16 000 і 32 000 токенів відповідно. Anthropic в один прийом розширила довжину контексту до 100 000 токенів. LongLLaMA навіть розширила довжину контексту до 256 000 токенів і більше.
В Україні, за інформацією, стартапи випустили продукти розумних помічників, які підтримують введення 200 тисяч китайських ієрогліфів, що становить приблизно 400 тисяч токенів. Інша дослідна група розробила нову технологію, яка дозволяє розширити довжину тексту 7B моделі до 100 тисяч токенів.
Наразі в Україні та за кордоном безліч провідних компаній з великими моделями та дослідницьких установ зосередилися на розширенні довжини контексту як ключовому напрямку оновлення. Більшість цих компаній отримують велику підтримку на фінансових ринках, їхня оцінка та обсяги фінансування знаходяться на високому рівні.
Що означає, якщо компанії з великими моделями зосереджуються на подоланні технології довгих текстів, а довжина контексту збільшується в 100 разів?
На перший погляд, це робить текст, який може бути введений у модель, довшим і здатнішим до читання. З того, що раніше вона могла прочитати лише короткий текст, тепер вона може прочитати цілу довгу книгу.
Глибше розглядаючи, технологія довгих текстів сприяє впровадженню великих моделей у фінансовій, судовій, науковій та інших професійних сферах. Здатності до підсумовування довгих документів, розуміння прочитаного, запитань та відповідей є ключовими для інтелектуального оновлення цих сфер.
Проте, подібно до масштабу параметрів, довжина тексту не завжди є кращою, якщо вона більша. Дослідження показують, що підтримка моделі більшого контексту не обов'язково веде до покращення продуктивності. Більш важливим є те, як модель ефективно використовує контент контексту.
Наразі дослідження довжини тексту в Україні та за кордоном ще не досягли "критичної точки". 400 тисяч токенів може бути лише початком, а великі компанії продовжують прориватися вперед.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Велика модель викликає змагання за здатність до обробки довгих текстів, розширення довжини контексту в 100 разів викликає зміни в галузі
Великі моделі розвиваються в напрямку "довшого".
Контекстна довжина великих моделей швидко зростає, розширюючись з 4000 токенів до 400 000 токенів. Здатність працювати з довгими текстами, здається, стає новим стандартом для компаній, що займаються великими моделями.
За кордоном OpenAI неодноразово оновлювала GPT-3.5 і GPT-4, збільшивши довжину контексту до 16 000 і 32 000 токенів відповідно. Anthropic в один прийом розширила довжину контексту до 100 000 токенів. LongLLaMA навіть розширила довжину контексту до 256 000 токенів і більше.
В Україні, за інформацією, стартапи випустили продукти розумних помічників, які підтримують введення 200 тисяч китайських ієрогліфів, що становить приблизно 400 тисяч токенів. Інша дослідна група розробила нову технологію, яка дозволяє розширити довжину тексту 7B моделі до 100 тисяч токенів.
Наразі в Україні та за кордоном безліч провідних компаній з великими моделями та дослідницьких установ зосередилися на розширенні довжини контексту як ключовому напрямку оновлення. Більшість цих компаній отримують велику підтримку на фінансових ринках, їхня оцінка та обсяги фінансування знаходяться на високому рівні.
Що означає, якщо компанії з великими моделями зосереджуються на подоланні технології довгих текстів, а довжина контексту збільшується в 100 разів?
На перший погляд, це робить текст, який може бути введений у модель, довшим і здатнішим до читання. З того, що раніше вона могла прочитати лише короткий текст, тепер вона може прочитати цілу довгу книгу.
Глибше розглядаючи, технологія довгих текстів сприяє впровадженню великих моделей у фінансовій, судовій, науковій та інших професійних сферах. Здатності до підсумовування довгих документів, розуміння прочитаного, запитань та відповідей є ключовими для інтелектуального оновлення цих сфер.
Проте, подібно до масштабу параметрів, довжина тексту не завжди є кращою, якщо вона більша. Дослідження показують, що підтримка моделі більшого контексту не обов'язково веде до покращення продуктивності. Більш важливим є те, як модель ефективно використовує контент контексту.
Наразі дослідження довжини тексту в Україні та за кордоном ще не досягли "критичної точки". 400 тисяч токенів може бути лише початком, а великі компанії продовжують прориватися вперед.