Велика модель викликає змагання за здатність до обробки довгих текстів, розширення довжини контексту в 100 разів викликає зміни в галузі

Великі моделі розвиваються в напрямку "довшого".

Контекстна довжина великих моделей швидко зростає, розширюючись з 4000 токенів до 400 000 токенів. Здатність працювати з довгими текстами, здається, стає новим стандартом для компаній, що займаються великими моделями.

За кордоном OpenAI неодноразово оновлювала GPT-3.5 і GPT-4, збільшивши довжину контексту до 16 000 і 32 000 токенів відповідно. Anthropic в один прийом розширила довжину контексту до 100 000 токенів. LongLLaMA навіть розширила довжину контексту до 256 000 токенів і більше.

В Україні, за інформацією, стартапи випустили продукти розумних помічників, які підтримують введення 200 тисяч китайських ієрогліфів, що становить приблизно 400 тисяч токенів. Інша дослідна група розробила нову технологію, яка дозволяє розширити довжину тексту 7B моделі до 100 тисяч токенів.

Наразі в Україні та за кордоном безліч провідних компаній з великими моделями та дослідницьких установ зосередилися на розширенні довжини контексту як ключовому напрямку оновлення. Більшість цих компаній отримують велику підтримку на фінансових ринках, їхня оцінка та обсяги фінансування знаходяться на високому рівні.

Що означає, якщо компанії з великими моделями зосереджуються на подоланні технології довгих текстів, а довжина контексту збільшується в 100 разів?

На перший погляд, це робить текст, який може бути введений у модель, довшим і здатнішим до читання. З того, що раніше вона могла прочитати лише короткий текст, тепер вона може прочитати цілу довгу книгу.

Глибше розглядаючи, технологія довгих текстів сприяє впровадженню великих моделей у фінансовій, судовій, науковій та інших професійних сферах. Здатності до підсумовування довгих документів, розуміння прочитаного, запитань та відповідей є ключовими для інтелектуального оновлення цих сфер.

Проте, подібно до масштабу параметрів, довжина тексту не завжди є кращою, якщо вона більша. Дослідження показують, що підтримка моделі більшого контексту не обов'язково веде до покращення продуктивності. Більш важливим є те, як модель ефективно використовує контент контексту.

Наразі дослідження довжини тексту в Україні та за кордоном ще не досягли "критичної точки". 400 тисяч токенів може бути лише початком, а великі компанії продовжують прориватися вперед.

TOKEN4.2%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 7
  • Поділіться
Прокоментувати
0/400
RugpullAlertOfficervip
· 07-31 13:09
BTC завжди впаде.
Переглянути оригіналвідповісти на0
rekt_but_resilientvip
· 07-31 03:38
Великі обсяги, щоб насититися.
Переглянути оригіналвідповісти на0
OnChain_Detectivevip
· 07-29 12:24
Починається довга гра в азартні ігри.
Переглянути оригіналвідповісти на0
FloorPriceWatchervip
· 07-28 18:05
Цифровий набір - це Обчислювальна потужність
Переглянути оригіналвідповісти на0
LoneValidatorvip
· 07-28 18:02
Довгі тексти мають велику Глибина
Переглянути оригіналвідповісти на0
LiquidityWizardvip
· 07-28 18:01
Здібності знову покращилися
Переглянути оригіналвідповісти на0
bridge_anxietyvip
· 07-28 17:45
Ефект ще потрібно перевірити на практиці
Переглянути оригіналвідповісти на0
  • Закріпити