Велика битва за здатність моделей до роботи з довгими текстами: від 4000 до 400000 токенів, "читабельність" ШІ зростає
Великі моделі стрімко підвищують свою здатність обробляти довгі тексти. Від початкових 4000 токенів до нинішніх 400000 токенів, здатність обробки довгих текстів, здається, стала новим стандартом для виробників великих моделей.
На міжнародному рівні OpenAI кілька разів оновлював GPT-3.5, збільшивши довжину контекстного введення з 4000 до 16000 токенів, а GPT-4 - з 8000 до 32000 токенів. Його конкурент Anthropic навіть підняв довжину контексту до 100000 токенів. LongLLaMA навіть розширив довжину контексту до понад 256000 токенів.
У країні стартап у сфері великих моделей "Місяць темряви" представив Kimi Chat, який підтримує введення 200 тисяч китайських ієрогліфів, що приблизно дорівнює 400 тисячам токенів. Технологія LongLoRA, розроблена в співпраці між Гонконгським університетом і MIT, може розширити довжину тексту для 7B моделі до 100 тисяч токенів, а для 70B моделі - до 32 тисяч токенів.
Наразі багато провідних компаній і дослідницьких установ, таких як OpenAI, Anthropic, Meta та Місячна темрява, зосереджують свої зусилля на розширенні довжини контексту як ключовому напрямку оновлення. Ці компанії в цілому користуються популярністю на ринках капіталу, і обсяги фінансування та оцінки швидко зростають.
Так сильно компанії з великими моделями цінують технології довгих текстів, що означає прорив у 400 тисяч токенів? На перший погляд, це означає значне підвищення довжини вхідного тексту моделі та її здатності до читання. Від початкового етапу, коли вона могла обробляти лише короткі тексти, до сьогоднішнього дня, коли вона здатна читати цілі романи, сфера застосування моделі помітно розширилася.
Глибше розглядаючи, технології довгих текстів сприяють впровадженню великих моделей у фінансовій, судовій, науковій та інших професійних сферах. Здатності до підсумовування довгих документів, розуміння прочитаного, запитань та відповідей є ключовими для інтелектуального оновлення цих сфер.
Однак, подібно до параметрів моделі, довжина тексту не завжди є кращою з точки зору збільшення. Дослідження показують, що між довжиною контексту, яку підтримує модель, і її ефективністю немає простого прямого кореляційного зв'язку. Ключовим є те, як модель може ефективно використовувати контент контексту.
Наразі дослідження технологій довгих текстів ще не досягло межі. Компанії з великими моделями як в Україні, так і за кордоном продовжують робити прориви, 400 тисяч токенів може бути лише початком.
Чому компанії з великими моделями змагаються за "пакування" довгих текстів?
Засновник "Темної сторони Місяця" Ян Чжилін заявив, що обмеження довжини введення великих моделей створює багато труднощів для впровадження застосунків, саме тому великі компанії зараз зосереджені на технологіях довгих текстів.
Наприклад, у сценах з віртуальними персонажами, через недостатню здатність до обробки довгих текстів, віртуальні персонажі можуть забувати важливу інформацію. При розробці ігор у жанрі сценарних вбивств, недостатня довжина вводу може призвести до скорочення правил і налаштувань, що вплине на ефективність гри. У професійних сферах, таких як право та фінанси, глибокий аналіз і генерація контенту також часто стикаються з обмеженнями.
Довгі тексти відіграють важливу роль у майбутніх застосунках Agent та AI. Агентам потрібно спиратися на історичну інформацію для планування та прийняття рішень, тоді як AI-застосунки потребують контексту для підтримки зв'язного та персоналізованого досвіду користувача.
Ян Чжилин вважає, що верхня межа великих моделей визначається як одноразовими можливостями, так і кількістю виконуваних кроків, причому одноразові можливості пов'язані з кількістю параметрів, а кількість виконуваних кроків — це довжина контексту. Технології довгих текстів не лише можуть вирішити деякі проблеми великих моделей на ранніх стадіях, але й є однією з ключових технологій для просування в промисловості та впровадження застосувань.
За допомогою нового Kimi Chat, випущеного компанією Moon's Dark Side, ми можемо зазирнути в оновлені функції великих моделей епохи довгих текстів:
Витягування, узагальнення та аналіз ключової інформації з наддовгих текстів
Підвищення здатності до генерації та модифікації коду
Рольові ігри в довгих діалогових сценах
Ці функції показують, що чат-боти розвиваються в напрямку професіоналізації, персоналізації та глибини, що, ймовірно, стане важливим інструментом для реалізації в промисловості та появи супердодатків.
Дилема "неможливого трикутника" для довгих текстів
У технології довгих текстів існує "неможливий трикутник" проблем довжини тексту, уваги та обчислювальної потужності. Це проявляється в:
Чим довший текст, тим важче зосередити достатню увагу, важче повністю засвоїти інформацію.
В умовах обмеженої уваги короткі тексти не можуть повністю інтерпретувати складну інформацію.
Обробка довгих текстів потребує великої обчислювальної потужності, що підвищує витрати
Корінь цієї проблеми полягає в тому, що більшість моделей базуються на структурі Transformer. У цій структурі механізм самостійної уваги призводить до зростання обчислювальної потужності у квадратній залежності від довжини контексту.
В даний час існує три основні рішення:
Використання зовнішніх інструментів моделі для обробки довгих текстів
Оптимізація обчислень механізму самозвертання
Загальні методи оптимізації моделей
Довгий текст "неможливого трикутника" поки що не має розв'язання, але це також чітко визначило шлях досліджень виробників великих моделей: знайти оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю, щоб обробляти достатню кількість інформації, одночасно враховуючи обмеження на обчислення та витрати уваги.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Велика модель здатна обробляти довгі тексти понад 400 тисяч токенів, що сприяє застосуванню ШІ в фінансовій та юридичній сферах.
Велика битва за здатність моделей до роботи з довгими текстами: від 4000 до 400000 токенів, "читабельність" ШІ зростає
Великі моделі стрімко підвищують свою здатність обробляти довгі тексти. Від початкових 4000 токенів до нинішніх 400000 токенів, здатність обробки довгих текстів, здається, стала новим стандартом для виробників великих моделей.
На міжнародному рівні OpenAI кілька разів оновлював GPT-3.5, збільшивши довжину контекстного введення з 4000 до 16000 токенів, а GPT-4 - з 8000 до 32000 токенів. Його конкурент Anthropic навіть підняв довжину контексту до 100000 токенів. LongLLaMA навіть розширив довжину контексту до понад 256000 токенів.
У країні стартап у сфері великих моделей "Місяць темряви" представив Kimi Chat, який підтримує введення 200 тисяч китайських ієрогліфів, що приблизно дорівнює 400 тисячам токенів. Технологія LongLoRA, розроблена в співпраці між Гонконгським університетом і MIT, може розширити довжину тексту для 7B моделі до 100 тисяч токенів, а для 70B моделі - до 32 тисяч токенів.
Наразі багато провідних компаній і дослідницьких установ, таких як OpenAI, Anthropic, Meta та Місячна темрява, зосереджують свої зусилля на розширенні довжини контексту як ключовому напрямку оновлення. Ці компанії в цілому користуються популярністю на ринках капіталу, і обсяги фінансування та оцінки швидко зростають.
Так сильно компанії з великими моделями цінують технології довгих текстів, що означає прорив у 400 тисяч токенів? На перший погляд, це означає значне підвищення довжини вхідного тексту моделі та її здатності до читання. Від початкового етапу, коли вона могла обробляти лише короткі тексти, до сьогоднішнього дня, коли вона здатна читати цілі романи, сфера застосування моделі помітно розширилася.
Глибше розглядаючи, технології довгих текстів сприяють впровадженню великих моделей у фінансовій, судовій, науковій та інших професійних сферах. Здатності до підсумовування довгих документів, розуміння прочитаного, запитань та відповідей є ключовими для інтелектуального оновлення цих сфер.
Однак, подібно до параметрів моделі, довжина тексту не завжди є кращою з точки зору збільшення. Дослідження показують, що між довжиною контексту, яку підтримує модель, і її ефективністю немає простого прямого кореляційного зв'язку. Ключовим є те, як модель може ефективно використовувати контент контексту.
Наразі дослідження технологій довгих текстів ще не досягло межі. Компанії з великими моделями як в Україні, так і за кордоном продовжують робити прориви, 400 тисяч токенів може бути лише початком.
Чому компанії з великими моделями змагаються за "пакування" довгих текстів?
Засновник "Темної сторони Місяця" Ян Чжилін заявив, що обмеження довжини введення великих моделей створює багато труднощів для впровадження застосунків, саме тому великі компанії зараз зосереджені на технологіях довгих текстів.
Наприклад, у сценах з віртуальними персонажами, через недостатню здатність до обробки довгих текстів, віртуальні персонажі можуть забувати важливу інформацію. При розробці ігор у жанрі сценарних вбивств, недостатня довжина вводу може призвести до скорочення правил і налаштувань, що вплине на ефективність гри. У професійних сферах, таких як право та фінанси, глибокий аналіз і генерація контенту також часто стикаються з обмеженнями.
Довгі тексти відіграють важливу роль у майбутніх застосунках Agent та AI. Агентам потрібно спиратися на історичну інформацію для планування та прийняття рішень, тоді як AI-застосунки потребують контексту для підтримки зв'язного та персоналізованого досвіду користувача.
Ян Чжилин вважає, що верхня межа великих моделей визначається як одноразовими можливостями, так і кількістю виконуваних кроків, причому одноразові можливості пов'язані з кількістю параметрів, а кількість виконуваних кроків — це довжина контексту. Технології довгих текстів не лише можуть вирішити деякі проблеми великих моделей на ранніх стадіях, але й є однією з ключових технологій для просування в промисловості та впровадження застосувань.
За допомогою нового Kimi Chat, випущеного компанією Moon's Dark Side, ми можемо зазирнути в оновлені функції великих моделей епохи довгих текстів:
Ці функції показують, що чат-боти розвиваються в напрямку професіоналізації, персоналізації та глибини, що, ймовірно, стане важливим інструментом для реалізації в промисловості та появи супердодатків.
Дилема "неможливого трикутника" для довгих текстів
У технології довгих текстів існує "неможливий трикутник" проблем довжини тексту, уваги та обчислювальної потужності. Це проявляється в:
Корінь цієї проблеми полягає в тому, що більшість моделей базуються на структурі Transformer. У цій структурі механізм самостійної уваги призводить до зростання обчислювальної потужності у квадратній залежності від довжини контексту.
В даний час існує три основні рішення:
Довгий текст "неможливого трикутника" поки що не має розв'язання, але це також чітко визначило шлях досліджень виробників великих моделей: знайти оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю, щоб обробляти достатню кількість інформації, одночасно враховуючи обмеження на обчислення та витрати уваги.