Mô hình lớn đang kích hoạt cuộc đua khả năng văn bản dài, độ dài ngữ cảnh mở rộng gấp 100 lần dẫn đến sự thay đổi trong ngành.

2025-07-28 17:35:28

Mô hình lớn đang phát triển theo hướng "dài hơn"

Chiều dài ngữ cảnh của mô hình lớn đang nhanh chóng tăng lên, từ 4000 token mở rộng đến 400000 token. Khả năng xử lý văn bản dài dường như trở thành tiêu chuẩn mới của các công ty mô hình lớn.

Ở nước ngoài, OpenAI đã nâng độ dài ngữ cảnh của GPT-3.5 và GPT-4 lên lần lượt là 16.000 và 32.000 token qua nhiều lần nâng cấp. Anthropic thì đã mở rộng độ dài ngữ cảnh lên 100.000 token một lần. LongLLaMA thậm chí đã mở rộng độ dài ngữ cảnh lên 256.000 token hoặc thậm chí nhiều hơn.

Tại Trung Quốc, theo thông tin, có một sản phẩm trợ lý thông minh được phát hành bởi một công ty khởi nghiệp có thể hỗ trợ nhập 200.000 ký tự Hán, tương đương với khoảng 400.000 token. Một nhóm nghiên cứu khác đã phát triển công nghệ mới có thể mở rộng độ dài văn bản của mô hình 7B lên đến 100.000 token.

Hiện tại, nhiều công ty mô hình lớn hàng đầu và các tổ chức nghiên cứu trong và ngoài nước đã coi việc mở rộng độ dài ngữ cảnh là hướng nâng cấp chính. Hầu hết các công ty này đều được thị trường tài chính đón nhận nồng nhiệt, với định giá và quy mô huy động vốn đều ở mức cao.

Các công ty mô hình lớn tập trung vào việc chinh phục công nghệ văn bản dài, việc mở rộng độ dài ngữ cảnh gấp 100 lần có nghĩa là gì?

Bề ngoài, điều này khiến cho văn bản có thể nhập vào mô hình dài hơn, khả năng đọc tốt hơn. Từ việc chỉ có thể đọc xong một bài viết ngắn, đến giờ có thể đọc toàn bộ một tiểu thuyết dài.

Xét sâu hơn, công nghệ văn bản dài đang thúc đẩy việc ứng dụng mô hình lớn trong các lĩnh vực chuyên môn như tài chính, tư pháp, nghiên cứu khoa học. Khả năng tóm tắt tài liệu dài, hiểu đọc, và hỏi đáp là chìa khóa cho việc nâng cấp thông minh trong các lĩnh vực này.

Tuy nhiên, tương tự như quy mô tham số, chiều dài văn bản không phải lúc nào cũng tốt hơn khi dài hơn. Nghiên cứu cho thấy rằng việc mô hình hỗ trợ đầu vào ngữ cảnh dài hơn không đồng nghĩa với việc hiệu suất được cải thiện trực tiếp. Quan trọng hơn là cách mà mô hình sử dụng hiệu quả nội dung ngữ cảnh.

Hiện tại, việc khám phá độ dài văn bản trong và ngoài nước còn chưa đạt đến "điểm tới hạn". 400.000 token có thể chỉ là một khởi đầu, các công ty lớn vẫn đang tiếp tục vượt qua.

TOKEN0.93%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

22 thích

Phần thưởng
22
7
Đăng lại
Chia sẻ

Bình luận

0/400

RugpullAlertOfficer

· 07-31 13:09

BTC tổng sẽ phá.

Xem bản gốcTrả lời0

rekt_but_resilient

· 07-31 03:38

Lượng lớn đủ để no

Xem bản gốcTrả lời0

OnChain_Detective

· 07-29 12:24

Trò chơi dài sẽ bắt đầu

Xem bản gốcTrả lời0

FloorPriceWatcher

· 07-28 18:05

Sự xếp chồng số liệu chính là khả năng tính toán

Xem bản gốcTrả lời0

LoneValidator

· 07-28 18:02

Dài văn trí tuệ đa độ sâu

Xem bản gốcTrả lời0

LiquidityWizard

· 07-28 18:01

Năng lực đã được nâng cấp

Xem bản gốcTrả lời0

bridge_anxiety

· 07-28 17:45

Hiệu quả còn phải xem thực tế

Xem bản gốcTrả lời0

Chủ đề
#Gate & WLFI USD1 Points Program
29k Phổ biến
#Trump Allows 401(k) Crypto Investing
10k Phổ biến
#Join Copy Trading Share to Win $2,000
4k Phổ biến
#Show My Alpha Points
76k Phổ biến
#SOL Futures Reach New High
22k Phổ biến

Ghim

sơ đồ trang web