Model besar sedang memicu kompetisi kemampuan teks panjang, dengan panjang konteks yang diperluas 100 kali memicu perubahan industri.

2025-07-28 17:35:28

Model besar sedang berkembang ke arah "lebih panjang"

Panjang konteks model besar sedang tumbuh dengan cepat, dari 4000 token menjadi 400.000 token. Kemampuan teks panjang tampaknya menjadi standar baru bagi perusahaan model besar.

Di luar negeri, OpenAI telah meningkatkan panjang konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic telah memperluas panjang konteks menjadi 100.000 token sekaligus. LongLLaMA bahkan telah memperluas panjang konteks menjadi 256.000 token atau lebih.

Di dalam negeri, diketahui bahwa ada produk asisten pintar yang dirilis oleh perusahaan rintisan yang dapat mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Selain itu, tim peneliti telah mengembangkan teknologi baru yang dapat memperpanjang panjang teks model 7B hingga 100.000 token.

Saat ini, banyak perusahaan model besar terkemuka dan lembaga penelitian di dalam dan luar negeri telah menjadikan perpanjangan panjang konteks sebagai arah peningkatan utama. Sebagian besar perusahaan ini sangat diminati oleh pasar modal, dengan valuasi dan skala pembiayaan yang berada pada posisi tinggi.

Perusahaan model besar fokus mengatasi teknologi teks panjang, apa arti peningkatan panjang konteks 100 kali lipat?

Secara superficial, ini membuat teks yang dapat dimasukkan ke dalam model menjadi lebih panjang, dengan kemampuan membaca yang lebih baik. Dari yang sebelumnya hanya bisa membaca sebuah artikel pendek, sekarang bisa membaca seluruh novel panjang.

Lebih dalam lagi, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian. Kemampuan ringkasan dokumen panjang, pemahaman membaca, dan tanya jawab adalah kunci untuk peningkatan kecerdasan di bidang-bidang ini.

Namun, mirip dengan skala parameter, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk masukan konteks yang lebih panjang tidak serta merta sejalan dengan peningkatan kinerja. Yang lebih penting adalah bagaimana model memanfaatkan konten konteks secara efektif.

Saat ini, eksplorasi panjang teks di dalam dan luar negeri masih jauh dari "titik kritis". 400 ribu token mungkin hanya permulaan, perusahaan-perusahaan besar masih terus melakukan terobosan.

TOKEN4.68%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

22 Suka

Hadiah
22
7
Bagikan

Komentar

0/400

RugpullAlertOfficer

· 07-31 13:09

BTC pasti akan jatuh.

Lihat AsliBalas0

rekt_but_resilient

· 07-31 03:38

Banyak sehingga bisa kenyang.

Lihat AsliBalas0

OnChain_Detective

· 07-29 12:24

Permainan panjang akan dimulai

Lihat AsliBalas0

FloorPriceWatcher

· 07-28 18:05

Digital stacking adalah Daya Komputasi

Lihat AsliBalas0

LoneValidator

· 07-28 18:02

Kedalaman kebijaksanaan dalam teks panjang

Lihat AsliBalas0

LiquidityWizard

· 07-28 18:01

Kemampuan telah ditingkatkan lagi

Lihat AsliBalas0

bridge_anxiety

· 07-28 17:45

Efeknya masih harus dilihat dalam praktik

Lihat AsliBalas0

Topik
#Show My Alpha Points
56k Popularitas
#ETH Whales Accumulate
2k Popularitas
#Fed Officials Signal Rate Cut
744 Popularitas
#SOL Futures Reach New High
22k Popularitas
#ETH ETF Sees 12 Weeks of Inflows
7k Popularitas

Sematkan

peta situs