Model besar sedang memicu kompetisi kemampuan teks panjang, dengan panjang konteks yang diperluas 100 kali memicu perubahan industri.

Model besar sedang berkembang ke arah "lebih panjang"

Panjang konteks model besar sedang tumbuh dengan cepat, dari 4000 token menjadi 400.000 token. Kemampuan teks panjang tampaknya menjadi standar baru bagi perusahaan model besar.

Di luar negeri, OpenAI telah meningkatkan panjang konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic telah memperluas panjang konteks menjadi 100.000 token sekaligus. LongLLaMA bahkan telah memperluas panjang konteks menjadi 256.000 token atau lebih.

Di dalam negeri, diketahui bahwa ada produk asisten pintar yang dirilis oleh perusahaan rintisan yang dapat mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Selain itu, tim peneliti telah mengembangkan teknologi baru yang dapat memperpanjang panjang teks model 7B hingga 100.000 token.

Saat ini, banyak perusahaan model besar terkemuka dan lembaga penelitian di dalam dan luar negeri telah menjadikan perpanjangan panjang konteks sebagai arah peningkatan utama. Sebagian besar perusahaan ini sangat diminati oleh pasar modal, dengan valuasi dan skala pembiayaan yang berada pada posisi tinggi.

Perusahaan model besar fokus mengatasi teknologi teks panjang, apa arti peningkatan panjang konteks 100 kali lipat?

Secara superficial, ini membuat teks yang dapat dimasukkan ke dalam model menjadi lebih panjang, dengan kemampuan membaca yang lebih baik. Dari yang sebelumnya hanya bisa membaca sebuah artikel pendek, sekarang bisa membaca seluruh novel panjang.

Lebih dalam lagi, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian. Kemampuan ringkasan dokumen panjang, pemahaman membaca, dan tanya jawab adalah kunci untuk peningkatan kecerdasan di bidang-bidang ini.

Namun, mirip dengan skala parameter, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk masukan konteks yang lebih panjang tidak serta merta sejalan dengan peningkatan kinerja. Yang lebih penting adalah bagaimana model memanfaatkan konten konteks secara efektif.

Saat ini, eksplorasi panjang teks di dalam dan luar negeri masih jauh dari "titik kritis". 400 ribu token mungkin hanya permulaan, perusahaan-perusahaan besar masih terus melakukan terobosan.

TOKEN4.68%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 7
  • Bagikan
Komentar
0/400
RugpullAlertOfficervip
· 07-31 13:09
BTC pasti akan jatuh.
Lihat AsliBalas0
rekt_but_resilientvip
· 07-31 03:38
Banyak sehingga bisa kenyang.
Lihat AsliBalas0
OnChain_Detectivevip
· 07-29 12:24
Permainan panjang akan dimulai
Lihat AsliBalas0
FloorPriceWatchervip
· 07-28 18:05
Digital stacking adalah Daya Komputasi
Lihat AsliBalas0
LoneValidatorvip
· 07-28 18:02
Kedalaman kebijaksanaan dalam teks panjang
Lihat AsliBalas0
LiquidityWizardvip
· 07-28 18:01
Kemampuan telah ditingkatkan lagi
Lihat AsliBalas0
bridge_anxietyvip
· 07-28 17:45
Efeknya masih harus dilihat dalam praktik
Lihat AsliBalas0
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)