Model besar sedang berkembang ke arah "lebih panjang"
Panjang konteks model besar sedang tumbuh dengan cepat, dari 4000 token menjadi 400.000 token. Kemampuan teks panjang tampaknya menjadi standar baru bagi perusahaan model besar.
Di luar negeri, OpenAI telah meningkatkan panjang konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic telah memperluas panjang konteks menjadi 100.000 token sekaligus. LongLLaMA bahkan telah memperluas panjang konteks menjadi 256.000 token atau lebih.
Di dalam negeri, diketahui bahwa ada produk asisten pintar yang dirilis oleh perusahaan rintisan yang dapat mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Selain itu, tim peneliti telah mengembangkan teknologi baru yang dapat memperpanjang panjang teks model 7B hingga 100.000 token.
Saat ini, banyak perusahaan model besar terkemuka dan lembaga penelitian di dalam dan luar negeri telah menjadikan perpanjangan panjang konteks sebagai arah peningkatan utama. Sebagian besar perusahaan ini sangat diminati oleh pasar modal, dengan valuasi dan skala pembiayaan yang berada pada posisi tinggi.
Perusahaan model besar fokus mengatasi teknologi teks panjang, apa arti peningkatan panjang konteks 100 kali lipat?
Secara superficial, ini membuat teks yang dapat dimasukkan ke dalam model menjadi lebih panjang, dengan kemampuan membaca yang lebih baik. Dari yang sebelumnya hanya bisa membaca sebuah artikel pendek, sekarang bisa membaca seluruh novel panjang.
Lebih dalam lagi, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian. Kemampuan ringkasan dokumen panjang, pemahaman membaca, dan tanya jawab adalah kunci untuk peningkatan kecerdasan di bidang-bidang ini.
Namun, mirip dengan skala parameter, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk masukan konteks yang lebih panjang tidak serta merta sejalan dengan peningkatan kinerja. Yang lebih penting adalah bagaimana model memanfaatkan konten konteks secara efektif.
Saat ini, eksplorasi panjang teks di dalam dan luar negeri masih jauh dari "titik kritis". 400 ribu token mungkin hanya permulaan, perusahaan-perusahaan besar masih terus melakukan terobosan.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Model besar sedang memicu kompetisi kemampuan teks panjang, dengan panjang konteks yang diperluas 100 kali memicu perubahan industri.
Model besar sedang berkembang ke arah "lebih panjang"
Panjang konteks model besar sedang tumbuh dengan cepat, dari 4000 token menjadi 400.000 token. Kemampuan teks panjang tampaknya menjadi standar baru bagi perusahaan model besar.
Di luar negeri, OpenAI telah meningkatkan panjang konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic telah memperluas panjang konteks menjadi 100.000 token sekaligus. LongLLaMA bahkan telah memperluas panjang konteks menjadi 256.000 token atau lebih.
Di dalam negeri, diketahui bahwa ada produk asisten pintar yang dirilis oleh perusahaan rintisan yang dapat mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Selain itu, tim peneliti telah mengembangkan teknologi baru yang dapat memperpanjang panjang teks model 7B hingga 100.000 token.
Saat ini, banyak perusahaan model besar terkemuka dan lembaga penelitian di dalam dan luar negeri telah menjadikan perpanjangan panjang konteks sebagai arah peningkatan utama. Sebagian besar perusahaan ini sangat diminati oleh pasar modal, dengan valuasi dan skala pembiayaan yang berada pada posisi tinggi.
Perusahaan model besar fokus mengatasi teknologi teks panjang, apa arti peningkatan panjang konteks 100 kali lipat?
Secara superficial, ini membuat teks yang dapat dimasukkan ke dalam model menjadi lebih panjang, dengan kemampuan membaca yang lebih baik. Dari yang sebelumnya hanya bisa membaca sebuah artikel pendek, sekarang bisa membaca seluruh novel panjang.
Lebih dalam lagi, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian. Kemampuan ringkasan dokumen panjang, pemahaman membaca, dan tanya jawab adalah kunci untuk peningkatan kecerdasan di bidang-bidang ini.
Namun, mirip dengan skala parameter, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk masukan konteks yang lebih panjang tidak serta merta sejalan dengan peningkatan kinerja. Yang lebih penting adalah bagaimana model memanfaatkan konten konteks secara efektif.
Saat ini, eksplorasi panjang teks di dalam dan luar negeri masih jauh dari "titik kritis". 400 ribu token mungkin hanya permulaan, perusahaan-perusahaan besar masih terus melakukan terobosan.