AI Pertarungan Seratus Model: Dari Masalah Akademis ke Kompetisi Rekayasa

Pertarungan Seratus Model di Industri AI: Dari Masalah Akademis ke Masalah Teknik

Bulan lalu, industri AI menyelenggarakan sebuah pertarungan bertema hewan.

Di satu sisi, ada Llama yang diluncurkan oleh Meta, yang sangat disukai oleh komunitas pengembang karena sifatnya yang open-source. Perusahaan listrik Jepang (NEC) setelah mempelajari makalah dan kode sumber Llama, dengan cepat mengembangkan versi Jepang dari ChatGPT, yang telah menyelesaikan kendala perkembangan AI di Jepang.

Pihak lain adalah model besar bernama Falcon. Pada bulan Mei tahun ini, Falcon-40B diluncurkan, mengalahkan Llama dan menduduki puncak "Daftar Peringkat LLM Sumber Terbuka". Daftar ini dibuat oleh komunitas model sumber terbuka, memberikan standar untuk menilai kemampuan LLM. Peringkat ini pada dasarnya adalah Llama dan Falcon yang bergantian menduduki posisi teratas.

Setelah peluncuran Llama 2, keluarga Llama sementara memimpin; tetapi pada awal September, Falcon meluncurkan versi 180B, kembali meraih peringkat yang lebih tinggi.

Menariknya, pengembang Falcon adalah Institut Penelitian Inovasi Teknologi di Abu Dhabi, ibu kota Uni Emirat Arab. Pihak berwenang Uni Emirat Arab menyatakan bahwa mereka terlibat dalam bidang ini untuk memecahkan pola yang ada.

Pada hari berikutnya setelah rilis versi 180B, Menteri Kecerdasan Buatan Uni Emirat Arab terpilih dalam "100 Orang Paling Berpengaruh di Bidang AI" yang diseleksi oleh Majalah Time; bersama dengan dia, yang juga terpilih adalah "Bapak AI" Hinton, Altman dari OpenAI, dan lain-lain.

Saat ini, bidang AI telah memasuki fase berkembang pesat: negara dan perusahaan yang memiliki sedikit kekuatan finansial, semuanya mendorong rencana untuk versi lokal ChatGPT. Hanya di kawasan Teluk, sudah ada lebih dari satu peserta — pada bulan Agustus, Arab Saudi baru saja membeli lebih dari 3000 chip H100 untuk universitas dalam negeri, yang digunakan untuk melatih LLM.

Seorang investor pernah mengeluh: "Dulu melihat rendah inovasi model bisnis internet, merasa tidak ada penghalang; tidak menyangka bahwa startup model besar teknologi keras masih bersaing ketat..."

Mengapa teknologi keras yang seharusnya sulit kini menjadi kompetisi yang dapat diikuti oleh semua orang?

Transformer: Titik Balik Kunci dalam Perkembangan AI

Perusahaan rintis Amerika, raksasa teknologi China, dan taipan minyak Timur Tengah dapat mengejar mimpi model besar berkat makalah terkenal itu: "Attention Is All You Need."

Pada tahun 2017, delapan ilmuwan komputer dari Google mempublikasikan algoritma Transformer dalam makalah ini. Makalah ini saat ini merupakan makalah yang paling banyak dikutip ketiga dalam sejarah AI, dan munculnya Transformer memicu gelombang minat AI ini.

Berbagai model besar saat ini, termasuk seri GPT yang menghebohkan dunia, dibangun di atas dasar Transformer.

Sebelum ini, membuat mesin memahami teks telah menjadi tantangan di kalangan akademis. Berbeda dengan pengenalan gambar, manusia saat membaca tidak hanya memperhatikan kata dan kalimat saat ini, tetapi juga menggabungkan konteks untuk memahami. Input dari jaringan saraf awal saling independen, sulit untuk memahami teks panjang bahkan seluruh artikel.

Pada tahun 2014, ilmuwan Google Ilia pertama kali mencapai terobosan. Dia menggunakan jaringan saraf berulang (RNN) untuk memproses bahasa alami, yang secara signifikan meningkatkan kinerja Google Translate. RNN memperkenalkan "desain siklis", memungkinkan neuron untuk menerima input saat ini serta input dari waktu sebelumnya, sehingga memiliki kemampuan "menggabungkan konteks".

Kemunculan RNN telah memicu semangat penelitian di kalangan akademisi. Namun, para pengembang dengan cepat menyadari bahwa RNN memiliki kekurangan serius: algoritma ini menggunakan perhitungan berurutan, meskipun menyelesaikan masalah konteks, tetapi efisiensi operasionalnya rendah dan sulit untuk menangani banyak parameter.

Sejak 2015, Shazelle dan yang lainnya mulai mengembangkan alternatif untuk RNN, dan hasil akhirnya adalah Transformer. Jika dibandingkan dengan RNN, Transformer memiliki dua inovasi besar: pertama, menggantikan desain siklis dengan pengkodean posisi, memungkinkan perhitungan paralel yang secara signifikan meningkatkan efisiensi pelatihan; kedua, lebih meningkatkan kemampuan untuk memahami konteks.

Transformer secara efektif menyelesaikan berbagai tantangan teknis dan secara bertahap menjadi solusi utama dalam pemrosesan bahasa alami. Ini mengubah model besar dari penelitian teoretis menjadi masalah rekayasa murni.

Pada tahun 2019, OpenAI mengembangkan GPT-2 berdasarkan Transformer, yang mengejutkan dunia akademis. Google segera meluncurkan AI yang lebih kuat — Meena. Berbeda dengan GPT-2, Meena tidak memiliki inovasi algoritma, hanya menambah parameter pelatihan dan daya komputasi. Metode "penumpukan kekuatan" ini meninggalkan kesan mendalam pada penulis Transformer, Shahraz.

Kehadiran Transformer telah memperlambat inovasi algoritma dasar di kalangan akademis. Elemen-elemen rekayasa seperti rekayasa data, skala komputasi, dan arsitektur model secara bertahap menjadi kunci dalam kompetisi AI. Selama perusahaan memiliki kekuatan teknis tertentu, mereka dapat mengembangkan model besar.

Ilmuwan komputer Andrew Ng dalam pidatonya di Universitas Stanford menyatakan: "AI adalah kumpulan alat, termasuk pembelajaran terawasi, pembelajaran tidak terawasi, pembelajaran penguatan, dan sekarang AI generatif. Semua ini adalah teknologi umum, mirip dengan listrik dan internet."

Meskipun OpenAI masih menjadi pemimpin dalam LLM, lembaga analisis semikonduktor berpendapat bahwa keunggulan GPT-4 terutama berasal dari solusi teknik—jika open-source, pesaing mana pun dapat dengan cepat menyalinnya. Analis tersebut memperkirakan bahwa perusahaan teknologi besar lainnya mungkin segera dapat menciptakan model besar yang sebanding dengan performa GPT-4.

Kerentanan Parit Pertahanan

Saat ini, "Pertarungan Seratus Model" bukan lagi istilah yang berlebihan, tetapi merupakan realitas objektif.

Laporan menunjukkan bahwa hingga Juli tahun ini, jumlah model besar di China mencapai 130, melampaui 114 di Amerika Serikat. Selain China dan Amerika Serikat, negara kaya lainnya juga mulai meluncurkan model besar lokal: seperti Bhashini yang dipimpin oleh pemerintah India, dan HyperClova X yang dikembangkan oleh perusahaan internet Korea Selatan, Naver.

Adegan ini seolah kembali ke awal internet, di mana modal dan teknologi bersaing dengan sengit.

Seperti yang disebutkan sebelumnya, Transformer menjadikan model besar sebagai masalah rekayasa murni; selama ada bakat, dana, dan perangkat keras, parameter dapat ditumpuk untuk mencapainya. Namun, penurunan hambatan masuk tidak berarti semua orang bisa menjadi raksasa di era AI.

Sebagai contoh dari "Pertarungan Hewan" yang disebutkan di awal artikel: Falcon meskipun melampaui Llama dalam beberapa peringkat, namun dampaknya terhadap Meta terbatas.

Seperti yang kita ketahui, perusahaan yang membuka sumber hasil penelitian mereka, tidak hanya untuk berbagi kemajuan teknologi, tetapi juga berharap dapat memanfaatkan kebijaksanaan kolektif. Dengan akademisi dan industri terus menggunakan dan meningkatkan Llama, Meta dapat menerapkan hasil ini ke dalam produk mereka.

Untuk model besar sumber terbuka, komunitas pengembang yang aktif adalah kekuatan inti. Meta telah menetapkan strategi sumber terbuka sejak mendirikan laboratorium AI pada tahun 2015; Zuckerberg, yang memulai dengan media sosial, sangat memahami cara "memelihara hubungan dengan pengguna".

Misalnya, pada bulan Oktober tahun ini, Meta mengadakan acara "Insentif Kreator AI": pengembang yang menggunakan Llama 2 untuk menyelesaikan masalah sosial seperti pendidikan dan lingkungan memiliki kesempatan untuk mendapatkan dana sebesar 500.000 dolar.

Saat ini, seri Llama dari Meta telah menjadi tolok ukur LLM sumber terbuka. Hingga awal Oktober, 8 dari 10 LLM sumber terbuka teratas dalam peringkat menggunakan pengembangan berbasis Llama 2 dan mengadopsi lisensi sumber terbukanya. Hanya di platform ini, terdapat lebih dari 1500 LLM yang menggunakan lisensi sumber terbuka Llama 2.

Tentu saja, meningkatkan kinerja seperti Falcon juga merupakan salah satu strategi, tetapi saat ini sebagian besar LLM masih memiliki perbedaan yang jelas dengan GPT-4.

Misalnya baru-baru ini, GPT-4 menduduki peringkat pertama dalam pengujian AgentBench dengan skor 4,41. AgentBench diluncurkan oleh beberapa universitas terkenal untuk mengevaluasi kemampuan penalaran dan pengambilan keputusan LLM dalam lingkungan terbuka multidimensi. Hasil pengujian menunjukkan bahwa Claude di posisi kedua hanya mendapat 2,77, dengan selisih yang signifikan. Skor LLM open source terkenal lainnya kebanyakan sekitar 1 poin, kurang dari seperempat dari GPT-4.

Perlu dicatat bahwa GPT-4 dirilis pada bulan Maret tahun ini, yang merupakan prestasi setelah lebih dari enam bulan dikejar oleh rekan-rekan global. Kemampuan OpenAI untuk mempertahankan posisi terdepan berasal dari tim penelitian berkualitas tinggi dan pengalaman yang terakumulasi dalam jangka waktu yang lama.

Dengan kata lain, keuntungan utama dari model besar bukanlah ukuran parameter, tetapi pembangunan ekosistem (jalur sumber terbuka) atau kemampuan inferensi murni (jalur tertutup).

Seiring dengan semakin aktifnya komunitas sumber terbuka, performa berbagai LLM mungkin cenderung serupa, karena semua orang menggunakan arsitektur model dan dataset yang serupa.

Masalah lain yang lebih intuitif adalah: selain Midjourney, tampaknya belum ada model besar lain yang dapat menghasilkan keuntungan.

Tantangan Penetapan Nilai

Pada bulan Agustus tahun ini, sebuah artikel berjudul "OpenAI mungkin akan bangkrut pada akhir 2024" menarik perhatian. Inti dari artikel tersebut dapat diringkas sebagai berikut: Kecepatan pembakaran uang OpenAI terlalu cepat.

Dalam teks tersebut disebutkan bahwa sejak pengembangan ChatGPT, kerugian OpenAI dengan cepat meningkat, dengan kerugian sekitar 540 juta dolar AS pada tahun 2022, dan hanya bisa bertahan berkat investasi dari Microsoft.

Meskipun judulnya terdengar mengerikan, itu benar-benar mencerminkan kondisi umum penyedia model besar: ketidakseimbangan serius antara biaya dan pendapatan.

Biaya yang terlalu tinggi menyebabkan saat ini hanya produsen chip seperti NVIDIA yang mendapatkan manfaat utama dari gelombang AI.

Menurut perkiraan perusahaan konsultan Omdia, Nvidia menjual lebih dari 300.000 chip H100 pada kuartal kedua tahun ini. Ini adalah chip AI yang efisien, dan perusahaan teknologi serta lembaga penelitian di seluruh dunia berlomba-lomba untuk membelinya. Jika 300.000 chip H100 ini ditumpuk, beratnya setara dengan 4,5 pesawat Boeing 747.

Kinerja Nvidia melonjak, dengan pendapatan tahunan tumbuh 854%, mengejutkan Wall Street. Saat ini, harga H100 di pasar second telah diperdagangkan hingga 40-50 ribu dolar AS, sementara biaya materialnya hanya sekitar 3000 dolar AS.

Biaya komputasi yang tinggi dalam beberapa hal menghambat perkembangan industri. Sequoia Capital pernah memperkirakan: perusahaan teknologi global diperkirakan akan menginvestasikan 200 miliar dolar AS setiap tahun untuk pembangunan infrastruktur model besar; dibandingkan dengan itu, model besar hanya dapat menghasilkan pendapatan maksimum 75 miliar dolar AS per tahun, dengan setidaknya ada kekurangan 125 miliar dolar AS.

Selain itu, kecuali untuk beberapa pengecualian seperti Midjourney, mayoritas perusahaan perangkat lunak masih belum menemukan model keuntungan yang jelas setelah mengeluarkan biaya besar. Bahkan, bisnis AI dari pemimpin industri seperti Microsoft dan Adobe juga menghadapi tantangan.

Alat penghasil kode AI GitHub Copilot yang dikembangkan oleh Microsoft bekerja sama dengan OpenAI, meskipun mengenakan biaya bulanan sebesar 10 dolar, namun karena biaya fasilitas, Microsoft justru mengalami kerugian 20 dolar per bulan. Pengguna berat bahkan dapat menyebabkan Microsoft merugi hingga 80 dolar per bulan. Berdasarkan ini, dapat diasumsikan bahwa Microsoft 365 Copilot yang dipatok dengan harga 30 dolar mungkin mengalami kerugian yang lebih besar.

Demikian pula, Adobe yang baru saja meluncurkan alat Firefly AI dengan cepat memperkenalkan sistem poin untuk mencegah pengguna menggunakan secara berlebihan yang dapat menyebabkan kerugian bagi perusahaan. Begitu pengguna melebihi poin yang dialokasikan setiap bulan, Adobe akan mengurangi kecepatan layanan.

Perlu dicatat bahwa Microsoft dan Adobe sudah memiliki skenario bisnis yang jelas dan banyak pengguna berbayar. Sementara itu, sebagian besar model besar dengan parameter yang sangat besar, masih memiliki skenario aplikasi utama yang adalah obrolan.

Tidak dapat disangkal, jika tidak ada kemunculan OpenAI dan ChatGPT, revolusi AI ini mungkin tidak akan terjadi. Namun, pada tahap ini, nilai yang diciptakan oleh pelatihan model besar masih perlu diperdebatkan.

Dengan meningkatnya persaingan yang homogen dan munculnya model sumber terbuka, penyedia model besar murni mungkin menghadapi tekanan kelangsungan hidup yang lebih besar.

Sama seperti kesuksesan iPhone 4 tidak hanya bergantung pada prosesor A4-nya, tetapi karena dapat menjalankan berbagai aplikasi menarik, nilai sebenarnya dari AI mungkin lebih terlihat dalam konteks aplikasi spesifiknya.

GPT-1.25%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 6
  • Bagikan
Komentar
0/400
WalletManagervip
· 21jam yang lalu
Banyak bicara tidak ada gunanya, hanya soal siapa yang memiliki parameter model lebih besar.
Lihat AsliBalas0
LuckyHashValuevip
· 08-02 08:00
Wah, Jepang benar-benar hebat dalam mengembangkan AI!
Lihat AsliBalas0
PaperHandSistervip
· 08-02 07:54
Dua ini berdebat siapa yang menang tidak ada yang sekuat GPT4 bull.
Lihat AsliBalas0
BridgeTrustFundvip
· 08-02 07:46
Satu gunung tidak dapat menampung dua domba Siapa yang menang?
Lihat AsliBalas0
SquidTeachervip
· 08-02 07:45
Hanya gulungan keras!
Lihat AsliBalas0
SurvivorshipBiasvip
· 08-02 07:35
Rumput, bukankah ini adalah perkelahian antara alpaca dan elang?
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)