Jadi sekarang di mana ini akan masuk akal untuk inferensi, kami hampir tidak dapat memuat Q8 Qwen Coder 3 yang terkuantisasi dan instance Kimi K2 di H200 kami. Kimi K2 @ Q8 tidak menyisakan ruang untuk cache kv untuk konteks. Apakah model-model ini bisa muat di satu instance 8xB200? Mungkin, kami akan mencoba minggu ini.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 4
  • Bagikan
Komentar
0/400
HallucinationGrowervip
· 07-27 12:03
Ngapain bikin yang begitu berlebihan
Lihat AsliBalas0
TerraNeverForgetvip
· 07-27 12:02
Ini terlalu dapatkan likuidasi.
Lihat AsliBalas0
FadCatchervip
· 07-27 11:58
Mengapa ruang cache kv ini sudah habis?
Lihat AsliBalas0
FloorSweepervip
· 07-27 11:46
Kartu grafis tidak muat, mau ngapain?
Lihat AsliBalas0
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)