# 大規模モデルは「より長い」方向に進化しています大規模モデルのコンテキスト長は急速に増加しており、4000トークンから40万トークンに拡張されています。長文能力は大規模モデル企業の新しい標準のようです。海外では、OpenAIが何度もアップグレードを行い、GPT-3.5とGPT-4のコンテキスト長をそれぞれ1.6万と3.2万トークンに引き上げました。Anthropicは一度にコンテキスト長を10万トークンに拡張しました。LongLLaMAはコンテキスト長を25.6万トークン以上に拡張しました。国内の情報によると、スタートアップ企業が発表したスマートアシスタント製品は、20万の漢字を入力することができ、約40万のトークンに相当します。また、研究チームは7Bモデルのテキスト長を10万トークンに拡張できる新技術を開発しました。現在、国内外の多くのトップモデル企業や研究機関がコンテキスト長の拡張を重点的なアップグレードの方向性としている。これらの企業は大半が資本市場から注目されており、評価額や資金調達規模は高水準にある。大規模モデル企業が長文技術に集中して取り組んでいますが、文脈の長さが100倍に拡大することは何を意味するのでしょうか?表面上は、これによりモデルが入力できるテキストが長くなり、読み取る能力が向上します。元々は短い文章しか読めなかったのが、今では長編小説全体を読むことができるようになりました。より深い視点から見ると、長文技術は金融、司法、研究などの専門分野における大規模モデルの実用化を推進しています。長文書の要約、読解、質問応答などの能力は、これらの分野の知能化のアップグレードの鍵です。しかし、パラメータの規模と同様に、テキストの長さは長ければ良いというわけではありません。研究によれば、モデルがより長いコンテキスト入力をサポートすることと、そのパフォーマンスの向上は直接的には等号を結ぶことができません。より重要なのは、モデルがコンテキストの内容をどのように効果的に活用するかです。現在、国内外でのテキストの長さに関する探求はまだ「臨界点」に達していません。40万トークンはおそらく始まりに過ぎず、大手企業は引き続き突破を続けています。
大規模モデルが長文能力競争を引き起こし、文脈の長さが100倍に拡大し、業界の変革をもたらす
大規模モデルは「より長い」方向に進化しています
大規模モデルのコンテキスト長は急速に増加しており、4000トークンから40万トークンに拡張されています。長文能力は大規模モデル企業の新しい標準のようです。
海外では、OpenAIが何度もアップグレードを行い、GPT-3.5とGPT-4のコンテキスト長をそれぞれ1.6万と3.2万トークンに引き上げました。Anthropicは一度にコンテキスト長を10万トークンに拡張しました。LongLLaMAはコンテキスト長を25.6万トークン以上に拡張しました。
国内の情報によると、スタートアップ企業が発表したスマートアシスタント製品は、20万の漢字を入力することができ、約40万のトークンに相当します。また、研究チームは7Bモデルのテキスト長を10万トークンに拡張できる新技術を開発しました。
現在、国内外の多くのトップモデル企業や研究機関がコンテキスト長の拡張を重点的なアップグレードの方向性としている。これらの企業は大半が資本市場から注目されており、評価額や資金調達規模は高水準にある。
大規模モデル企業が長文技術に集中して取り組んでいますが、文脈の長さが100倍に拡大することは何を意味するのでしょうか?
表面上は、これによりモデルが入力できるテキストが長くなり、読み取る能力が向上します。元々は短い文章しか読めなかったのが、今では長編小説全体を読むことができるようになりました。
より深い視点から見ると、長文技術は金融、司法、研究などの専門分野における大規模モデルの実用化を推進しています。長文書の要約、読解、質問応答などの能力は、これらの分野の知能化のアップグレードの鍵です。
しかし、パラメータの規模と同様に、テキストの長さは長ければ良いというわけではありません。研究によれば、モデルがより長いコンテキスト入力をサポートすることと、そのパフォーマンスの向上は直接的には等号を結ぶことができません。より重要なのは、モデルがコンテキストの内容をどのように効果的に活用するかです。
現在、国内外でのテキストの長さに関する探求はまだ「臨界点」に達していません。40万トークンはおそらく始まりに過ぎず、大手企業は引き続き突破を続けています。