# AI業界における100モデルの戦い:アカデミックな問題からエンジニアリングの問題まで先月、AI業界で動物をテーマにした対決が繰り広げられました。一方はMetaがリリースしたLlamaで、そのオープンソースの特性から開発者コミュニティに好評です。日本電気株式会社(NEC)はLlamaに関する論文とソースコードを研究した後、迅速に日本語版ChatGPTを開発し、日本のAI発展のボトルネックを解決しました。もう一方はFalconという大規模モデルです。今年の5月にFalcon-40Bが登場し、Llamaを超えて「オープンソースLLMランキング」のトップに立ちました。このランキングはオープンソースモデルコミュニティによって作成され、LLMの能力を評価する基準を提供しています。ランキングは基本的にLlamaとFalconが交互に首位を占めています。Llama 2のリリース後、Llamaファミリーが一時的にリードしていましたが、9月初めにFalconが180Bバージョンを発表し、再びより高いランキングを獲得しました。興味深いことに、Falconの開発者はアラブ首長国連邦の首都アブダビにあるテクノロジー革新研究所です。アラブ首長国連邦の公式発表によると、彼らはこの分野に参加することで既存の枠組みを打破することを目指しています。180Bバージョンのリリース翌日、アラブ首長国連邦の人工知能大臣が《タイム》誌の「AI分野で最も影響力のある100人」に選ばれました。彼と共に選ばれたのは「AIの父」ヒントンやOpenAIのアルトマンなどです。現在、AI分野は百花繚乱の段階に入っています:少しでも財力のある国や企業は、地元版ChatGPTの計画を進めています。湾岸地域だけでも、参加者は一つではありません——8月、サウジアラビアは国内の大学のために3000枚以上のH100チップを購入し、LLMの訓練に使用しました。投資家は次のように不満を述べた:"かつてインターネットのビジネスモデルの革新を軽視し、障壁がないと思っていた;まさかハードテクノロジーの大規模モデルの起業が、依然として百家争鳴になるとは..."本来は高度なハードテクノロジーであるべきなのに、なぜ誰もが参加できる競争になったのか?# トランスフォーマー:AIの発展の重要な転換点アメリカのスタートアップ、中国のテクノロジー大手、中東の石油王が大規模モデルの夢を追い求めることができるのは、あの有名な論文《Attention Is All You Need》のおかげです。2017年、8人のGoogleのコンピュータ科学者たちがこの論文でTransformerアルゴリズムを公開しました。この論文は現在、AIの歴史の中で3番目に引用されている論文であり、Transformerの出現はこのAIブームを引き起こしました。現在のさまざまな大規模モデルは、世界を驚かせたGPTシリーズを含め、Transformerの基礎の上に構築されています。これまで、機械が文字を理解することは学術界の難題でした。画像認識とは異なり、人間は読書中に現在の単語やフレーズだけでなく、文脈を結びつけて理解します。初期の神経ネットワークは入力が互いに独立しており、長いテキストや全体の文章を理解することが困難でした。2014年、Googleの科学者イリヤが初めて突破を果たしました。彼は循環神経ネットワーク(RNN)を使用して自然言語を処理し、Google翻訳の性能を大幅に向上させました。RNNは「循環設計」を導入し、ニューロンは現在の入力を受け取るだけでなく、前の時刻の入力も受け取ることができ、「文脈を結びつける」能力を持つようになりました。RNNの登場は学術界の研究熱を呼び起こしました。しかし開発者たちはすぐにRNNに深刻な欠陥があることを発見しました:このアルゴリズムは順次計算を使用しており、文脈の問題を解決しましたが、実行効率が低く、大量のパラメータを処理するのが難しいです。2015年から、シャザールらはRNNの代替品の開発に着手し、最終的な成果がTransformerです。RNNと比較して、Transformerには二つの大きな革新があります。一つは、位置エンコーディングを使用して循環設計を置き換え、並列計算を実現し、トレーニング効率を大幅に向上させたことです。もう一つは、文脈を理解する能力をさらに強化したことです。Transformerは複数の技術的課題を一挙に解決し、自然言語処理の主流のソリューションとなりました。それは、大規模モデルを理論研究から純粋なエンジニアリングの問題に変えました。2019年、OpenAIはTransformerを基にGPT-2を開発し、学術界に衝撃を与えました。Googleはすぐにより強力なAIであるMeenaを発表しました。MeenaはGPT-2に対してアルゴリズムの革新はなく、単にトレーニングパラメータと計算能力を増加させただけです。この「暴力的な積み重ね」の方法は、Transformerの作者であるシャザールに深い印象を与えました。Transformerの登場により、学術界の基礎アルゴリズムの革新速度が鈍化しました。データエンジニアリング、計算能力の規模、モデルアーキテクチャなどのエンジニアリング要素が、AI競争の鍵となりつつあります。一定の技術力を持つ企業であれば、大規模モデルを開発することができるのです。コンピュータ科学者のアンドリュー・ングはスタンフォード大学での講演の中で次のように指摘しました:"AIは、監視学習、非監視学習、強化学習、そして現在の生成AIを含む一連のツールの集合です。これらはすべて一般的な技術であり、電力やインターネットに似ています。"OpenAIは依然としてLLMのリーダーですが、半導体分析機関は、GPT-4の利点は主にエンジニアリングソリューションに起因すると考えています——もしオープンソースになれば、競合他社は迅速にコピーできるでしょう。このアナリストは、他の大手テクノロジー企業がすぐにGPT-4と同等の性能を持つ大規模モデルを構築できると予測しています。# 堀のもろさ今や「百模戦争」は誇張された表現ではなく、客観的な現実となっている。報告によると、今年7月時点で中国の大規模モデルの数は130に達し、アメリカの114を上回っています。中米以外の他の裕福な国々も次々と地元の大規模モデルを発表しています。例えば、インド政府が主導するBhashiniや、韓国のインターネット企業Naverが開発したHyperClova Xなどです。このシーンはまるでインターネットの初期、資本と技術が激しく競い合っていた時代に戻ったかのようです。前述の通り、Transformerは大規模モデルを純粋なエンジニアリングの問題に変えました。人材、資金、ハードウェアさえあれば、パラメーターを積み重ねることで実現できます。しかし、参入障壁が低くなったからといって、誰もがAI時代の巨人になれるわけではありません。記事の冒頭で言及された「動物バトル」を例に取ると、FalconはあるランキングでLlamaを上回ったものの、Metaに対する実際の影響は限られています。広く知られているように、企業が自らの研究成果をオープンソース化することは、技術の進歩を共有するためだけでなく、一般の知恵を借りることを希望している。学術界と産業界がLlamaを継続的に使用・改善することで、Metaはこれらの成果を自社の製品に応用することができる。オープンソースの大規模モデルにとって、アクティブな開発者コミュニティこそが核心的な競争力です。Metaは2015年にAIラボを設立した際にオープンソース戦略を確立しました;ザッカーバーグはソーシャルメディアを基盤にしており、「ユーザー関係を維持する」ことを深く理解しています。例えば、今年10月にMetaは「AIクリエイターインセンティブ」イベントを開催しました:教育や環境などの社会問題を解決するためにLlama 2を使用する開発者には、50万ドルの助成金を得る機会があります。現在、MetaのLlamaシリーズはオープンソースLLMの標準となっています。10月初めの時点で、あるオープンソースLLMランキングのトップ10のうち8つはLlama 2を基に開発され、そのオープンソースプロトコルを採用しています。このプラットフォーム上で、Llama 2のオープンソースプロトコルを使用しているLLMは1500を超えています。もちろん、Falconのようにパフォーマンスを向上させるのも一つの戦略ですが、現在ほとんどのLLMはGPT-4とまだ明らかな差があります。例えば最近、GPT-4は4.41点の成績でAgentBenchテストで1位にランクインしました。AgentBenchは複数の著名な大学によって共同で発表され、LLMの多次元オープン環境での推論と意思決定能力を評価するためのものです。テスト結果は、2位のClaudeがわずか2.77点であり、差が顕著であることを示しています。他の著名なオープンソースのLLMの得点は多くが1点前後で、GPT-4の4分の1にも満たないものです。注目すべきは、GPT-4が今年の3月に発表されたことで、これは世界の競合が追いつくのに半年以上かかった成果です。OpenAIが先頭を維持できているのは、高いレベルの研究チームと長年の経験の蓄積によるものです。言い換えれば、大規模モデルの核心的な利点はパラメータの規模ではなく、エコシステムの構築(オープンソースルート)または純粋な推論能力(クローズドソースルート)です。オープンソースコミュニティがますます活発になるにつれて、各LLMの性能は一致する可能性があり、皆が似たようなモデルアーキテクチャとデータセットを使用しているからです。もう一つの直感的な問題は、Midjourneyを除いて、他にどの大規模モデルも利益を上げているようには見えないということです。# 価値の固定に関する挑戦今年8月、「OpenAIは2024年末に破産する可能性がある」というタイトルの記事が注目を集めました。記事の主旨は、OpenAIの資金消費の速度があまりにも速いということに要約されます。文中では、ChatGPTの開発以来、OpenAIの損失が急速に拡大し、2022年には約5.4億ドルの損失を出し、マイクロソフトの投資に依存して維持していると述べています。タイトルは少し派手ですが、実際には大規模モデル提供者の一般的な状況を反映しています:コストと収入が深刻に不均衡です。過高なコストにより、現在AIブームの主な恩恵を受けているのはNVIDIAなどの半導体メーカーだけです。コンサルティング会社Omdiaの推計によると、NVIDIAは今年の第2四半期に30万枚以上のH100チップを販売しました。これは高効率のAIチップで、世界中のテクノロジー企業や研究機関がこぞって購入しています。この30万枚のH100を重ねると、その重さは4.5機のボーイング747に相当します。エヌビディアの業績は急上昇し、前年同期比で売上高は854%増加し、ウォール街を驚かせました。現在、H100は中古市場で4万〜5万ドルにまで高騰しており、その材料費は約3000ドルに過ぎません。高い計算能力のコストは、ある程度業界の発展を妨げています。セコイアキャピタルは、世界のテクノロジー企業が毎年2000億ドルを大規模モデルのインフラ整備に投資すると予測していると推定しました。それに対して、大規模モデルは毎年最大750億ドルの収入しか生み出せず、少なくとも1250億ドルのギャップが存在しています。さらに、Midjourneyなどの少数の例外を除いて、大多数のソフトウェア会社は巨額のコストを投じた後でも、明確な収益モデルを見つけていません。業界のリーダーであるマイクロソフトやアドビのAIビジネスでも課題に直面しています。マイクロソフトとOpenAIが共同開発したAIコード生成ツールGitHub Copilotは、月額10ドルの会費を徴収していますが、施設コストのためにマイクロソフトは毎月20ドルの損失を出しています。ヘビーユーザーは、マイクロソフトに毎月80ドルの損失をもたらすこともあります。これに基づいて、30ドルのMicrosoft 365 Copilotはさらに多くの損失を出す可能性があります。同様に、最近Firefly AIツールを発表したAdobeは、ユーザーの過剰使用による企業の損失を防ぐために、ポイントシステムを迅速に導入しました。ユーザーが毎月割り当てられたポイントを超えると、Adobeはサービスの速度を低下させます。注目すべきは、MicrosoftとAdobeが明確なビジネスシーンと多くの有料ユーザーを持っていることです。一方で、パラメータの規模が大きい大規模モデルの主な適用シーンは依然としてチャットです。否定できないことは、OpenAIとChatGPTの登場がなければ、このAI革命は起こらなかったかもしれない。しかし現段階では、大規模モデルの訓練によって生み出される価値は依然として議論の余地がある。同質化競争が激化し、オープンソースモデルが次々と登場する中で、単純な大規模モデルの供給者はより大きな生存圧力に直面する可能性があります。iPhone 4の成功がそのA4プロセッサーだけに依存しているのではなく、さまざまな興味深いアプリケーションを実行できるからであるように、AIの真の価値はその具体的な応用シーンにもっと表れている可能性があります。
AI百模バトル:学術的課題から工学コンペティションへ
AI業界における100モデルの戦い:アカデミックな問題からエンジニアリングの問題まで
先月、AI業界で動物をテーマにした対決が繰り広げられました。
一方はMetaがリリースしたLlamaで、そのオープンソースの特性から開発者コミュニティに好評です。日本電気株式会社(NEC)はLlamaに関する論文とソースコードを研究した後、迅速に日本語版ChatGPTを開発し、日本のAI発展のボトルネックを解決しました。
もう一方はFalconという大規模モデルです。今年の5月にFalcon-40Bが登場し、Llamaを超えて「オープンソースLLMランキング」のトップに立ちました。このランキングはオープンソースモデルコミュニティによって作成され、LLMの能力を評価する基準を提供しています。ランキングは基本的にLlamaとFalconが交互に首位を占めています。
Llama 2のリリース後、Llamaファミリーが一時的にリードしていましたが、9月初めにFalconが180Bバージョンを発表し、再びより高いランキングを獲得しました。
興味深いことに、Falconの開発者はアラブ首長国連邦の首都アブダビにあるテクノロジー革新研究所です。アラブ首長国連邦の公式発表によると、彼らはこの分野に参加することで既存の枠組みを打破することを目指しています。
180Bバージョンのリリース翌日、アラブ首長国連邦の人工知能大臣が《タイム》誌の「AI分野で最も影響力のある100人」に選ばれました。彼と共に選ばれたのは「AIの父」ヒントンやOpenAIのアルトマンなどです。
現在、AI分野は百花繚乱の段階に入っています:少しでも財力のある国や企業は、地元版ChatGPTの計画を進めています。湾岸地域だけでも、参加者は一つではありません——8月、サウジアラビアは国内の大学のために3000枚以上のH100チップを購入し、LLMの訓練に使用しました。
投資家は次のように不満を述べた:"かつてインターネットのビジネスモデルの革新を軽視し、障壁がないと思っていた;まさかハードテクノロジーの大規模モデルの起業が、依然として百家争鳴になるとは..."
本来は高度なハードテクノロジーであるべきなのに、なぜ誰もが参加できる競争になったのか?
トランスフォーマー:AIの発展の重要な転換点
アメリカのスタートアップ、中国のテクノロジー大手、中東の石油王が大規模モデルの夢を追い求めることができるのは、あの有名な論文《Attention Is All You Need》のおかげです。
2017年、8人のGoogleのコンピュータ科学者たちがこの論文でTransformerアルゴリズムを公開しました。この論文は現在、AIの歴史の中で3番目に引用されている論文であり、Transformerの出現はこのAIブームを引き起こしました。
現在のさまざまな大規模モデルは、世界を驚かせたGPTシリーズを含め、Transformerの基礎の上に構築されています。
これまで、機械が文字を理解することは学術界の難題でした。画像認識とは異なり、人間は読書中に現在の単語やフレーズだけでなく、文脈を結びつけて理解します。初期の神経ネットワークは入力が互いに独立しており、長いテキストや全体の文章を理解することが困難でした。
2014年、Googleの科学者イリヤが初めて突破を果たしました。彼は循環神経ネットワーク(RNN)を使用して自然言語を処理し、Google翻訳の性能を大幅に向上させました。RNNは「循環設計」を導入し、ニューロンは現在の入力を受け取るだけでなく、前の時刻の入力も受け取ることができ、「文脈を結びつける」能力を持つようになりました。
RNNの登場は学術界の研究熱を呼び起こしました。しかし開発者たちはすぐにRNNに深刻な欠陥があることを発見しました:このアルゴリズムは順次計算を使用しており、文脈の問題を解決しましたが、実行効率が低く、大量のパラメータを処理するのが難しいです。
2015年から、シャザールらはRNNの代替品の開発に着手し、最終的な成果がTransformerです。RNNと比較して、Transformerには二つの大きな革新があります。一つは、位置エンコーディングを使用して循環設計を置き換え、並列計算を実現し、トレーニング効率を大幅に向上させたことです。もう一つは、文脈を理解する能力をさらに強化したことです。
Transformerは複数の技術的課題を一挙に解決し、自然言語処理の主流のソリューションとなりました。それは、大規模モデルを理論研究から純粋なエンジニアリングの問題に変えました。
2019年、OpenAIはTransformerを基にGPT-2を開発し、学術界に衝撃を与えました。Googleはすぐにより強力なAIであるMeenaを発表しました。MeenaはGPT-2に対してアルゴリズムの革新はなく、単にトレーニングパラメータと計算能力を増加させただけです。この「暴力的な積み重ね」の方法は、Transformerの作者であるシャザールに深い印象を与えました。
Transformerの登場により、学術界の基礎アルゴリズムの革新速度が鈍化しました。データエンジニアリング、計算能力の規模、モデルアーキテクチャなどのエンジニアリング要素が、AI競争の鍵となりつつあります。一定の技術力を持つ企業であれば、大規模モデルを開発することができるのです。
コンピュータ科学者のアンドリュー・ングはスタンフォード大学での講演の中で次のように指摘しました:"AIは、監視学習、非監視学習、強化学習、そして現在の生成AIを含む一連のツールの集合です。これらはすべて一般的な技術であり、電力やインターネットに似ています。"
OpenAIは依然としてLLMのリーダーですが、半導体分析機関は、GPT-4の利点は主にエンジニアリングソリューションに起因すると考えています——もしオープンソースになれば、競合他社は迅速にコピーできるでしょう。このアナリストは、他の大手テクノロジー企業がすぐにGPT-4と同等の性能を持つ大規模モデルを構築できると予測しています。
堀のもろさ
今や「百模戦争」は誇張された表現ではなく、客観的な現実となっている。
報告によると、今年7月時点で中国の大規模モデルの数は130に達し、アメリカの114を上回っています。中米以外の他の裕福な国々も次々と地元の大規模モデルを発表しています。例えば、インド政府が主導するBhashiniや、韓国のインターネット企業Naverが開発したHyperClova Xなどです。
このシーンはまるでインターネットの初期、資本と技術が激しく競い合っていた時代に戻ったかのようです。
前述の通り、Transformerは大規模モデルを純粋なエンジニアリングの問題に変えました。人材、資金、ハードウェアさえあれば、パラメーターを積み重ねることで実現できます。しかし、参入障壁が低くなったからといって、誰もがAI時代の巨人になれるわけではありません。
記事の冒頭で言及された「動物バトル」を例に取ると、FalconはあるランキングでLlamaを上回ったものの、Metaに対する実際の影響は限られています。
広く知られているように、企業が自らの研究成果をオープンソース化することは、技術の進歩を共有するためだけでなく、一般の知恵を借りることを希望している。学術界と産業界がLlamaを継続的に使用・改善することで、Metaはこれらの成果を自社の製品に応用することができる。
オープンソースの大規模モデルにとって、アクティブな開発者コミュニティこそが核心的な競争力です。Metaは2015年にAIラボを設立した際にオープンソース戦略を確立しました;ザッカーバーグはソーシャルメディアを基盤にしており、「ユーザー関係を維持する」ことを深く理解しています。
例えば、今年10月にMetaは「AIクリエイターインセンティブ」イベントを開催しました:教育や環境などの社会問題を解決するためにLlama 2を使用する開発者には、50万ドルの助成金を得る機会があります。
現在、MetaのLlamaシリーズはオープンソースLLMの標準となっています。10月初めの時点で、あるオープンソースLLMランキングのトップ10のうち8つはLlama 2を基に開発され、そのオープンソースプロトコルを採用しています。このプラットフォーム上で、Llama 2のオープンソースプロトコルを使用しているLLMは1500を超えています。
もちろん、Falconのようにパフォーマンスを向上させるのも一つの戦略ですが、現在ほとんどのLLMはGPT-4とまだ明らかな差があります。
例えば最近、GPT-4は4.41点の成績でAgentBenchテストで1位にランクインしました。AgentBenchは複数の著名な大学によって共同で発表され、LLMの多次元オープン環境での推論と意思決定能力を評価するためのものです。テスト結果は、2位のClaudeがわずか2.77点であり、差が顕著であることを示しています。他の著名なオープンソースのLLMの得点は多くが1点前後で、GPT-4の4分の1にも満たないものです。
注目すべきは、GPT-4が今年の3月に発表されたことで、これは世界の競合が追いつくのに半年以上かかった成果です。OpenAIが先頭を維持できているのは、高いレベルの研究チームと長年の経験の蓄積によるものです。
言い換えれば、大規模モデルの核心的な利点はパラメータの規模ではなく、エコシステムの構築(オープンソースルート)または純粋な推論能力(クローズドソースルート)です。
オープンソースコミュニティがますます活発になるにつれて、各LLMの性能は一致する可能性があり、皆が似たようなモデルアーキテクチャとデータセットを使用しているからです。
もう一つの直感的な問題は、Midjourneyを除いて、他にどの大規模モデルも利益を上げているようには見えないということです。
価値の固定に関する挑戦
今年8月、「OpenAIは2024年末に破産する可能性がある」というタイトルの記事が注目を集めました。記事の主旨は、OpenAIの資金消費の速度があまりにも速いということに要約されます。
文中では、ChatGPTの開発以来、OpenAIの損失が急速に拡大し、2022年には約5.4億ドルの損失を出し、マイクロソフトの投資に依存して維持していると述べています。
タイトルは少し派手ですが、実際には大規模モデル提供者の一般的な状況を反映しています:コストと収入が深刻に不均衡です。
過高なコストにより、現在AIブームの主な恩恵を受けているのはNVIDIAなどの半導体メーカーだけです。
コンサルティング会社Omdiaの推計によると、NVIDIAは今年の第2四半期に30万枚以上のH100チップを販売しました。これは高効率のAIチップで、世界中のテクノロジー企業や研究機関がこぞって購入しています。この30万枚のH100を重ねると、その重さは4.5機のボーイング747に相当します。
エヌビディアの業績は急上昇し、前年同期比で売上高は854%増加し、ウォール街を驚かせました。現在、H100は中古市場で4万〜5万ドルにまで高騰しており、その材料費は約3000ドルに過ぎません。
高い計算能力のコストは、ある程度業界の発展を妨げています。セコイアキャピタルは、世界のテクノロジー企業が毎年2000億ドルを大規模モデルのインフラ整備に投資すると予測していると推定しました。それに対して、大規模モデルは毎年最大750億ドルの収入しか生み出せず、少なくとも1250億ドルのギャップが存在しています。
さらに、Midjourneyなどの少数の例外を除いて、大多数のソフトウェア会社は巨額のコストを投じた後でも、明確な収益モデルを見つけていません。業界のリーダーであるマイクロソフトやアドビのAIビジネスでも課題に直面しています。
マイクロソフトとOpenAIが共同開発したAIコード生成ツールGitHub Copilotは、月額10ドルの会費を徴収していますが、施設コストのためにマイクロソフトは毎月20ドルの損失を出しています。ヘビーユーザーは、マイクロソフトに毎月80ドルの損失をもたらすこともあります。これに基づいて、30ドルのMicrosoft 365 Copilotはさらに多くの損失を出す可能性があります。
同様に、最近Firefly AIツールを発表したAdobeは、ユーザーの過剰使用による企業の損失を防ぐために、ポイントシステムを迅速に導入しました。ユーザーが毎月割り当てられたポイントを超えると、Adobeはサービスの速度を低下させます。
注目すべきは、MicrosoftとAdobeが明確なビジネスシーンと多くの有料ユーザーを持っていることです。一方で、パラメータの規模が大きい大規模モデルの主な適用シーンは依然としてチャットです。
否定できないことは、OpenAIとChatGPTの登場がなければ、このAI革命は起こらなかったかもしれない。しかし現段階では、大規模モデルの訓練によって生み出される価値は依然として議論の余地がある。
同質化競争が激化し、オープンソースモデルが次々と登場する中で、単純な大規模モデルの供給者はより大きな生存圧力に直面する可能性があります。
iPhone 4の成功がそのA4プロセッサーだけに依存しているのではなく、さまざまな興味深いアプリケーションを実行できるからであるように、AIの真の価値はその具体的な応用シーンにもっと表れている可能性があります。