Skip to content

Instantly share code, notes, and snippets.

@koriym
Last active February 23, 2025 00:41
Show Gist options
  • Save koriym/1d520b28a9d0f31ef14c61cbe81db259 to your computer and use it in GitHub Desktop.
Save koriym/1d520b28a9d0f31ef14c61cbe81db259 to your computer and use it in GitHub Desktop.
The Madness of High-Flyer: The Approach to LLM by an AI Giant that Few See

DeekSeep創業者、梁文峰(Liang Wenfeng)のインタビュー記事2本Two interviews with the founder of DeepSeek の日本語翻訳です。


High-Flyerの狂気:ほとんど知られていないAI巨頭のLLMへのアプローチ

暗涌Waves (2023-05-23 22:50)

執筆:于丽丽
編集:刘旌
翻訳:Cosmia Nebula(英語→日本語訳:ChatGPT)


High-Flyer(九坤投資)は、大量に乱立する大規模モデル(LLM)開発競争の中でも、ひときわ異彩を放つ存在といえます。

大規模モデルの開発は、そもそも限られた一部の企業しか本格参戦できないゲームです。大手が続々と参入し、多くのスタートアップが方向転換や撤退を余儀なくされている中、High-Flyerはただ一社、独自の進軍を続けています。

今年5月、High-Flyerは大規模モデル専用の新会社として「DeepSeek(深度求索)」を立ち上げ、「真の人間レベルの人工知能」を目指すと強調しました。彼らが目指すのはChatGPTの単なる再現だけではなく、汎用人工知能(AGI)の謎を解き明かすことでもあります。

さらに、大規模モデルが希少な人材に極端に依存するトラックであるにもかかわらず、High-Flyerは「探究狂」のような人々を組織し、「人々の好奇心こそが最大の武器だ」と位置づけています。

量的運用(クオンツ)の世界において、High-Flyerは運用規模1000億元(約2兆円)を超える「トップファンド」の1社とされていますが、今回の生成系AIへの本格的な挑戦は、多くの人にとっては意外かつ劇的な動きでした。

国内クラウドベンダーによる高性能GPU供給不足が、中国のジェネレーティブAIにおける最も直接的な制約要因となっている今、財経メディア「财经十一人」によれば、中国で「1万枚以上のGPUを保有する企業」は5社にも満たないと見られています。Baiduなどのメガテックが思い浮かぶなか、それらに並んでリストされるのが、まさかの量的運用ファンド「High-Flyer」だったのです。(一般に、NVIDIA製A100を1万枚ほど揃えるのが、大規模モデルをゼロから学習させるための最低ラインだといわれています。)

実際には、High-Flyerはすでに長らく「隠れたAI巨頭」でした。2015年に創業し、2019年にはAI企業を立ち上げ、総投資額2億元(約40億円)で独自のスーパーコンピューター「Firefly I(萤火一号)」を構築し、合計1100枚のGPUを搭載。その2年後には投資額を10億元(約200億円)に増やし、約1万枚のNVIDIA A100を備える「Firefly II(萤火二号)」を完成させています。

つまり、計算資源(コンピュート)の面だけ見れば、High-Flyerは多くの巨大企業よりも早くChatGPTのようなモデルを自力で育成するための「チケット」を入手していたのです。

大規模モデルが要するのは膨大な計算力、アルゴリズム、そしてデータ。参入初期だけでも数千万元(数億円)単位が飛び、ひとたびトレーニングすれば1回1,000万元(数億円)規模のコストがかかるため、「小さな企業はそもそも継続困難」とも言われます。しかし困難にもかかわらず、High-Flyerはこの分野を非常に楽観視しており、創業者の梁文峰(リャン・ウェンフォン)氏はこう語ります――

「やるからには自分たちには充分な実力があるし、現時点でも最適な候補の一つだと確信している。」

こうした「突拍子もない」ほどの自信は、まずHigh-Flyer特有の成長過程に起因しています。

量的運用はもともと米国から輸入された手法で、中国のトップクラスのクオンツファンド創業チームは、概して欧米系のヘッジファンド出身者が多いです。その中で唯一、High-Flyerだけは「完全に地元メンバーが自力で立ち上げ、ここまで成長した」例外的存在といえます。

2015年の創業から6年後の2021年には、High-Flyerは運用規模1000億元に到達。「量化私募の四大天王(四大天花板)」の一角と呼ばれるようになりました。

アウトサイダーの道を歩んできたHigh-Flyerは常に「業界のかく乱者(spoiler)」のような存在。業界関係者によれば、

「High-Flyerの研究開発システムや商品、営業体制など、常識を外れた新しいアプローチを取る。」

あるトップ量的ファンドの創業者も、

「High-Flyerは、常に“正攻法”から外れたやり方で自分たちの望む道を突き進む。例えそれが従来の常識から見て型破りでも、彼らはそれを堂々と言い、やり遂げる。」

と評しています。

High-Flyer内部では、同社成功の要因として「可能性のある未経験者を集め、自由に挑戦できる組織体制と企業文化を作ること」を挙げています。これが大手プレイヤーがしのぎを削る大規模モデルの分野で、スタートアップが勝負する際の「秘訣」だと考えているのです。

そして、何より重要なのは創業者・梁文峰氏自身かもしれません。
浙江大学でAIを専攻していた頃(2008年当時)から、

「AIは必ずや世界を変える」

と固く信じ続け、その頃はまだ「妄信」扱いを受けてもおかしくありませんでした。
卒業後は周囲の同級生のように大企業のプログラマーになる道を選ばず、成都で安い賃貸に住みながら様々なAI応用分野に挑戦しては失敗を重ね、最終的に複雑極まる金融領域で勝機をつかみ、「High-Flyer」を創業したのです。

余談ですが、かつて彼が「深センの城中村で飛行機を作る」という“無茶な”プロジェクトに誘われたことがあったそうです。当時は冗談のような話だったそうですが、その友人は後にDJIを創業し、いまや時価総額100億ドルを超える企業へと成長しました。

本記事では、大規模モデル開発に避けて通れない「資金・人材・コンピュータ資源(計算力)」の話のみならず、「どんな組織設計がイノベーションを生むのか」「人々の“狂気”はどこまで持続できるのか」について、梁文峰氏本人にじっくり話を伺いました。

これは、創業以来10年以上“表舞台”に姿を見せなかった「テクノオタク肌」の創業者がメディアに応じた初めてのインタビューでもあります。

奇しくも4月11日にHigh-Flyerが大規模モデル参入を発表した際、フランスのヌーベルバーグ監督トリュフォーの若い映画制作者へのアドバイスを引用していました。

「とにかく狂おしいほど野心を抱け。そして狂おしいほど誠実であれ。」

(原文:中国語訳「务必要疯狂地怀抱雄心,且还要疯狂地真诚。」)

以下、インタビュー内容をお届けします。


Part 1: 研究と探究

「一番大事で困難なことをやる。」

暗涌Waves:先日、High-Flyerが大規模モデルに参入すると発表しました。量的ファンドがなぜこの分野に?
梁文峰:我々が手がける大規模モデルは、クオンツや金融とは直接関係しないので、新会社「DeepSeek」を立ち上げています。
High-Flyerメンバーの多くは元々AIに携わってきました。かつてはいろいろな応用分野に挑戦した末、金融という複雑な領域で大きく花開きました。次に挑むべき「最も難しいこと」は何だろう、と考えたときに「AGI」だという結論に至ったわけです。そういう意味では、「なぜやるのか」より「どうやってやるのか」が我々にとって自然な問いでした。

暗涌Waves:大規模モデルを自力でトレーニングするのか、それとも金融特化など垂直領域を狙うのか、どちらでしょう?
梁文峰:AGIを目指しています。LLM(大規模言語モデル)はAGIへのアプローチ上、必須のステップだと考えていますし、すでにAGIの初歩的特徴を備えていると思っています。まず言語モデルから始めて、ゆくゆくはビジョン(画像認識等)も扱うマルチモーダルへと拡張していきます。

暗涌Waves:大手の参入で、スタートアップが「汎用の大規模モデル」をやるのはもう厳しい、と諦めるケースも多いですが。
梁文峰:我々は当面、モデルをベースにアプリ開発などへ横展開するよりも、まずは大規模モデルそのものに注力する方針です。

暗涌Waves:大手の参入で市場が固まりつつある中、スタートアップが入り込む余地はあるのでしょうか?
梁文峰:現時点では、どの大手企業もスタートアップも「短期で圧倒的優位を築くのは難しい」という認識です。なぜなら、ChatGPTの先行事例があり、論文やコードも公開されているので、来年には大半のプレイヤーが自社LLMを持つようになるでしょう。
大手もスタートアップも、それぞれにチャンスがあります。たとえば金融や医療など特定分野(垂直領域)に特化した大規模モデルは、トレーニングに必要な業界データや実績が大手に有利に働きやすい。ですが、そうしたバーティカルな市場はニーズが分散し個別性も高いので、より小回りの利くスタートアップにもチャンスがあります。今後20年のどのタイミングからでも参入可能でしょう。
我々は自分たちの役割を明確にしています。「垂直領域」や「アプリケーション」には行かず、「研究と探究」に特化する、という立ち位置ですね。

暗涌Waves:なぜ「研究と探究」に重きを置くのでしょう?
梁文峰:やはり好奇心が大きいです。大局的には「人類の知性の本質」といった問いを突き詰めたい。人間の思考とは言語によって編み上げられるプロセスかもしれない。であれば、人間レベルのAGIは言語モデルから生まれるかもしれません。
より身近な例では、GPT-4にもまだ解明されていない点が多い。複製(再現)だけでなく、同時並行で研究・実験を進め、新しい知見を得たいのです。

暗涌Waves:しかし「研究」というのは、より多くのコスト負担を伴いますよね。
梁文峰:ええ。再現だけなら既存のオープンソースや論文を使って数回トレーニングするだけでも作れます。しかし研究は、さまざまな実験・比較を積み重ねる必要があり、コンピュートも人材も大きく必要になります。

暗涌Waves:研究資金はどこから?
梁文峰:High-Flyer(九坤投資)自体が十分な研究開発予算を持っています。それに加えてHigh-Flyerが毎年数億元単位で行っている社会貢献(慈善寄付)の一部をこちらに回すことも選択肢です。

暗涌Waves:大規模モデルの開発では、300億円〜1000億円単位の投資が必要だ、という声もあります。それをどう続けるのでしょう?
梁文峰:VC(ベンチャーキャピタル)などにも話を持ちかけていますが、彼らとしては出口戦略や短期の収益化を強く求める傾向があります。我々は「まず研究優先」という考えなので、VCのお金は得にくいかもしれません。
とはいえ、我々にはすでに大量のGPUやインフラ、それを運用できるエンジニアチームがあります。これはある意味、投資を半分は負担しているようなものです。

暗涌Waves:ビジネスモデルとしてはどんなプランを?
梁文峰:得られたトレーニング成果を大部分オープンにして、商用利用と組み合わせるモデルを想定しています。大企業や少人数の企業だけが独占するのではなく、もっと多くの人や、小規模アプリ開発者にも低コストで使えるようにしていきたい。

暗涌Waves:大手もモデルをクラウド経由で提供するサービスを出してきています。差別化はどうしますか?
梁文峰:大手のモデルは自社プラットフォームやエコシステムと強く連動する傾向がありますが、我々は「オープンさ」を重視します。

暗涌Waves:やはり、一般的な商業視点からすると「儲からないことを延々とやる」のは狂気に近いかと……。
梁文峰:たしかに純粋な商業論だけでは説明が難しいですね。OpenAIも初期の投資家たちはリターンというより、夢に賭けていましたから。
「やりたい」「できる」と確信している以上、今の我々こそがやる意義はあると考えています。


Part 2: 1万枚のGPUとそのコスト

「ワクワクすることはお金だけで測れない。」

暗涌Waves:ChatGPT関連のスタートアップではGPU不足が深刻ですが、High-Flyerは2021年にA100を1万枚確保している。なぜ?
梁文峰:徐々に積み上げてきたんです。2015年には数枚のカードから始まり、2019年に1000枚、そして1万枚へ。初期はクラウドIDCを借りていましたが、数百〜数千枚の単位になると対応が難しくなり、自前のデータセンターを建てることにしました。
外から見ると「そこに何か特別な事業ロジックがある」と思われるかもしれませんが、純粋に「好奇心」が大きいです。

暗涌Waves:どんな好奇心でしょう?
梁文峰:AIの可能性をどこまで拡張できるか、限界を確かめたいのです。外部の人にとってはChatGPTが大きなインパクトだったかもしれませんが、研究者にとっては2012年のAlexNetの衝撃が強烈でした。ニューラルネットワークが長らく下火だったところに、AlexNetが一気に転換点をもたらし、新しい時代を切り開いた。
そこから10年余り、技術的には常にアップデートされていますが、「モデル+データ+計算力」という基本フレームは変わりません。特に2020年にOpenAIがGPT-3を発表した時点で「巨大な計算力が重要だ」というのは誰の目にも明らかになりました。とはいえ2021年当時、それを真に理解して大規模投資をする人は多くありませんでした。

暗涌Waves:つまり2012年以降、一貫して「計算力」の拡充に注力してきたと。
梁文峰:そうですね。大規模な実験ができるなら、研究者としては一度小スケールで成功するとさらに大スケールで試したくなるものです。少しずつ、計画的にGPUを確保してきました。

暗涌Waves:多くの人は「量的運用だから、大量のGPUで株価予測モデルなどを回す」と思うかもしれません。
梁文峰:実際のところ、純粋にクオンツだけをやるなら数十枚のGPUでも十分です。むしろ金融以外の研究テーマを色々と並行していて、「金融マーケット全体を包括的に表現できるパラダイム」や「より根本的な原理」を探ったり、そこから他領域へ拡張できる手法はないか――そんなことを常に考えているんです。

暗涌Waves:かなりの資金が出ていきそうですが……。
梁文峰:ワクワクすることはお金だけでは測れません。たとえば家庭でピアノを買うような感覚で、必要なら買うし、そこに熱意を持つ人がいれば十分だと。

暗涌Waves:GPUは資産価値の下落(減価償却)も激しいですよね?
梁文峰:そこまで大きく下がるわけでもありません。NVIDIAのGPUはある意味「ハードカレンシー(資産価値が比較的落ちにくい)」みたいなところがあり、数年前の旧型カードでもまだ使われるケースが多い。実際、退役させても中古で売ればかなりの値段になります。だから大損というほどでもありません。

暗涌Waves:それでも電気代や保守費、人件費なども膨大では?
梁文峰:電気代や保守費はハードウェアコストの1%程度ですよ。人件費は安くはないですが、そこは未来への投資と捉えています。我々の一番の資産は「人」ですし、好奇心のあるエンジニアがここで研究できるのは大きな意義があります。

暗涌Waves:2021年にアジア太平洋地域でいち早くA100を大量導入したのはなぜ?
梁文峰:ずっと先行して新型カードのリサーチやテストをやっていました。クラウドベンダーの場合、顧客ニーズや利用形態がもっと細分化されがちで、大規模トレーニング向けに一気に導入するのは2022年以降、たとえば自動運転ベンチャーなどが大口で借りるようになってからです。大企業はどうしても事業ベースで検討するため、純粋研究のためだけに大規模GPUを用意するのは難しいのでしょう。

暗涌Waves:ではこの先、中国での「大規模モデル」競争はどうなりそうですか?
梁文峰:大手は当然優位ですが、商用成果に結びつかないと維持できません。大手は大きな社内調整が必要ですし、旧来の組織構造が足かせになるかもしれません。
一方、既存のAI系スタートアップも技術はありますが、いわゆる「旧世代のAIスタートアップ」が苦しんだように、「どうマネタイズするか」の壁にぶつかるでしょう。

暗涌Waves:量的運用ファンドがAIを看板にするのは「話題作り」では?という見方も。
梁文峰:しかし、うちは既に私募ファンドとして一般投資家から大きく集金するフェーズでもないんです。

暗涌Waves:AIに本気で取り組む人と、単にAIブームに乗って「バズ狙い」の人はどう見分ける?
梁文峰:本気の人はブーム前からいて、ブーム後も残る人です。彼らは「短期的にGPUを一時レンタル」ではなく、大規模に買ったり長期契約を結んだりします。


Part 3: イノベーションを本当に実現する方法

「イノベーションは上から仕組まれたり教え込まれたりするのではなく、自発的に生まれる。」

暗涌Waves:DeepSeekの採用状況はいかがですか?
梁文峰:初期のコアメンバーは揃いました。まだ人手が足りないので、当面はHigh-Flyerから何人か応援を出す予定です。昨年末(ChatGPT 3.5の盛り上がり)から採用活動を始めましたが、まだまだ必要ですね。

暗涌Waves:大規模モデルの人材は非常に希少で、海外のOpenAIやFacebook AI Researchの研究者などに声をかけるケースもあります。海外からヘッドハントするのでしょうか?
梁文峰:短期的成果を重視するなら既に実績のある即戦力を狙うのが合理的です。でも長期視点では「経験」より「基礎力・創造力・情熱」が大事。そう考えると、中国国内にも適任者はたくさんいます。

暗涌Waves:なぜ経験より基礎力・創造力・情熱を重視?
梁文峰:やり方を既に知っている人は「前例と同じ方法」を踏襲しがちですが、未経験者は試行錯誤し、そのプロセスで「今の環境に合った新しいやり方」を発見しやすい。
High-Flyerは「ポテンシャル重視」で採用してきました。コア技術者の多くは新卒や卒業1〜2年目くらいです。

暗涌Waves:確かにHigh-Flyerは元金融マンが少ないと聞きます。
梁文峰:創業者の私自身も金融経験はなかった。業界でもかなり異色です。理由は「能力を見るのであって、経験や肩書は二の次」だからです。
営業チームを例にとっても、主力2人は業界未経験者で、一人はドイツ製機械の対外貿易をやっていたし、もう一人は証券会社でバックエンドのプログラムを書いていた。でも今では、我々は業界でも珍しく「直販主体」で大きな規模を実現しています。

暗涌Waves:なぜ他社は真似しても成功しないのでしょう?
梁文峰:人材の採用方針だけ真似しても、組織文化やマネジメントの仕組みが伴わなければ機能しません。
たとえば営業なら、最初の1年はほぼ成果なしでした。でも我々の評価指標にはKPIがなく、いわゆるノルマ設定もしていません。

暗涌Waves:KPIやミッション目標がない?では、どのように成果を評価するのでしょう?
梁文峰:他社のように「何件契約していくら売り上げたか」ではなく、「どれだけ誠実に顧客と向き合い、信頼関係を築いたか」を重視します。そこが長期的には大きな差になってくる。
我々は「この人なら頼れる」と思えるかどうかを大切にし、短期的な数字は最優先ではありません。

暗涌Waves:人を選んだあとは、どうやって育成・成長させる?
梁文峰:重要な仕事を任せて、あまり干渉しない。自分で考え、自由に動いてもらいます。
会社のDNAはまねしづらいものです。「どうやってポテンシャルを見抜くか」「採用後、どう自由に成長させるか」など、どれも単純にコピーできません。

暗涌Waves:イノベーションが起きる組織を作るには何が必要ですか?
梁文峰:我々の結論としては「なるべく干渉や管理を減らすこと」です。自由な発想と試行錯誤の余地を与える。イノベーションは上から教えたり計画したりして生まれるものではなく、自然発生的に出てくるものだからです。

暗涌Waves:それだと方向性がバラバラになりませんか?
梁文峰:採用段階で価値観を共有できる人を選び、さらに「文化」自体が全員を同じ方向に導きます。
もちろん、形式的な「企業理念」を文書化して貼り出すようなことはしません。むしろそれが型にはめてしまい、イノベーションを阻害する。判断が必要な場面でリーダーや上長がどう意思決定するか。それが生の指針となり、文化を体現します。

暗涌Waves:大手には大手の強みがありますが、このAIブームで新興企業がチャンスを掴むと?
梁文峰:教科書的に言えば、今のスタートアップが抱える条件だけ見れば「やっていけない」となる。でも、市場や技術は常に変化します。真の決定要因は、変化に合わせて調整できるかどうか。
大手企業の多くは既存ビジネスや組織の慣性に縛られて動きづらい。新しい波が来たときには、新興勢力が台頭する余地が十分にあると思います。


Part 4: 本当の「狂気」

「イノベーションは本来、非効率でコストがかかり、ときに無駄も生じる。」

暗涌Waves:このプロジェクトで最もワクワクするのは?
梁文峰:自分たちの仮説が正しいかどうか、それを突き止める瞬間です。

暗涌Waves:今回の採用では「絶対に外せない要素」は?
梁文峰:情熱と基礎力。それ以外はそこまで重要ではありません。

暗涌Waves:そういう情熱を持った人材は簡単に見つかるものですか?
梁文峰:彼ら自身が「やりたい!」と燃えているので、むしろ彼らのほうからコンタクトしてくるケースも多い。

暗涌Waves:大規模モデルは底なし沼のように研究コストが膨れそうですが、そのリスクは?
梁文峰:イノベーションは本来、非効率でコストがかかり、ときに無駄も発生します。だからこそ、ある程度豊かな経済環境や資金力がないとできないし、イノベーション主導の企業だからこそ挑める。OpenAIも最初は莫大なお金を燃やしながら成果を出すまで数年かかりましたよね。

暗涌Waves:自分たちが「狂っている」と思うことはありますか?
梁文峰:正直、自分では分かりません。ただ、世の中には「論理では説明できないけどやらずにいられない行動」をする人たちがいるじゃないですか。プログラマーでも仕事で疲れて帰宅後にオープンソースにコードをコミットし続けたり。

暗涌Waves:そこには精神的な満足感がある?
梁文峰:ちょうど50kmの山道を踏破して、体はクタクタでも達成感を得るようなものですね。

暗涌Waves:その「好奇心に突き動かされる狂気」はずっと続くものでしょうか?
梁文峰:人によるでしょうが、少なくとも多くの人は若い時期に一度くらい、「純粋に好きで一心不乱に打ち込む」期間を持てると思います。そこに損得勘定は関係ありません。

DeepSeek Uncovered: The Story of a More Extreme Chinese Techno-Idealism

暗涌Waves (2024-07-17 02:01)

Written by于丽丽 Edited by 刘旌 Translated by Cosmia Nebula


DeepSeekの内情:より過激な「中国式テクノ・イデアリズム」の物語

暗涌Waves (2024-07-17 02:01)

執筆:于丽丽
編集:刘旌
翻訳:Cosmia Nebula(英語→日本語訳:ChatGPT)


中国における大規模モデル(LLM)スタートアップ7社のうち、DeepSeek(深度求索)は最も静かな存在と言われながらも、常に“サプライズ”をもたらす企業として認識されています。

1年前、量的ファンドHigh-Flyer(九坤投資)が大企業以外で唯一1万枚のA100チップを買い込んでいた事実が明らかになり驚きを呼びました。そして1年後、こんどはそのHigh-Flyerが生んだDeepSeekが中国の大規模モデル“価格破壊”を引き起こしたのです。

今年5月、AI関連ニュースがひしめく中、DeepSeekはオープンソースモデル「DeepSeek-V2」を公開しました。その特徴は“異次元のコストパフォーマンス”。推論(推論時の計算)コストが100万トークンあたりわずか1元(約20円)とされ、Llama3-70Bの約7分の1、GPT-4 Turboの約70分の1に相当するという大胆な数字でした。

この衝撃により、コミュニティではDeepSeekを「AI界のピンドゥオドゥオ(Pinduoduo/低価格路線で急成長したEC大手)」と呼ぶ声が上がりました。同時にByteDance(バイトダンス)、Tencent(テンセント)、Baidu(バイドゥ)、Alibaba(アリババ)などの大企業も対抗値下げに踏み切り、中国の大規模モデル価格競争が幕を開けたのです。

しかし、この“煙の立ちこめる”状況には実は一つの事実があります。それは、多くの大手企業が「値下げのために巨額の補助金を注ぎ込む」中、DeepSeekはすでに黒字化している、という点です。

その背景には、DeepSeekがモデルのアーキテクチャレベルで包括的なイノベーションを実行していることが挙げられます。同社は従来広く使われてきたMHA(multi-head attention)ではなく、新しいMLA(multiple latent attention)という構造を提案し、GPUのビデオメモリ(VRAM)使用量を従来の5~13%に圧縮。さらに独自の「DeepSeekMoE-Sparse」構造によって計算コストも削減し、結果として価格破壊的な低コストを実現したのです。

シリコンバレーでは、DeepSeekは「東洋から来たミステリアスな勢力」として注目されています。たとえばSemiAnalysisの主任アナリストは“DeepSeek V2の論文は今年最も情報とディテールが充実したもののひとつ”と述べ、元OpenAI社員のアンドリュー・カー(Andrew Carr)は「驚くべき知見に溢れた論文だ」と評し、自身のモデル構築時にそのトレーニング設定を応用したといいます(引用元不明)。さらにOpenAIの元政策責任者でありAnthropic共同創業者でもあるジャック・クラーク(Jack Clark)は「DeepSeekはCUDAを深く理解する“謎の魔術師”をどうにか雇うことに成功した」「電気自動車やドローン、その他の技術でそうであったように、AIモデルの世界でも“Made in China”が存在感を示すだろう」とコメントしています。

シリコンバレー主導になりがちなAIブームの中で、こうした評価は珍しいと言えます。国内外の複数のAI関係者によれば、DeepSeekがこれほど強い反応を得たのは「アーキテクチャレベルでの大幅な改変」という、国内大手も含めグローバルに見てもあまり例がない挑戦を成し遂げたからだとのことです。ある研究者は「Attention構造は提案以来ほとんど変えられることがなく、新しいアーキテクチャを大規模モデルで実機検証するような試みは誰も自信を持てない」という声を上げています。

さらに言えば、中国の大規模モデル企業がここまでアーキテクチャに深く手を入れなかった背景として、「0→1の技術的イノベーションはアメリカの得意分野で、中国は1→10の応用で勝負する」という通念があったのも一因でしょう。加えて「どうせ数ヶ月すればまた次の世代のモデルがアメリカで公開されるから、それを真似してアプリケーションで勝負すればいい」という発想も根強く、モデル構造に根本的に手を入れるのは「時間もコストもかかりすぎるし、採算がとれない」と考えられてきました。

DeepSeekは明らかにその“常識”に逆らう存在です。「大規模モデルの技術は最終的に同じ方向に収束する」という言説や「後追いこそ賢明な近道」という風潮の中で、DeepSeekはあえて遠回りをしてでも実験を重ね、「中国の大規模モデル開発者もグローバルの最先端イノベーションに加わるべきだ」と主張しているのです。

彼らの選択は多岐にわたって独特。現時点で国内大規模モデルスタートアップ7社のうち、唯一「モデルとアプリの両輪開発」を行っていません。研究と技術に特化し、コンシューマー向けの製品は作らず、完全オープンソースの道を堅持し、資金調達も行っていません。そのため大規模モデルのゲームではしばしば“忘れられる”存在になりがちですが、裏ではユーザーの口コミによって着実に評価を広げています。

DeepSeekとはいったいどのように生まれたのか。私たちは、あまり表に出ないDeepSeek創業者・梁文峰(リャン・ウェンフォン)氏に話を聞きました。

1980年代生まれのこの創業者は、High-Flyer時代から裏方で技術研究を続けており、DeepSeekになった今でも同じく毎日論文を読み、コードを書き、ディスカッションに参加する“研究者”のスタイルを貫いています。

量的ファンド創業者といえば、海外のヘッジファンド出身で物理学や数学の専攻という例が多いですが、彼は純粋に中国国内で育ち、浙江大学の電気工学系でAIを学んだというキャリアを持ちます。
複数の業界関係者やDeepSeek研究者によれば、梁氏は「インフラレベルのエンジニアリング」「モデル研究」「リソースを動員する経営力」のすべてを兼ね備えた、中国でも稀有な人材だと評されます。そして「経営トップでありながら現場の研究者以上に詳しいところがあり、かつ学習速度が“恐ろしい”ほど速い」「典型的な“ボス”というより“オタク”に近い」とも言われています。

本記事は、そんな「テクノ・イデアリスト」とも呼べる人物への貴重なインタビューです。彼は中国のテック業界では珍しく「真偽(True or False)をコスト・利益より優先する」という哲学を語り、「時代の惰性(inertia)」を見極め、オリジナルなイノベーションに目を向けようと説きます。

1年前、DeepSeekが始動した際に行ったインタビュー「The Madness of High-Flyer: The Approach to LLM by an AI Giant that Few See」で彼が掲げていた「Be insanely ambitious, and insanely sincere.(狂おしいほど野心を抱き、狂おしいほど誠実であれ)」という言葉は、もはや単なるスローガンではなく、すでに具体的な成果になりつつあります。

以下、インタビューをお届けします。


Part 1:いかにして「価格戦争」の第一弾は放たれたのか

暗涌Waves:DeepSeek V2がリリースされ、大規模モデルの熾烈な価格競争が巻き起こりました。一部では「業界のキャットフィッシュ(鯰/攪乱者)的存在だ」と言われていますが。

梁文峰:まさかそんな役割になるとは思っていませんでした。本意ではなく、結果的にそうなってしまった感じです。

暗涌Waves:こうなると予想していましたか?

梁文峰:正直、想定外でした。「価格」がこんなに人々を敏感にさせるとは思いませんでした。我々は自分たちのペースでやってきただけで、総コストを計算し、それに少し上乗せした程度の価格設定にしただけなんです。「赤字補填で安売りもしない、かといって暴利も取らない」という方針ですね。

暗涌Waves:リリースから5日後には智谱(Zhipu)AIが追随し、さらにByteDance、Alibaba、Baidu、Tencentと大手が続きました。

梁文峰:智谱AIはエントリーレベルのモデルを出していましたが、同クラスのモデル同士で比べれば、まだまだ彼らの方が高価ですよ。ByteDanceは初めて本格的に我々と同等レベルのモデルを同価格帯に合わせてきて、それが他社にも波及した形ですね。大手企業のモデルは我々に比べてコストが高いので、そもそも赤字覚悟の値下げになっているはずです。
彼らが“インターネット時代の常套手段”である「補助金で価格を下げ、ユーザーを奪う戦略」を展開してきたのは少し意外でした。

暗涌Waves:外から見ると、価格競争とは“ユーザーの囲い込み”を狙う構図にも見えます。

梁文峰:我々はユーザー獲得に走るというより、技術的にコストを下げられたから価格も下げただけです。APIなりAIサービスなり、「誰でも気軽に使えたほうがいい」という信念もあります。

暗涌Waves:それ以前は多くの中国企業が「Llamaの構造をコピーしてすぐアプリ開発に移る」という路線でした。なぜ最初からモデルアーキテクチャを作ったのですか?

梁文峰:アプリ開発だけが目的なら、Llamaをベースに短期間で製品化するのは合理的です。でも我々はAGI(汎用人工知能)を目指している。限られたリソースでモデルをより高性能化するには新しい構造が必要だし、“さらに大きなモデルを作るための基礎研究”としてもアーキテクチャの刷新は避けられません。また、トレーニング効率や推論コストの面で、Llamaのアーキテクチャはすでに最先端より2世代ほど遅れていると考えています。

暗涌Waves:その“2世代の差”というのは具体的にどういった部分ですか?

梁文峰:まずトレーニング効率ですね。モデル構造と学習手法の差で、同等性能を得るのに必要な計算量が国内外の最先端に比べて2倍になる。さらにデータ効率(同じ性能に達するのに必要な学習データ量)が2倍違うケースもあります。合わせて“計4倍”のコスト差が出る可能性があります。我々はそれを少しでも縮めようとしています。

暗涌Waves:多くの国内スタートアップは「モデル+応用」の二本柱を掲げていますが、DeepSeekはなぜ研究一本に振り切るのですか?

梁文峰:グローバルなイノベーションに中国としても参加すべきだと思うからです。これまでの中国企業は「欧米が技術の0→1を作り、それを1→10にアレンジして稼ぐ」というパターンでしたが、それが当たり前だとは思っていません。我々にとって大事なのは、このAIの大波を利用して金を稼ぐことより、世界最前線の技術革新に寄与し、エコシステム全体を進めることなのです。

暗涌Waves:インターネットやモバイルインターネット時代の成功体験から「アメリカが根幹技術、中国は応用」という見方が主流でした。

梁文峰:しかし中国が経済力をつけた今、単に「ただ乗り(free-rider)」を続けるのはもう限界があります。この30年のIT革命で起きた飛躍的進歩――たとえば18ヶ月ごとにハードウェア性能が2倍になる「ムーアの法則」――は欧米の技術コミュニティが長年積み上げてきた成果です。多くの中国企業はそれを空気のように享受してきたわけですが、実際には自分たちがそのイノベーションプロセスに一切参加してこなかった、という側面もあるんです。


Part 2:差は「1~2年」ではなく「オリジナルか模倣か」

暗涌Waves:DeepSeek V2がシリコンバレーをこれほど驚かせたのはなぜでしょう?

梁文峰:彼らにしてみれば、日常的にイノベーションは起こりますが、「中国企業がイノベーションの担い手として参入してきた」ことに意外性を感じたのでしょう。今までの中国企業はフォロワーに徹するケースが多かったですから。

暗涌Waves:もっと言えば、中国国内でも「大規模モデルは重投資なので、まず商業化を急ぐのが普通」という発想があります。イノベーションだけに集中できる企業は少ないですよね。

梁文峰:確かにイノベーションにはお金がかかるし、「とりあえず海外の最先端を真似しよう」という“拿来主义(ナライ主義:有用ならそのまま持ってくる)”的な発想があったのも事実。ただ今の中国は世界的に見ても大企業の利益水準が高く、資金力に不足はありません。むしろ「人材をどう組織して効率的にイノベーションを起こすか」というノウハウと自信が欠けている気がします。

暗涌Waves:大手でも資金が潤沢でも、なぜ短期商業化を優先する傾向が強いのでしょう?

梁文峰:30年にわたる急成長期で「稼ぐことがすべて」という空気感が蔓延していたからでしょう。イノベーションは必ずしもビジネスの論理だけで成立するものではなく、好奇心や創造性も必要ですが、中国企業は“過去の成功体験”に縛られている。でもこれは過渡期にすぎません。

暗涌Waves:DeepSeekは民間企業でありながら「研究成果をオープンソース化して利権を独占しない」方針ですよね。MLAなどの革新的アーキテクチャもすぐ真似されませんか?

梁文峰:破壊的技術の前では、クローズドソースで築く“堀(moat)”の寿命は短いものです。OpenAIがクローズドでも追随されるのは避けられない。だからこそ我々は“組織力”に価値を置いています。チームが成長し、ノウハウを蓄積し、イノベーションを生み続ける文化があれば、それが我々の最大の強みになる。
オープンソースや論文公開によって失うものはあまりありません。むしろ技術者にとっては“フォローされること”が大きなやりがいになるし、公開によってコミュニティにも貢献できます。企業としても、こうした“オープンカルチャー”を築ければ優秀な人材を惹きつけられます。

暗涌Waves:アリババ系投資家の朱啸虎(アレン・ジュ/Allen Zhu)のように「市場論至上」の人もいますが、どう思いますか?

梁文峰:彼は彼で自己一致しているし、「短期で稼ぐ」にはあのスタイルが合っているのでしょう。ただアメリカで最も大きな利益を上げているのは、長期的に積み重ねてきたハイテク企業という事実もあります。

暗涌Waves:大規模モデルでは“技術優位の維持は難しい”と言われる中、DeepSeekは何を見据えているのでしょう?

梁文峰:中国のAIが「ずっとフォロワーのまま」はあり得ない。よく“米国と中国では1~2年の差がある”と言われますが、真の差は「オリジナルか模倣か」です。そこで何も変わらなければ、いつまでも後追いだけ。だからこそ探索が必要なんです。
NVIDIAの優位性は一社の努力だけでなく、西側技術コミュニティと産業界全体の結晶です。彼らは次世代の技術ロードマップを明確に持っています。中国のAIも同様に“最先端を担うエコシステム”が要るのです。


Part 3:「投資額」が増えてもイノベーションが増えるわけではない

暗涌Waves:DeepSeekには創業期のOpenAIのような理想主義的雰囲気があります。でもOpenAIもMistralも、当初オープンソースだったのに徐々にクローズドに転じていますね。DeepSeekは同じ道を辿らないのでしょうか?

梁文峰:我々はクローズドに転じる気はありません。まずは強固な技術エコシステムを築くことが大事だと考えています。

暗涌Waves:資金調達の話は? High-FlyerがDeepSeekを分社化して上場するのではという噂もありますし、シリコンバレー系のAIスタートアップは最終的に大企業と組むケースが多いですが。

梁文峰:少なくとも短期的に資金調達は考えていません。我々が直面している課題はお金ではなく、ハイエンドチップ(GPUなど)の禁輸措置です。

暗涌Waves:AGI(汎用AI)とクオンツ(量的運用)は別物という印象があります。クオンツは目立たずに稼ぐイメージですが、AGIは巨額投資と派手なアライアンスが必要なのでは?

梁文峰:「投資が多い=イノベーションが生まれる」わけではありません。もしそうなら、大手企業がすべてを革新しているはずです。

暗涌Waves:アプリ開発をやらないのは「企業DNAとして得意ではないから」でしょうか?

梁文峰:現時点では「技術イノベーションの爆発期」であり、アプリの爆発期ではないと考えています。長期的には、我々の技術や成果物を産業界に直接使ってもらい、DeepSeekは基盤モデルや先端研究だけに集中し、他社がBtoBやBtoCの製品を作るエコシステムを目指しています。我々自身がアプリを作る必要がなくなるのが理想ですね。もちろん必要があれば作れる体制はありますが、あくまでも優先は研究と技術革新です。

暗涌Waves:ユーザーがAPIを選ぶ時、大手ではなくDeepSeekを選ぶ理由は?

梁文峰:将来の世界は、もっと専門分業が進むと思います。大手にも得手不得手がありますし、大規模モデルは常にイノベーションが必要ですから。

暗涌Waves:技術に“秘訣”がないとは言いつつ、やはり競合が真似しやすいのでは?

梁文峰:たしかに技術に絶対的秘密はありません。しかし、ゼロから追随するには時間やコストがかかります。理論上、NVIDIAのGPUも複製可能かもしれませんが、次世代に追いつくには大きな壁があるでしょう。それが実質的な“参入障壁”になっています。

暗涌Waves:ByteDanceがDeepSeekの値下げに真っ先に追随したのは、ある種の「脅威」を感じたからでは? スタートアップが大手と競うための“新解”が生まれたのではありませんか?

梁文峰:正直そこまで意識していません。我々は副次的なサービスとしてクラウドを提供しているだけで、主目的はAGIの実現です。
今のところ「新解」というほどのものは見えていません。ただ大手にも決定的優位はない。大企業はユーザーがすでにいますが、それは既存キャッシュフロー事業の“重荷”にもなるわけです。

暗涌Waves:DeepSeek以外の「大規模モデル7社」の今後はどうなりそうですか?

梁文峰:生き残るのは2~3社でしょう。今はどこも資金を燃やしている段階なので、自分たちの立ち位置を明確にし、オペレーションを洗練させている企業が生き残る可能性が高い。そうでない企業は、何らかの形で変容するでしょう。有用なものは霧散しないが、形を変えるものです。

暗涌Waves:High-Flyer時代から「自分は自分、他社は他社」とあまり競合を意識しない姿勢だったと聞きます。その競争観はどこから?

梁文峰:私は常に「社会全体の効率を高められるか」「産業の分業構造の中で自分が適切なポジションを見つけられるか」を考えます。最終的に社会が効率化するのであれば、形態がどうであれ“妥当”だと思うんです。過程における競争は一時的なもので、そこに注目しすぎると逆に視野を失います。


Part 4:「得体の知れない若者集団」の正体

暗涌Waves:OpenAI元政策責任者のジャック・クラークは「DeepSeekには“得体の知れない魔術師(wizard)”がいる」と言っていますが、V2を作り上げたのはどんな人たちなのでしょう?

梁文峰:実際はそんな大魔術師がいるわけではなく、今年卒業したばかりの学生や博士課程4~5年目の若手、卒業して数年の若手研究者が中心です。

暗涌Waves:大手の大規模モデル企業は海外から人材を積極的に引き抜いていますが、DeepSeekの主要メンバーは?

梁文峰:V2の開発には海外帰り(留学・就労経験者)はいません。トップクラスの人材が海外に多いのは事実ですが、我々は自前で育てればいい。

暗涌Waves:MLA(multiple latent attention)の発想はある若手研究者の個人的な興味から生まれたと聞きました。

梁文峰:Attention構造のバリエーションをまとめていた彼が、「じゃあ新しい構造を作れるかも」と思いついたのがきっかけ。ただ実際に大規模モデルで動かすまで数ヶ月かかっています。アイデアが見えた段階でチームを組織し、本格的に検証していきました。

暗涌Waves:こういう“突然のひらめき”は、まさにイノベーション特化型組織だからこそ起きると思います。AGIのような不確実性の高い最先端領域でも、トップダウンでの管理はあまりしていませんか?

梁文峰:DeepSeekも基本はボトムアップです。誰に何を割り当てるといった固定的なアサインはせず、各自が興味を持つテーマを自由に進める。問題が出れば自分でメンバーを呼び込み、協力を仰ぐ。アイデアに大きな可能性が見えた段階で経営側がリソースを下ろす、という流れですね。

暗涌Waves:聞くところによると、DeepSeekではチップ(GPU)や人材の割り当ても非常に柔軟とか。

梁文峰:そうですね。社員一人ひとりが「どれだけのGPUを使ってもいい」という感じで、承認フローがほぼありません。部署間の垣根もなく、他の人が興味を持ち参加しやすい仕組みです。

暗涌Waves:ここまで緩やかにやっていても機能するのは、「好きこそものの上手なれ」タイプの人材を採用しているからだと思います。従来の評価軸に捉われない人をどうやって見抜いているのでしょう?

梁文峰:基本的には「好奇心と情熱」が第一基準です。お金よりも研究が好き、という人が多いですね。

暗涌Waves:TransformerはGoogleの研究所で生まれ、ChatGPTはOpenAIから生まれたように、「大企業のAIラボ」と「スタートアップ」のどちらにも価値がありますよね。

梁文峰:そうです。実際にChatGPTがOpenAIから出てきたのは一種の歴史的偶然な面もあります。

暗涌Waves:イノベーションは“セレンディピティ(偶然の幸運)”によるところが大きい、という話を聞きます。あなた方のオフィスにある会議室の配置も、左右どちらからでも入れるようになっていて「偶発的な議論を促す」設計だと聞きました。まさにTransformerも「たまたま隣室の人が議論に加わり、アイデアが化学反応を起こした」逸話がありますが。

梁文峰:イノベーションはまず「やるんだ」という信念が先に必要だと思います。ChatGPTが出た直後、中国の投資家から大企業に至るまで「ギャップが大きすぎるから応用で勝負だ」と言われていましたが、やはり「最先端をやれる」という自信がなければイノベーションは始まりません。若い人ほどその自信を持ちやすいですね。

暗涌Waves:一方で、積極的に資金調達やパブリシティ活動をしている企業ほど多くの人と接点があり、人材も集まる印象ですが、DeepSeekはそれをあまりやっていないですよね?

梁文峰:我々は「世界で最も難しい課題を解こうとしている」ことが最大の人材吸引力だと考えています。中国ではハードコアなイノベーションの場が少なく、“真の優秀層”が活躍できる土壌が少ない。それが逆にDeepSeekの魅力になっているのではないでしょうか。

暗涌Waves:OpenAIが期待されていたGPT-5を出さず、「Scaling Law(モデルを大きくすれば性能が高まる法則)」にも疑念が出始めています。技術ペースが鈍化しているとの声もありますが、どう見ていますか?

梁文峰:我々は楽観的ですね。オープンAIは神ではないし、常に最前線に居続けられるわけでもないです。

暗涌Waves:DeepSeek V2の前にはコード生成や数理分野に強いモデルを出していました。さらにMoE(Mixture of Experts)ベースにも切り替えています。AGI実現までのロードマップ上、これらはどんな位置づけなのでしょう?

梁文峰:AGIの実現が2年先か5年先か10年先かは分かりませんが、いずれ自分たちの生きているうちに来ると信じています。社内でも意見はまとまっていませんが、今のところ「数学・コード」「マルチモーダル」「自然言語」それぞれに軸を置いています。
数学やコードは、囲碁のように“閉じられた検証可能システム”であり、自己学習だけでも高度な知能に到達しやすい。一方、マルチモーダルでリアルワールドに関わる知能もAGIには不可欠であり、我々はすべての可能性をオープンに見ています。

暗涌Waves:大規模モデルの最終的な姿はどうなると思いますか?

梁文峰:基礎モデルや基盤サービスを提供する専門企業があり、その上で多様なニーズを満たす周辺企業群が展開していく、という構造になると思います。


Part 5:「優等生」になるためのベストプラクティスは常に前世代の産物

暗涌Waves:この1年、中国の大規模モデル界隈では、Wang Huiwen(王慧文)氏が離脱したり、新規参入組の淘汰・分化が進んだりしています。

梁文峰:王慧文さんは、自腹を切って周囲を傷つけないように撤退した。自分が最も不利になる道を選んだわけで、器の大きさを感じます。

暗涌Waves:あなた自身は今、どこにエネルギーを注いでいますか?

梁文峰:次世代の大規模モデルですね。まだ解決していないことが山ほどあります。

暗涌Waves:他社スタートアップは「研究と応用を同時進行」しているところが多いです。技術のリードを早めに製品に転換しないとリードが永遠には続かない、という考え方もありますよね?

梁文峰:しかし“今のベストプラクティス”は過去の世代が生み出したもので、今後も通用するとは限りません。インターネットのビジネスモデルを使ってAIの将来の収益を語るのは、まるで騰訊(Tencent)の馬化騰(ポニー・マー)が創業した頃に、GEやコカ・コーラを引き合いに将来を予想するようなもの。過去の成功体験で次の時代を語るのは危ういです。

暗涌Waves:High-Flyerは“技術とイノベーション”をDNAとして掲げ、比較的スムーズに成長してきました。その実績があなたの楽観を支えているのでしょうか?

梁文峰:たしかにHigh-Flyerの経験は「技術ドリブンの革新は有効」という自信に繋がっていますが、最初から順風満帆だったわけではありません。2015年以前から取り組んでいたことも多い。外から見れば「2015年に急に出てきた」ように見えますが、実は16年も試行錯誤を続けています。

暗涌Waves:今、中国経済は低迷し、資本も冷え込み気味です。オリジナルなイノベーションにとって逆風になりませんか?

梁文峰:逆に「ハードコアな技術革新」による産業再編が進むと思います。過去に“楽にお金を稼げた”人たちも、「あれは運がよかっただけかもしれない」と気づいて、本格的に研究開発に向かう流れが出てくるはずです。

暗涌Waves:そこも楽観的なのですね。

梁文峰:私は80年代に広東省の五線級都市(地方の小都市)で育ちました。父は小学校教師。90年代の広東には“お金儲け”のチャンスが溢れていて、「勉強なんか役に立たない」と言いながらビジネスに出る人が多かった。でも今振り返ると、時代は一変し、タクシー運転ですら簡単には稼げない。その変化を1世代で経験しました。
今後は“ハードコアなイノベーション”が増えるでしょう。現時点では社会全体がまだ実感していない部分もありますが、実際に結果を出す人が現れれば世の中の意識も変わるはずです。要は“事実が積み上がるプロセス”が必要ということですね。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment