Ep.689 Kimi K2 Thinking──“考えるエージェント”は何が新しいのか(2025年11月13日配信) cover art

Ep.689 Kimi K2 Thinking──“考えるエージェント”は何が新しいのか(2025年11月13日配信)

Ep.689 Kimi K2 Thinking──“考えるエージェント”は何が新しいのか(2025年11月13日配信)

Listen for free

View show details

About this listen

11月6日、Moonshot AIが「Kimi K2 Thinking」を発表しました。1兆パラメータ級のMoEで32Bのみを活性化しつつ、推論の途中で検索や実行環境を呼び出す“思考とツールのインタリーブ”を前提に設計された、いわば「長丁場に強いエージェント」です。特徴は三つ。第一に、ネイティブINT4で推論を回し、低遅延と省メモリを両立。第二に、256Kトークンの長大コンテキスト。第三に、200〜300回規模の連続ツール呼び出しでも目標整合性を保つ安定性です。これらはMoonshotが公開したモデルカードで明確にうたわれています。


性能面では、K2 Thinkingは推論・探索・コーディングの“実務寄りベンチ”で強さを示しました。たとえばHLEのツールあり設定で44.9%、BrowseCompで60.2%と報告し、K2以前の多くの公開モデルを上回る指標を複数提示しています。SWE-benchのような実コード課題でも、ツール前提の検証で70%超に達する指標が並びました。もっとも、これらは同社定義の評価条件(温度設定や思考トークン上限、INT4前提など)に基づく公表値であり、一般向けチャットUIではベンチ構成を簡略化しているため数値が再現しない場合がある、との但し書きも添えられています。


基盤となるK2の設計思想は、計算量の“使いどころ”を見極めるアーキテクチャです。K2は384のエキスパートを抱える1.04兆パラメータのMoEで、推論時は32Bを選択活性。注意機構にはMLAを採用し、学習は15.5兆トークン規模。MuonClip(Muon×QK-Clip)で損失スパイクなく大規模学習を走らせた、と技術報告は述べています。K2 Thinkingはこの土台に“思考×ツール”の訓練を重ね、長期計画・自己批評・検証のループを設計に埋め込みました。


産業的な意味合いも見ておきましょう。MoonshotはK2/K2 Thinkingを改変MITライセンスで公開しつつ、APIでも提供する“二面作戦”で開発者の裾野を広げています。中国勢は2025年にかけてオープン戦略を加速しており、K2のオープン化はその文脈で国際的な存在感を取り戻す狙いも読み取れます。閉じた最前線モデルと比べても、推論・エージェント系タスクでは“場面次第で互角以上”の数字を出し始めたことで、企業は「コスト×性能×運用自由度」の再評価を迫られそうです。


最後に使いどころです。長文の比較検証や資料作成、調査→要約→根拠リンク提示までの“手続きが長い仕事”はK2 Thinkingの得意領域です。内部で思考ログ(reasoning_content)を併走させ、必要なときだけ関数や検索を挿入するため、過程の可視化と検証がしやすい。一方で、評価値はツール構成や温度、出力長上限に敏感です。自社運用ではvLLMやSGLangなど推奨エンジンを使い、ワークフロー単位でプロンプトとツール設計を固定化することが、公開値に近い安定性を出す近道になります。

No reviews yet
In the spirit of reconciliation, Audible acknowledges the Traditional Custodians of country throughout Australia and their connections to land, sea and community. We pay our respect to their elders past and present and extend that respect to all Aboriginal and Torres Strait Islander peoples today.