
Ep.594 DeepSeek V3.1 “Terminus”公開──多言語の安定化とエージェント強化で“使える”開源モデルへ(2025年9月25日配信)
Failed to add items
Add to basket failed.
Add to Wish List failed.
Remove from Wish List failed.
Follow podcast failed
Unfollow podcast failed
-
Narrated by:
-
By:
About this listen
9月23日、DeepSeekがV3.1の改良版「DeepSeek-V3.1-Terminus」を公開しました。位置づけは“サービスパック”で、英中が混ざるなどの表記ゆれを抑え、エージェント機能ではSearch/Codeの挙動を磨き込んだ――と公式モデルカードが説明しています。実際のベンチでは、BrowseCompが30.0→38.5に伸長、SWE Verifiedは66.0→68.4へ。いっぽうで中国語ブラウズのBrowseComp-zhは49.2→45.0と軽微な後退、Codeforcesのコンテスト指標も2091→2046とわずかに低下という“現場調整の跡”も併記されました。重い推論そのものは据え置きつつ、“道具を使う仕事”の信頼性を上げた格好です。
Hugging Face
配布は“即・実務向け”の設計です。Hugging FaceではMITライセンスで重みが公開され、同カード上で「V3.1→Terminusはユーザー指摘の修正と安定化を図ったアップデート」と明記。構造はV3と同一で、運用や推論コードは既存資産を流用できます。API側もApp/Web/APIで順次使えると開発者向けニュースに記され、OpenRouterでもTerminusの提供が始まっています。
背景の土台はV3系のMoEです。総671Bパラメータのうち約37Bをトークンごとに動かす設計で、大規模ながら“燃費”を確保するのが持ち味。V3.1世代では1モデルでThinking/Non-Thinkingを切り替えられ、Terminusはこの運用にそのまま乗るため、重めの長考も軽い短答も一枚で扱えます。
産業面の意味合いをひと言でいえば、「開源×実務の足腰がさらに固まった」。価格破壊で脚光を浴びたDeepSeekは、今年前半のV3アップグレードを経て、いまは“検索・コード・端末操作”といったエージェント系の実用度を上げる段階に入っています。各社モデルが競う中でも、オープンな重みとMITライセンス、そしてブラウズやツール接続の強化は、RAGや社内FAQ、開発支援ボットの“日常運用”に効く要素です。
現場の使いどころとしては、まずはRAGや社内調査でTerminusを既存V3.1の置き換えに当て、BrowseComp系の改善が効く領域(検索→要約→根拠提示)を優先導入するのが現実的です。対話はNon-Thinkingで軽く回し、詰めの検証や根拠組み立てはThinkingに切替える――そんな“可変思考”の運用がしやすくなります。逆に、競技プログラミングのような純粋推論の一部は従来比で伸びが限定的という前提を置き、評価とロールアウトを切り分けて進めるのが安全策でしょう。