Ep.694 Baidu、ERNIE-4.5-VL-28B-A3B-Thinkingを公開──“画像思考”が広げるマルチモーダルの地平(2025年11月13日配信)
Failed to add items
Add to basket failed.
Add to Wish List failed.
Remove from Wish List failed.
Follow podcast failed
Unfollow podcast failed
-
Narrated by:
-
By:
About this listen
本日11月11日、Baiduが多モーダル思考モデル「ERNIE-4.5-VL-28B-A3B-Thinking」をオープンソースで公開しました。総パラメータ28Bながら、推論時は3Bのみを動かすMoE設計で、画像と言語を行き来しながら考える“Thinking”系のふるまいを強化。公開告知は中国メディア経由でも相次ぎ、推論コストの抑制と開発者への開放を前面に打ち出しています。
今回の目玉は“画像思考”です。単に画像を説明するだけでなく、拡大・縮小で焦点を切り替え、その流れで画像検索などの外部ツールを呼び出して不足情報を補う——そんな一連の操作をモデル側が自律的に組み立てます。グラフの読み取りや細部識別、長尾のビジュアル知識に強みを出したい現場を意識した設計で、実例デモも「理解→検索→推論」の往復を前提に構成されています。
技術的な文脈を足します。ERNIE 4.5系はMoEで“活性パラメータ”を絞り、計算効率を稼ぐのが思想の中核です。Baiduの技術報告では、異種モダリティ間でのパラメータ共有と個別最適の両立がうたわれ、47B/3B活性のラインアップが示されてきました。今回の28B-A3B-Thinkingは、その系譜にある“軽量で回るVLの思考版”という位置づけと言えるでしょう。
配布面では、Hugging FaceのBaidu公式アカウントに当該モデルカードが並び、GitHubのPaddlePaddle/ERNIEでも情報が更新されています。READMEには、軽量VLモデルがQwen2.5-VLの7B/32B級と多くのベンチで競合する、Thinking/非Thinking両モード対応といった主張も記載があります(あくまで自己申告の比較である点は留意)。開発者にとっては、入手性と再現性の面でハードルがぐっと下がった格好です。
産業面で見ると、中国勢は2025年に入り“推論コスト×公開範囲”を武器に攻勢を強めています。Baiduは3月以降、ERNIE 4.5や推論志向のX1で地合いを作り、年内には次世代モデルの投入も予告されるなど、国内競争(DeepSeekや阿里系)の圧力を正面から受け止める構図です。今回の“画像思考×オープン化”は、検索、EC、教育といった画像が絡む日常用途での実利を前面に出し、コミュニティを巻き込む狙いが透けて見えます。
現場導入の観点では、まず“どこまでツールを任せるか”の線引きがポイントです。社内の画像検索やナレッジベースと安全に連携させ、拡大・検索・要約をモデルに委ねるワークフローを小さく始める——そんな始め方が現実的でしょう。推論コストを抑えたMoE構成はABテストや並列実行と相性が良く、業務時間内に“画像→判断資料”を回し切る運用に寄与します。最後に、モデル比較は自己ベンチの条件差に影響されやすいので、社内データでの再評価を前提に、評価軸(正確性・根拠提示・処理時間・コスト)を固定して見ることをおすすめします。