Ep.694 Baidu、ERNIE-4.5-VL-28B-A3B-Thinkingを公開──“画像思考”が広げるマルチモーダルの地平(2025年11月13日配信) cover art

Ep.694 Baidu、ERNIE-4.5-VL-28B-A3B-Thinkingを公開──“画像思考”が広げるマルチモーダルの地平(2025年11月13日配信)

Ep.694 Baidu、ERNIE-4.5-VL-28B-A3B-Thinkingを公開──“画像思考”が広げるマルチモーダルの地平(2025年11月13日配信)

Listen for free

View show details

About this listen

本日11月11日、Baiduが多モーダル思考モデル「ERNIE-4.5-VL-28B-A3B-Thinking」をオープンソースで公開しました。総パラメータ28Bながら、推論時は3Bのみを動かすMoE設計で、画像と言語を行き来しながら考える“Thinking”系のふるまいを強化。公開告知は中国メディア経由でも相次ぎ、推論コストの抑制と開発者への開放を前面に打ち出しています。


今回の目玉は“画像思考”です。単に画像を説明するだけでなく、拡大・縮小で焦点を切り替え、その流れで画像検索などの外部ツールを呼び出して不足情報を補う——そんな一連の操作をモデル側が自律的に組み立てます。グラフの読み取りや細部識別、長尾のビジュアル知識に強みを出したい現場を意識した設計で、実例デモも「理解→検索→推論」の往復を前提に構成されています。


技術的な文脈を足します。ERNIE 4.5系はMoEで“活性パラメータ”を絞り、計算効率を稼ぐのが思想の中核です。Baiduの技術報告では、異種モダリティ間でのパラメータ共有と個別最適の両立がうたわれ、47B/3B活性のラインアップが示されてきました。今回の28B-A3B-Thinkingは、その系譜にある“軽量で回るVLの思考版”という位置づけと言えるでしょう。


配布面では、Hugging FaceのBaidu公式アカウントに当該モデルカードが並び、GitHubのPaddlePaddle/ERNIEでも情報が更新されています。READMEには、軽量VLモデルがQwen2.5-VLの7B/32B級と多くのベンチで競合する、Thinking/非Thinking両モード対応といった主張も記載があります(あくまで自己申告の比較である点は留意)。開発者にとっては、入手性と再現性の面でハードルがぐっと下がった格好です。


産業面で見ると、中国勢は2025年に入り“推論コスト×公開範囲”を武器に攻勢を強めています。Baiduは3月以降、ERNIE 4.5や推論志向のX1で地合いを作り、年内には次世代モデルの投入も予告されるなど、国内競争(DeepSeekや阿里系)の圧力を正面から受け止める構図です。今回の“画像思考×オープン化”は、検索、EC、教育といった画像が絡む日常用途での実利を前面に出し、コミュニティを巻き込む狙いが透けて見えます。


現場導入の観点では、まず“どこまでツールを任せるか”の線引きがポイントです。社内の画像検索やナレッジベースと安全に連携させ、拡大・検索・要約をモデルに委ねるワークフローを小さく始める——そんな始め方が現実的でしょう。推論コストを抑えたMoE構成はABテストや並列実行と相性が良く、業務時間内に“画像→判断資料”を回し切る運用に寄与します。最後に、モデル比較は自己ベンチの条件差に影響されやすいので、社内データでの再評価を前提に、評価軸(正確性・根拠提示・処理時間・コスト)を固定して見ることをおすすめします。

No reviews yet
In the spirit of reconciliation, Audible acknowledges the Traditional Custodians of country throughout Australia and their connections to land, sea and community. We pay our respect to their elders past and present and extend that respect to all Aboriginal and Torres Strait Islander peoples today.