
Ep.592 Qwen3-Omni登場──“聞く・見る・話す”を一体化したオムニモデルの本命(2025年9月25日配信)
Failed to add items
Add to basket failed.
Add to Wish List failed.
Remove from Wish List failed.
Follow podcast failed
Unfollow podcast failed
-
Narrated by:
-
By:
About this listen
Qwenが“オムニ”を名乗る新基盤「Qwen3-Omni」を公開しました。最大の特徴は、聞く(ASR・音声理解)・見る(画像/動画理解)・話す(リアルタイムTTS)までを一枚のモデルで直結し、会話のターン取りまで自然にこなす点です。GitHubの技術ページによれば、Omniは119のテキスト言語、19の音声入力言語、10の音声出力言語をサポート。音声/音声–映像のベンチ36種中32でオープンソースSOTA、22でSOTAを獲得し、ASRやボイス会話はGemini 2.5 Proと同等級の性能に達したと整理しています。
設計面の肝はMoEベースの“Thinker–Talker”。重い推論はThinkerに寄せ、返答音声の生成はTalker側の多コードブック表現で極小レイテンシ化。これに、テキスト先行の事前学習(AuT)と混合モーダルトレーニングを重ねることで、音声や映像に強くなっても、テキストと画像の単独性能が落ちない“底の強さ”を保ったといいます。加えて、30B級のOmniには“Captioner”派生もあり、音源の微細描写に長けた音声キャプショニングをオープン提供してコミュニティの穴を埋める狙いも見えます。
実装の足場も整っています。ローカル実行はTransformers/vLLMやDocker手順が用意され、リアルタイムAPIやオフラインAPIも案内。Cookbookでは、音声認識・歌詞起こし・音声翻訳・音楽解析・動画記述・音声関数呼び出しなどの実行ログが公開され、開発者がプロンプト設計や運用設定をそのまま移植できる構成です。
現場での効きどころは三つです。第一に、音声エージェントの“会話らしさ”。低遅延TTSとマルチ言語ASRで、問い合わせ→即応答の往復が短くなります。第二に、動画×音声の同時理解。作業手順動画を見せながら口頭で質問する等、“手がふさがる現場”での支援が現実味を帯びます。第三に、運用の一体化。ASR/翻訳/TTS/視覚理解を個別モデルで積み木する代わりに、Omniでワンパス化することで遅延と統合コストを削れます。GitHubの評価表が示すとおり、テキスト・画像の基礎体力を落とさずに音声・映像の頭を伸ばしたバランスが、企業導入の“総合点”を引き上げるはずです。
一方の留意点。Omniの強みは“統合”にありますが、現実運用ではデータ境界や監査要件に応じてAPI/オンプレを使い分ける設計が必要です。また、SOTA主張は一次資料ベースの相対評価で、ユースケース適合の最終判断は自社データでのA/B検証が不可欠。とはいえ、公開CookbookとリアルタイムAPIの組み合わせは、検証→PoC→本番の“動線”を明らかに短くしてくれます。