Ep.31 CVPR 2025 Best Paper Honorable Mentions : Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models cover art

Ep.31 CVPR 2025 Best Paper Honorable Mentions : Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

Ep.31 CVPR 2025 Best Paper Honorable Mentions : Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

Listen for free

View show details

About this listen

提示された文書は、最先端の視覚言語モデル(VLM)であるMolmoの紹介とその開発について詳述しています。現在のVLMの多くが独自のモデルであり、合成データに大きく依存しているという問題に対処するため、Molmoはオープンソースの重みとデータ、特に外部VLMを使用せずに収集されたPixMoデータセットを提供しています。このPixMoデータセットは、詳細な画像キャプション、自由形式の質問応答データ、および革新的な2Dポインティングデータで構成されています。Molmoは、その新規データセットと綿密な訓練パイプラインにより、学術的なベンチマークと人間による評価の両方で、同カテゴリーのオープンモデルを凌駕し、一部の独自のモデルをも上回る性能を示しています。この研究は、VLMの構築に関する基礎的な知識をオープンコミュニティにもたらすことを目的としています。

No reviews yet
In the spirit of reconciliation, Audible acknowledges the Traditional Custodians of country throughout Australia and their connections to land, sea and community. We pay our respect to their elders past and present and extend that respect to all Aboriginal and Torres Strait Islander peoples today.