画像から深度情報を、高度に推定できる新モデル「Marigold」

一つの画像から画像の深度を推定するために、既に訓練済みの「Stable Diffusion」のモデルを使って、深度推定を行う新しい手法が、今回紹介する「Marigold」です。

Stable Diffusion VAEを利用し精度を向上

「Marigold」では、Stable Diffusion VAEで潜在空間にエンコードし、U-Netをファインチューニングして深度の推論を最適化しているとのことです。

深度推定においては、既存の最先端技術である「LeRes」と比較しても特定のケースでは20%以上の性能向上が見込まれたということです。実際デモを利用して深度データを抽出してみました。

ビジネスへの展開

深度推定が正しくできることで、自動運転車、ロボティクス、仮想現実などの分野で活用できる可能性があります。また、深度情報を活かして、画像から深度を推定、3Dデータ化するなどの展開も期待できます。

「Marigold」のまとめ

・特定ケースではあるが既存技術から20%ほど精度が向上
・未知の内容やレイアウトを含む画像に対する難しい
・実世界データへの適用には限界がある

関連リンク

Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

Project
https://marigoldmonodepth.github.io/

Paper
https://arxiv.org/abs/2312.02145

GitHub
https://github.com/prs-eth/marigold

Demo
https://huggingface.co/spaces/toshas/marigold