はてなまとめ - スマホカメラから実世界の3D空間を理解するLLM「SpatialLM」、静止画像を3Dビデオに変換する「Stable Virtual Camera」など生成AI技術5つを解説（生成AIウィークリー）

1: Seamless 2025/03/30 09:02

単眼カメラに映るソファやドアなどをタグ名付きのバウンディングボックスで出力するLLM「SpatialLM」

2: laislanopira 2025/03/30 10:34

これで実用化できそうなのは、当面はネットに流す用のニセ動画くらいかなあ

3: beerbeerkun 2025/03/30 10:43

自宅を舞台にしたホラーゲームとかも可能になるってことか

4: ayakohiroe 2025/03/30 11:12

“Audio Overviewはドキュメント、スライド、Deep Researchレポートをポッドキャスト形式の音声ディスカッションに変換する機能です。2人のAIホストが資料を要約し、トピック間のつながりを説明しながら活発な議論を展開"

5: hhungry 2025/03/30 12:12

GPT4oの画像生成も似たような能力持ってるよね

6: ys0000 2025/03/30 17:17

画像の部分(マルチモーダル)を推してるのにLLM(言語モデル)と呼称するのもなんかイマイチ。別の用語を作るべきではなかろうか／画像解析能力が高そう。オブジェクトにしてくれる機能まで来たら嬉しいなぁ。

7: harumomo2006 2025/03/30 18:53

セカイカメラくる？

8: napsucks 2025/03/30 21:06

テスラが突っ込んだあのシーンを食わせてみよう

9: rgfx 2025/04/01 00:02

ここらへんのモデルで単眼GaussianSplatな3Dスキャンの精度を強化して欲しいという気持ちがあるScaniverse民

スマホカメラから実世界の3D空間を理解するLLM「SpatialLM」、静止画像を3Dビデオに変換する「Stable Virtual Camera」など生成AI技術5つを解説（生成AIウィークリー） | テクノエッジ TechnoEdge