単眼カメラに映るソファやドアなどをタグ名付きのバウンディングボックスで出力するLLM「SpatialLM」
これで実用化できそうなのは、当面はネットに流す用のニセ動画くらいかなあ
自宅を舞台にしたホラーゲームとかも可能になるってことか
“Audio Overviewはドキュメント、スライド、Deep Researchレポートをポッドキャスト形式の音声ディスカッションに変換する機能です。2人のAIホストが資料を要約し、トピック間のつながりを説明しながら活発な議論を展開"
GPT4oの画像生成も似たような能力持ってるよね
画像の部分(マルチモーダル)を推してるのにLLM(言語モデル)と呼称するのもなんかイマイチ。別の用語を作るべきではなかろうか/画像解析能力が高そう。オブジェクトにしてくれる機能まで来たら嬉しいなぁ。
セカイカメラくる?
テスラが突っ込んだあのシーンを食わせてみよう
ここらへんのモデルで単眼GaussianSplatな3Dスキャンの精度を強化して欲しいという気持ちがあるScaniverse民
スマホカメラから実世界の3D空間を理解するLLM「SpatialLM」、静止画像を3Dビデオに変換する「Stable Virtual Camera」など生成AI技術5つを解説(生成AIウィークリー) | テクノエッジ TechnoEdge
単眼カメラに映るソファやドアなどをタグ名付きのバウンディングボックスで出力するLLM「SpatialLM」
これで実用化できそうなのは、当面はネットに流す用のニセ動画くらいかなあ
自宅を舞台にしたホラーゲームとかも可能になるってことか
“Audio Overviewはドキュメント、スライド、Deep Researchレポートをポッドキャスト形式の音声ディスカッションに変換する機能です。2人のAIホストが資料を要約し、トピック間のつながりを説明しながら活発な議論を展開"
GPT4oの画像生成も似たような能力持ってるよね
画像の部分(マルチモーダル)を推してるのにLLM(言語モデル)と呼称するのもなんかイマイチ。別の用語を作るべきではなかろうか/画像解析能力が高そう。オブジェクトにしてくれる機能まで来たら嬉しいなぁ。
セカイカメラくる?
テスラが突っ込んだあのシーンを食わせてみよう
ここらへんのモデルで単眼GaussianSplatな3Dスキャンの精度を強化して欲しいという気持ちがあるScaniverse民