【ボリュメトリックキャプチャ・点群データ処理・デプスライブストリーミング】

23.4.2020

ボリュメトリックキャプチャ・点群データ処理・デプスライブストリーミング


Pocket

カディンチェ株式会社では、Depthセンサを活用した、各種開発を行っています。Depthセンサを利用することで、画像と3Dデータを同時に取得することができ、従来よりも幅広い表現が可能になることから、単体のDepthセンサの処理だけでなく、複数台の同期処理や、デプスライブストリーミングの開発を行っています。

点群データ処理・デプスライブストリーミング概要

Depth(深度)センサー

2020年現在では、マイクロソフトから発売されているAzure Kinect DK(以下の写真)を使用することが多くなっておりますが、これは、コンピューターによる先進的な視覚モデルや音声モデルを実現するための開発者キットとAIセンサーの組み合わせです。深度センサーと空間マイク アレイ、ビデオ カメラ、方位センサーが1つにまとまっており、複数のモード、オプション、SDK を備えています。過去には以下のようなセンサも利用しておりました。
Intel RealSense デプスカメラ D415Intel RealSense デプスカメラ D435Stereolabs ZED Stereo CameraStereolabs ZED Mini Stereo CameraASUS Xtion2

デプスカメラ(深度センサー)方式比較

2020年現在数万円で購入できるデプスカメラの方式をまとめました。それぞれのキーワードについての簡単な解説は以下のとおりです。
1, Active IR Stereo :赤外光を投影して、カメラで撮影して、投影パターンと撮影パターンの比較で距離計測を行う手法。比較対象としてはPassive Stereoがあり、これは視差のある2台のカメラ間画像比較で距離を計測する。
2, ToF:Time of Flight、光源から照射した光が、被写体に反射して、カメラまで戻ってくる時間を計測する手法。
3, LiDAR: Light Detection and Ranging、レーザー光を照射し、被写体に反射し、カメラまで戻ってくる時間を計測する手法。比較対象としてはレーダーがあるが、レーダーは電波を用いている。これらは自動運転用にもよく用いられてる。
4, Global Shutter: 全画素同時に読み出す方式がGlobalで、画素を順次読み出す方式がRolling Shutter。動体を撮る場合は、Rolling Shutterだと最初と最後の画素が違う時間のものになってしまう恐れがある。

複数台の3D Depthセンサの同期処理

単体のDepthセンサでは、人の動きを取得しようとした場合、手が前にあると、後ろの体部分の3D情報は取得できない、という問題がありました。そのため、複数台のDepthセンサを配置し、同期して情報を取得することで、手の後ろなど、1台だけでは影が出来てしまう場合でも、他のDepthセンサの情報を組み合わせることで、3D情報の取得を行うシステムの開発を行っています。

ファイルフォーマット:MPEG MIV等

このような3次元点群のデータでは、時間毎にテクスチャと奥行き情報が必要になるため、従来の静止画・動画の圧縮方法やファイルフォーマットでは非効率です。たとえば、4DViews社は独自の4DSというフォーマットにてUnity3DやUnreal Engineで開けるサンプルを公開してます。また、よりオープンな規格としては、PLY等の3Dスキャナからの3次元データを格納するために設計されたファイル形式もあります。MPEGでもMPEG Metadata for Immeresive Video Formatとして、新たなフォーマットを策定中のようです。

3D Depthライブストリーミング

現在、動画の配信にはいくつかのプロトコルが利用されています。その中でも、HTTPを利用したストリーミングプロトコルの利用が増えており、HTTP Live Streaming(以下HLS)が、Youtube等、大規模配信のプトロコルとして利用されています。しかし、Depth情報を組み合わせた動画の配信方法はまだ一般的には確立されていません。そこで、現在、配信で一般的に利用されている、HLSを利用した、3D Depth LiveStreamingを開発しました。一般的なHLSを利用していることから、配信サーバーは既存の仕組みを利用したままで、配信ソフトウェアと視聴アプリを3D Depth情報に対応させることで、3D Depth LiveStreamingを手軽に行うことが可能です。

VRやMRのヘッドマウントディスプレイやスマホやタブレットのAR機能で表示

視聴環境としては、Oculus RiftやHTC VIVEのようなVR用ヘッドマウントディスプレイや、HololensのようなARゴーグルで、3D映像の視聴が可能です。これまでは平面で視聴していた、講演や音楽ライブ、スポーツ等の映像コンテンツが、3D映像で視聴することで、立体的な映像として、自由な視点からの視聴が可能となります。現在は1台のDepthセンサでの配信ですが、複数台のDepthセンサを組み合わせた情報のライブ配信にも取り組んでいきます。また、HLS以外にもWebSocketを活用した3D Depth情報のリアルタイムライブストリーミングの開発も行っています。

点群データ処理・デプスライブストリーミングに関する先行事例

Microsoft Research: Holoportation

マイクロソフトはHololensを製品化する前後から、その技術を使って人間のボリュメトリックキャプチャをリアルタイムに行い、遠隔地に伝送するHoloportationと呼ばれる技術を発表していましいた。そのマイクロソフトがHololens 2を使用したプロトタイプのデモ動画を公開しています。デプスライブストリーミング技術やそれらを見るためのデバイスが整備されてくると、遠隔にいる人、アスリート、ミュージシャン、芸人の形状や動きを3次元で見られるようになります。

Intel Studio: How volumetric video brings a new dimension to filmmaking

Realsenseなどのデプスセンサーを開発・販売してるインテルは、イスラエルの自由視点映像作成スタートアップであったReplay Technologiesを買収し、現在ではそのチームがIntel Studiosとして活動しています。そのIntel Studiosでは、ボリュメトリック動画を映画等のフィルムメイキングでの活用を目指して研究開発が進んでいます。

ソニー: ボリュメトリックキャプチャ

ソニーも複数台のカメラを用いて空間や人物を3次元的に取り込むボリュメトリックキャプチャの研究開発を行っており、そのデモ動画は以下のようになっております。

Social Medias

Support our social medias, will you.