要約 | 多視点画像認識は、物体操作、移動ロボット サービス、ナビゲーション ロボットなどのロボティクス アプリケーションで弱い視点を残さないようにするためのソリューションの 1 つです。たとえば、家庭内の移動ロボットは、家事を行うために、与えられた画像でオブジェクトのカテゴリと姿勢を判断する必要があります。この論文では、数式駆動型教師あり学習 (FDSL) に基づく自動マルチビュー データセット構築の方法を提案しています。 3D オブジェクトのデータ収集と人間による注釈付けは明らかに労働集約的ですが、提案されたマルチビュー データセットで 3D モデル、マルチビュー画像、およびそれらのトレーニング ラベルを同時に自動的に生成します。大規模なマルチビュー データセットを作成するために、現実世界の多くのオブジェクトの背景情報と見なされるフラクタル ジオメトリを使用します。この現実世界の背景知識により、畳み込みニューラル ネットワーク (CNN) は、任意のビューの画像認識に関してより優れた表現を取得できるようになると期待されています。レンダリングされた 3D フラクタル モデルから円形に投影して、マルチビュー フラクタル データベース (MV-FractalDB) を構築します。これを使用して、事前にトレーニングされた CNN モデルを作成し、マルチビュー画像認識の問題を改善します。データセットの構築は自動であるため、当社の MV-FractalDB を使用する場合、事前トレーニング段階で 3D モデルの定義や追加の手動注釈は必要ありません。実験結果によると、MV-FractalDB の事前トレーニング済みモデルは、自己教師ありメソッド (SimCLR や MoCo など) の精度を上回り、パフォーマンス レートの点で教師ありメソッド (ImageNet 事前トレーニング済みモデルなど) に近いです。マルチビュー画像データセット。また、MV-FractalDB の事前トレーニング済みモデルは、ModelNet40 データセットの ImageNet 事前トレーニング済みモデルよりも収束速度が優れていることが確認されました。さらに、FDSL を使用した多視点画像認識の可能性を示します。 |