Estimation of 3D object pose for packing problem with a deep learning approach
Citas bibliográficas
Enlace de Referencia
Autores
Director
Autor corporativo
Recolector de datos
Otros/Desconocido
Director audiovisual
Editor/Compilador
Fecha
Resumen
Este paper presenta una aproximación de deep learning a la estimación de pose de cajas en un contexto de empaquetamiento. Dividimos el problema en dos etapas: detección y estimación de pose. Cada etapa es desarrollada por una red neuronal convolucional. La primera red detecta si una imagen en escala de grises contiene o no una caja. La segunda red predice la posición de cada vértice del cubo dentro del plano de la imagen. Con esta información, el canal de profundidad y el modelo de cámara estenopeica podemos estimar la posición del centro de masa y la orientación de la caja. Entrenamos y probamos ambas redes con datos sintéticos generados a partir de una escena virtual. Para el problema de detección, obtuvimos una exactitud de 99.5%. Para el problema de estimación obtuvimos un error medio de 17.7 milímetros en distancia y de 21.2 grados en orientación.
Resumen
This paper presents a deep learning approach to the pose estimation of boxes in a packing problem context. We divided the problem into two steps: detection and pose estimation. Each step is performed with a different convolutional neuronal network configured to complete its task without the excessive complexity that would be required to perform them simultaneously. The first neural network detects if a grayscale image of the working environment as captured by a Microsoft Kinect V2 contains a box or not. The second network predicts the two-dimensional position of each vertex of the box in the image plane from an RGB image. With this information, a depth channel of the image and the pinhole camera model we can estimate the position of the center of mass and the orientation of the box. We train and test both networks with synthetic data from a virtual scene of the workstation. For the detection problem, we achieved an accuracy of 99.5%. For the pose estimation problem, a mean error for center of mass distance of 17.78 millimeters and a mean error for orientation of 21.28 degrees were registered. Testing with real-world data remains pending, as well as the use of other network architectures.