Conclusiones clave
- Nvidia mostró recientemente una técnica que convierte fotos 2D en escenas 3D en cuestión de segundos.
- El método utiliza la potencia de una computadora para aproximar cómo se comporta la luz en el mundo real.
- El metaverso es un área donde las escenas 3D son útiles porque se pueden ver desde cualquier perspectiva de cámara.
La nueva tecnología de inteligencia artificial (IA) de Nvidia pronto podría convertir fotos 2D en escenas 3D en solo segundos, haciendo que la creación de espacios virtuales inmersivos como el metaverso sea tan trivial como el procesamiento de textos.
Nvidia demostró recientemente el método fotográfico llamado Instant NeRF, que utiliza la potencia informática para aproximarse al comportamiento de la luz en el mundo real. Podría transformar tus fotos antiguas en una escena de videojuego, o se puede usar para entrenar robots y autos autónomos para comprender el tamaño y la forma de los objetos del mundo real.
"La imagen 3D trae un nuevo mundo de transformación", dijo a Lifewire Oren Debbi, director ejecutivo de Visionary.ai, una empresa de visión artificial que ejecuta sus algoritmos 3D en la plataforma Nvidia, en una entrevista por correo electrónico. "Con 3D, imitas la profundidad del mundo real en la escena y haces que la imagen parezca más viva y realista. Además de AR/VR y cámaras industriales, donde el 3D es muy común, ahora vemos que se usa en casi todos los teléfonos inteligentes sin la usuario incluso sabiendo."
Adición de dimensiones
La primera foto instantánea, tomada hace 75 años con una cámara Polaroid, tenía como objetivo capturar rápidamente el mundo 3D en una imagen 2D. Ahora, los investigadores de IA están trabajando en lo contrario: convertir una colección de imágenes fijas en una escena 3D digital en segundos.
Conocido como representación inversa, el proceso utiliza IA para aproximar cómo se comporta la luz en el mundo real, lo que permite a los investigadores reconstruir una escena 3D a partir de un puñado de imágenes 2D tomadas desde diferentes ángulos. Nvidia afirma que ha desarrollado un enfoque que realiza esta tarea casi al instante.
Nvidia utilizó este enfoque con una nueva tecnología llamada campos de radiación neuronal o NeRF. La compañía dice que el resultado, denominado Instant NeRF, es la técnica NeRF más rápida hasta la fecha. El modelo requiere solo unos segundos para entrenarse en unas pocas docenas de fotos fijas y luego puede renderizar la escena 3D resultante en decenas de milisegundos.
"Si las representaciones 3D tradicionales, como las mallas poligonales, son similares a las imágenes vectoriales, los NeRF son como imágenes de mapa de bits: capturan densamente la forma en que la luz se irradia desde un objeto o dentro de una escena", David Luebke, vicepresidente de investigación gráfica de Nvidia, dijo en un comunicado de prensa: “En ese sentido, Instant NeRF podría ser tan importante para 3D como lo han sido las cámaras digitales y la compresión JPEG para la fotografía 2D, lo que aumenta enormemente la velocidad, la facilidad y el alcance de la captura y el intercambio en 3D.”
La recopilación de datos para alimentar un NeRF requiere que la red neuronal capture algunas docenas de imágenes tomadas desde múltiples posiciones alrededor de la escena, así como la posición de la cámara de cada una de esas tomas.
El NeRF entrena una pequeña red neuronal para reconstruir la escena mediante la predicción del color de la luz que se irradia en cualquier dirección, desde cualquier punto del espacio 3D.
El atractivo del 3D
El metaverso es un área donde las escenas 3D son útiles porque se pueden ver desde cualquier perspectiva de cámara, dijo Brad Quinton, fundador de Perceptus Platform para realidad aumentada (AR), a Lifewire en una entrevista por correo electrónico. Al igual que podemos caminar por una habitación en la vida real y ver su contenido desde muchos ángulos diferentes, con una escena 3D reconstruida, podemos movernos virtualmente por un espacio y verlo desde cualquier perspectiva.
"Esto puede ser particularmente útil para crear entornos para usar en realidad virtual", dijo Quinton.
Los programas como Object Capture de Apple utilizan una técnica llamada fotogrametría para crear objetos virtuales en 3D a partir de una serie de imágenes en 2D. Los modelos 3D se utilizarán ampliamente en aplicaciones de realidad virtual y AR, predijo Quinton. Por ejemplo, algunas IA, como la de Perceptus AR Platform, usan modelos 3D para crear una comprensión del mundo real, lo que permite aplicaciones de AR en tiempo real.
El uso de imágenes en 3D también imita la profundidad del mundo real en una escena y hace que la imagen parezca más viva y realista, dijo Debbi. Para crear un efecto Bokeh (también conocido como modo retrato o modo cinematográfico), es necesario un mapeo de profundidad 3D. La técnica se utiliza en casi todos los teléfonos inteligentes.
"Este ya es el estándar para los camarógrafos profesionales que filman películas, y se está convirtiendo en el estándar para todos los consumidores", agregó Debbi.