Ver profundidad con un solo ojo

Ver profundidad con un solo ojo

Después de cuatro años, tenemos un nuevo iPhone con presupuesto limitado . Al igual que el SE anterior, alcanza ese punto de precio al adherirse a los componentes de generaciones anteriores. iFixit encontró el sensor de la cámara intercambiable con el de un iPhone 8.

Ver profundidad con un solo ojo
Un iPhone 8 lado a lado con un iPhone SE. Vía iFixIt’s Teardown

Si se tratara de una historia sobre hardware, simplemente le diríamos que lea las reseñas del iPhone 8. En resumen, creemos que esta es una buena cámara, aunque tiene tres años. El fotógrafo Sebastiaan de With está activamente disparando fotos RAW con él para ver qué tan bien se acumula.

Pero esta historia es sobre el software. Este iPhone va donde ningún iPhone ha ido antes con la "Estimación de profundidad monocular de una sola imagen". En inglés, este es el primer iPhone que puede generar un efecto de retrato usando nada más que una sola imagen 2D.

Ver profundidad con un solo ojo
Disparo con la nueva actualización de nuestra aplicación, Halide . La cámara original solo permite el modo vertical en sujetos humanos.
Ver profundidad con un solo ojo
Los datos de profundidad generados a partir de la imagen 2D

"¿No hace eso el iPhone XR? ¡También tiene una sola cámara! ”, Se podría decir. Si bien el iPhone XR tiene una sola cámara, todavía obtuvo información de profundidad a través del hardware . Se conectó con los píxeles de enfoque del sensor, que se pueden considerar como pequeños pares de "ojos" diseñados para ayudar con el enfoque. El XR utiliza las diferencias muy leves que se ven desde cada ojo para generar un mapa de profundidad muy aproximado.

El nuevo iPhone SE no puede usar píxeles de enfoque, porque su sensor más antiguo no tiene suficiente cobertura. En cambio, genera profundidad completamente a través del aprendizaje automático. Es fácil probarlo usted mismo: tome una foto de otra foto.

Carguemos esta foto en pantalla completa y tomemos una foto con nuestro iPhone SE:

Ver profundidad con un solo ojo
Junio, la mascota oficial de Lux Optics

Un iPhone XR ve una superficie mayormente plana, el monitor de la computadora. Parece refinar este mapa de profundidad utilizando la imagen en color y adivina que el bulto en el medio se asienta ligeramente en primer plano.

Ver profundidad con un solo ojo
Los datos de profundidad del iPhone XR

El iPhone SE2 genera un mapa de profundidad totalmente diferente. Está mal … ¡pero increíble!

Ver profundidad con un solo ojo

Hmm. Mientras limpiaba la casa de mi padre, me encontré con una foto de diapositiva de mi abuela de 50 años …

Ver profundidad con un solo ojo
¡Guau! Ok, este es un truco de fiesta increíble, pero una prueba artificial. ¿Qué tan bien se compara esto en el mundo real?

El mundo real: resultados en su mayoría sorprendentes

Entonces, ¿por qué Apple evita que la aplicación de primera parte dispare a personas que no son personas? Tienen un segundo proceso que funciona muy bien con los humanos en el marco. Sin humanos, a veces falla de manera extraña.

Ver profundidad con un solo ojo

Aquí la red neuronal confundió los árboles en el fondo con la cabeza de June. ¿Tal vez los confundía para las astas?

Ver profundidad con un solo ojo

También parece que el mapa de profundidad es realmente bueno en la segmentación (enmascarando diferentes partes de una imagen), pero es impredecible con las distancias reales. Aquí tenemos junio envuelto en el temor existencial:

Ver profundidad con un solo ojo
2020 ha sido duro para todos.

Tomé la foto de arriba usando un iPhone 11 Pro y el SE2, y es obvio que tener varias cámaras genera datos mucho mejores. Mientras que el iPhone 11 captura toda la profundidad del pasillo, el SE2 pierde el piso retrocediendo hacia el fondo.

Ver profundidad con un solo ojo
Izquierda: iPhone 11 Pro, Derecha: iPhone SE2

¿Qué significa esto para las fotos del mundo real? Usemos esta suculenta como tema ya que tiene algunas capas agradables.

Ver profundidad con un solo ojo

El iPhone 11 Pro muestra bordes distintos en el mapa de profundidad. El SE2 obtiene la esencia general de las cosas. ¿Quizás la red neuronal estuvo expuesta a muchos perros, pero no a tantas plantas?

Ver profundidad con un solo ojo

¿Cuál es el resultado final? El desenfoque simplemente se combina, en lugar de que los elementos en primer plano obtengan una intensidad de desenfoque diferente que los elementos en el fondo.

Ver profundidad con un solo ojo
Izquierda: iPhone 11 Pro, Derecha: iPhone SE 2

Tenga en cuenta que puse en marcha nuestro efecto de retrato para ilustrar la diferencia. Si prefiere el aspecto del iPhone SE2, siempre puede recrearlo con un iPhone 11 Pro. Usted no puede obtener las distintas capas del iPhone 11 Pro en un SE2.

La estratificación es donde el segundo proceso de aprendizaje automático de Apple juega un papel importante. Junto con el iPhone XR, Apple introdujo una API "Portrait Effects Matte" que podía detectar humanos en una foto y crear una máscara muy detallada. De hecho, este mate es una resolución más alta que los datos de profundidad subyacentes.

Ver profundidad con un solo ojo
Disparo en un iPhone XS en 2018.

Mientras el sujeto en primer plano sea nítido y enfocado, la mayoría de las personas nunca lo conocerán ' jugando rápido y suelto con el desenfoque del fondo.

Entonces, volviendo a la pregunta, "¿Por qué Apple limita esto a las personas?"

Apple tiende a no prometer y entregar demasiado. No hay nada que les impida tomar fotos profundas de todo, pero prefieren establecer la expectativa, "El modo de retrato es solo para personas", que decepcionar a los usuarios con un efecto de profundidad que tropieza de vez en cuando.

Sin embargo, estamos contentos de que esta información de profundidad, tanto el mate humano como el nuevo mapa de profundidad aprendido por máquina, haya sido expuesto a nosotros, los desarrolladores.

Entonces, la siguiente pregunta es si el aprendizaje automático llegará al punto en que no necesitan dispositivos multicámara.

El desafío de la estimación de la profundidad de ML

Nuestros cerebros son increíbles. A diferencia de el nuevo iPad Pro no tenemos ningún disparo LIDAR fuera de nuestros ojos que nos proporcione información de profundidad. En cambio, nuestros cerebros recopilan información de varias fuentes.

La mejor fuente de profundidad proviene de comparar las dos imágenes que provienen de cada uno de nuestros ojos. Nuestros cerebros "conectan los puntos" entre las imágenes. Cuanto más divergen, más lejos debe estar un objeto. Este enfoque binocular es similar a lo que potencia la profundidad en los iPhones de doble cámara.

Otra forma de adivinar la profundidad es a través del movimiento. Mientras camina, los objetos en la distancia se mueven más lentamente que los objetos cercanos.

Ver profundidad con un solo ojo
A través de "Sonic Dodger"

Esto es similar a cómo las aplicaciones de realidad aumentada perciben su ubicación en el mundo. Esta no es una gran solución para los fotógrafos, porque es una molestia pedirle a alguien que agite su teléfono en el aire durante varios segundos antes de tomar una foto.

Eso nos lleva a nuestro último recurso, averiguar la profundidad de un solo ( monocular ) imagen fija. Si conoce a alguien que solo puede ver con un ojo, sabe que vive una vida normal bastante normal; solo lleva un poco más de esfuerzo, por ejemplo, conducir un automóvil. Esto se debe a que confía en otras pistas para juzgar la distancia, como el tamaño relativo de los objetos conocidos.

Por ejemplo, conoce el tamaño típico de un teléfono. Si ves un teléfono realmente grande, tu cerebro adivina que está bastante cerca de tus ojos, incluso si nunca antes has visto ese teléfono específico. La mayoría de las veces, tienes razón.

Ver profundidad con un solo ojo
Top Secret es una película subestimada.

Genial. Simplemente entrene una red neuronal para detectar estas sugerencias, ¿verdad?

Desafortunadamente, hemos descrito un problema Mal planteado . En un problema Bien planteado hay una y solo una solución. Esos problemas suenan como: “Un tren sale de Chicago a 60 MPH. Otro tren sale de Nueva York a 80 MPH … ”

Al adivinar la profundidad, una sola imagen puede tener múltiples soluciones. Considere este TikTok viral. ¿Se dirigen hacia el observador o se alejan de él?

Algunas imágenes simplemente no se pueden resolver, ya sea porque carecen de suficientes pistas o porque son literalmente irresolubles.

Ver profundidad con un solo ojo
Cascada por MC Escher.

Al final del día, las redes neuronales se sienten mágicas, pero están sujetas a las mismas limitaciones que la inteligencia humana. En algunos escenarios, una sola imagen simplemente no es suficiente. Un modelo de aprendizaje automático puede tener un mapa de profundidad plausible, lo que no significa que refleje la realidad.

¡Eso está bien si solo estás buscando crear un efecto de retrato genial con cero esfuerzo! Si su objetivo es capturar con precisión una escena, para la máxima libertad de edición, aquí es donde desea un segundo punto de vista (sistema de cámara dual) u otros sensores (LIDAR).

El aprendizaje automático superará ] un teléfono con varias cámaras? No, porque cualquier sistema se beneficiará de tener más datos. Desarrollamos dos ojos por una razón.

La pregunta es cuándo estas estimaciones de profundidad están tan cerca, y los fallos de encendido son tan raros, que incluso los fotógrafos expertos no pueden justificar pagar una prima por el hardware adicional. No creemos que sea este año, pero al ritmo actual en que se mueve el aprendizaje automático, esto puede tardar años en lugar de décadas.

Es un momento interesante para la fotografía.


P.S. Inténtalo tú mismo. Si esto le hizo sentir más curiosidad por el mundo genial de la captura de profundidad moderna, lanzamos nuestra actualización para Halide el día del lanzamiento del iPhone SE. Si tiene un iPhone que admita el modo Retrato, puede usar Halide para disparar en nuestro modo "Profundidad" y ver los mapas de profundidad resultantes. Es bastante divertido ver cómo su iPhone intenta sentir el maravilloso mundo tridimensional.


Sobre el autor : Ben Sandofsky es el cofundador y desarrollador de Halide y Specter . Las opiniones expresadas en este artículo son únicamente las del autor. Sandofsky previamente aconsejó nuevas empresas, consultó para la serie HBO Silicon Valley y dirigió el equipo de iPhone en Twitter. Puede encontrar más de su trabajo y conectarse con él en su sitio web y Twitter . Este artículo también fue publicado aquí .

Leave a Reply