Los ordenadores aprenden a identificar los primeros nueve gestos hechos con los dedos, una forma de comunicación hasta ahora inaccesible para las máquinas

Basta levantar el dedo pulgar para que media humanidad entienda que todo va bien. Los dedos de la mano tienen una inmensa cantidad de funciones, y una de ellas es la comunicación.

A los ochos meses los bebés empiezan a apuntar con su dedo índice por primera vez. Es el primer destello de un lenguaje que les permite iniciar la interacción con los adultos. Solo con un dedo están diciendo algo tan importante como «quiero eso».

Los dedos tienen un enorme poder simbólico. El gesto de los tres dedos levantados, que nació en la saga Los juegos del hambre, se extendió entre los manifestantes de Tailandia y Myanmar como si los dedos gritaran la necesidad de libertad.  

A día de hoy, las computadoras nos ganarán al ajedrez sin despeinarse, pero no entienden ni de lejos los gestos que hacemos con los dedos.

En Minority Report, la peli de 2002, el personaje de Tom Cruise, John Anderton, usa sus manos, enfundadas en guantes especiales con sensores, para interactuar con la enorme pantalla transparente, del tamaño de una pared.

La computadora reconoce los gestos de Anderton para agrandar, acercar y deslizar. Aunque esta visión futurista de la interacción computadora-humano tiene ahora 20 años, aún necesitamos un mouse, un teclado, un control remoto o una pequeña pantalla táctil para transmitir nuestros deseos a la computadora. La voz también sirve, cada vez con más precisión (Alexia se equivoca mucho menos). Pero quedaba un importante territorio por explorara, la lectura de un lenguaje muy perfeccionado, el que conseguimos con nuestros dedos.

La eficacia y la complejidad de un OK

La propuesta es conseguir formas de comunicación más naturales, que no requieran el contacto entre el usuario y el dispositivo.

Los gestos con las manos constituyen un modo importante de comunicación humana. De hecho, si repasamos los iconos más utilizados en el mundo, el del OK con el dedo pulgar levantado se lleva todas las papeletas. Con un gesto muy sencillo, conseguimos enviar un mensaje muy complejo.

A día de hoy ningún ordenador entiende qué queremos decir con un dedo corazón levantado

Los avances recientes en las cámaras, en el análisis de imágenes y el aprendizaje automático hacen que resulte más eficaz el reconocimiento visual que los sensores colocados en los guantes, como era el caso de Anderton en  Minority Report . Sin embargo, a día de hoy, ningún ordenador entiende qué queremos decir con un dedo corazón levantado, por ejemplo.

Un equipo dirigido por Zhiyi Yu de la Universidad Sun Yat-sen, China, ha desarrollado un nuevo algoritmo de reconocimiento de gestos hechos con los dedos, que logra un buen equilibrio entre complejidad, precisión y aplicabilidad. Estos son los primeros nueve gestos que alcanza a identificar.

Nueve gestos hechos con los dedos

Los nueve gestos hechos con los dedos que puede reconocer el ordenador

La complejidad de una «V»

Es enormemente complejo desarrollar un algoritmo que pueda interpretar correctamente algo tan simple como un gesto con un dedo. Son muchísimos los factores que influyen. Por un lado los técnicos: la luz que incide en la mano cuando la cámara del dispositivo recoge la imagen, por ejemplo, puede dificultar la identificación correcta. Pero, sobre todo, la dificultad estriba en la cantidad de mensajes que el ser humano consigue en un único gesto.

Poniendo como ejemplo la «V» que realizamos levantando el índice y el corazón, el algoritmo, para que sea eficaz, tiene que reconocer todos estos posibles significados:

  • Con la palma hacia afuera, significa Victoria
  • Con la palma hacia adentro, en la cultura anglosajona, es un insulto
  • Dos: una expresión no verbal de cantidad.
  • Paz o amigo: usado alrededor del mundo por grupos pacifistas y contraculturales.
  • Orejas de conejo: detrás de la cabeza de alguien en una fotografía. En algunas culturas esto significa un cornudo.
  • Todo está bien  o  todo OK al mostrarse en un selfie
  • La letra V, en algunos lenguajes de signos, se usa para deletrear​
  • Para los moteros, es un saludo en ruta.

La forma de la mano importa

Como se detalla en el artículo del profesor Zhiyi Yu, que fue publicado en el  Journal of Electronic Imaging , el algoritmo también se tiene que adaptar a distintos tipos de manos. Para empezar, intenta clasificar el tipo de mano del usuario como delgada, normal o ancha basándose en tres medidas que tienen en cuenta las relaciones entre el ancho de la palma, la longitud de la palma y la longitud del dedo.

Si esta clasificación tiene éxito, los pasos posteriores en el proceso de reconocimiento de gestos con las manos solo comparan el gesto de entrada con muestras almacenadas del mismo tipo de mano. «Los algoritmos simples tradicionales tienden a sufrir bajas tasas de reconocimiento porque no pueden hacer frente a diferentes tipos de manos. Al clasificar primero el gesto de entrada por tipo de mano y luego usar bibliotecas de muestra que coinciden con este tipo, hemos mejorado la tasa de reconocimiento general», explica Yu.

El algoritmo se centra en una porción del área de la mano para seleccionar los tres gestos más probables de los nueve posibles. Esta simple característica es suficiente para reducir el número de gestos candidatos a tres, de los cuales el gesto final se decide utilizando una extracción de características mucho más compleja y de alta precisión basada en «momentos invariantes de Hu». Yu dice »

El equipo probó su algoritmo tanto en un procesador de PC comercial como en una plataforma FPGA utilizando una cámara USB. Hicieron que 40 voluntarios hicieran los nueve gestos con las manos varias veces para construir la biblioteca de muestras, y otros 40 voluntarios para determinar la precisión del sistema.

En general, los resultados mostraron que el enfoque propuesto podría reconocer los gestos de las manos en tiempo real con una precisión superior al 93%, incluso si las imágenes de los gestos de entrada se rotaron, tradujeron o escalaron. Según los investigadores, el trabajo futuro se centrará en mejorar el rendimiento del algoritmo en condiciones de iluminación deficientes y aumentar el número de posibles gestos.

El reconocimiento de gestos tiene muchos campos de aplicación prometedores y podría allanar el camino hacia nuevas formas de controlar dispositivos electrónicos. ¡Una revolución en la interacción humano-computadora podría estar cerca!

Lea el artículo de Qiang Zhang et al., » Algoritmo de reconocimiento de gestos con las manos que combina el algoritmo adaptativo del tipo de la mano y la relación de área efectiva para una computación de borde eficiente «,  J. Electron. Imag . 30 (6), 036026 (2021) doi:  10.1117 / 1.JEI.30.6.063026 .