Actualmente, en el mundo se están generando más de 1,2 billones de imágenes a través de los más de 3.700 millones de dispositivos móviles con cámara de fotos que hay en el mundo. Además, existen más de 350 millones de cámaras activas de vídeo vigilancia, sin contar las que se están utilizando en procesos de calidad, imágenes médicas o las que se están popularizando en el ámbito doméstico.
Esta ingente cantidad de imágenes se está aprovechando, generando nuevo valor, a través de la Visión Artificial o Computer Vision (CV).
A continuación, repasaremos los cinco elementos clave a tener en cuenta en para iniciarnos en el campo de la Computer Vision, e iremos profundizando en distintos aspectos de los beneficios que aportan estos proyectos a las empresas en próximas entradas.
¿Cómo se consigue que una máquina registre su entorno visual, interprete y actúe en consecuencia a lo que está recogiendo?
La primera clave está en que las imágenes están digitalizadas, esto es, que la fotografía digital consiguió convertir las imágenes en mapas de píxeles. A cada pixel de la foto se le asigna un número, en función de la intensidad del color que tenga, y la imagen se convierte en un conjunto de números. Así lo que para los humanos es proximidad visual para las máquinas es proximidad numérica.
Un símil es cuando intentamos montar un puzle y vamos viendo si las piezas encajan o no encajan en función de su perfil y contenido. Hay piezas que son todo cielo, las que tienen trozos naranjas de ladrillos, etc. Del mismo modo la máquina, para comparar las imágenes, calcula la similitud numérica de un fragmento frente a otras imágenes. Así, la Visión Artificial es la rama de la inteligencia artificial que es capaz de interpretar las imágenes.
Es aquí donde aprovechan técnicas que ya se están explotando para que las máquinas puedan interpretar y actuar en función de la realidad que se les presenta. El Machine Learning (ML) y una de sus ramas, el Deep Learning (DL) permiten diseñar algoritmos para hacer predicciones en entornos cambiantes en los que se dispone de mucha información. Por lo tanto podemos decir que ML y DL nutren a la Visión Artificial creando soluciones especializadas en el contexto de imágenes.
Uno de los primeros hitos que tiene que resolver la Computer Vision está relacionado con la captura de imágenes de la vida real. Estas no son precisas y tienen distorsiones, que pueden ser del tipo ruido, borrado o deformaciones. Estas deformaciones se deben corregir.
La tecnología y técnicas aplicada a CV han evolucionado mucho, desde los primeros algoritmos basados en fórmulas sencillas a nivel de pixel, pasando por los sistemas supervisados, todavía en uso, en el que un operador humano ayuda al algoritmo en el proceso de entrenamiento hasta sistemas no supervisados que utilizan millones de imágenes para entrenar a los algoritmos.
Las principales diferencias con otras ramas de la inteligencia artificial están en la primera fase de explotación e interpretación inicial de información que facilitan las imágenes. Podemos fijar tres técnicas clave:
Todas estas se apoyan en el proceso de anotación como recurso para enseñar a la máquina.
La anotación es el proceso de crear el data set de entrenamiento, como cuando estamos analizando el comportamiento de la cartera de clientes y juntamos las características de los clientes con los resultados comerciales (ha comprado un nuevo producto, nos ha abandonado, etc.). Con este proceso ayudamos al algoritmo a aprender diciéndole que es lo que esperamos de cada imagen que le pasaremos.
Una de las principales aplicaciones que aporta la CV es la clasificación de las imágenes, o bien la asignación de una categoría a la imagen en su conjunto.
Una vez que definimos qué objetos estamos buscando, con la segmentación de la imagen señalamos qué píxeles pertenecen a cada uno de estos. De esta manera reconocemos áreas de interés sobre la imagen.
A partir de la imagen original la visión artificial es capaz de asociar fragmentos concretos a objetos predefinidos, como por ejemplo, las gallinas que se marcan en la imagen siguiente.
Otras técnicas de la CV nos permiten diferenciar a unos objetos de otros, reconocer rostros de personas, su expresión facial o incluso acciones, como “gallinas comiendo” en la imagen anterior. En sucesivas entradas tendremos ocasión de comentarlos en más profundidad.
Al incorporar multitud de imágenes a lo largo del tiempo, en las que los ángulos de vista de los objetos cambian, nos permite reconstruir imágenes 3D o aspectos derivados del movimiento como la velocidad.
Cómo hemos visto, la Visión Artificial o Computer Vision es un campo complementario a otros de la inteligencia artificial en cuya integración está la clave de hacer operativas soluciones que mejoran los resultados de las empresas.
En el camino de conseguir sistemas cada vez más autónomos que apoyen a las empresas a ser más competitivas y eficientes, ser capaces de integrar la imagen, la información visual de nuestros clientes cuando están en nuestro local, o de nuestros equipos cuando se están exponiendo a riesgos laborales, o la supervisión de la calidad de nuestros productos resulta muy valioso.
Creamos nuevos productos y servicios superiores hibridando la tecnología con los modelos de negocio
¿En que estás interesado?
¡Ya has completado el formulario!
¡Ya has completado el formulario! Revisaremos tu solicitud y nos pondremos en contacto contigo lo antes posible.
Gracias por confiar en nosotros.