Unha guía para o recoñecemento de imaxes AI

Por que é importante o recoñecemento de imaxes?

Cerca do 80 por cento do contido en internet é visual. Xa podes comezar a descubrir por que a etiquetaxe de imaxes pode ocupar o seu lugar como rei da táboa de contidos. Xa sexan persoas ou empresas, o recoñecemento de imaxes da intelixencia artificial permitiu identificar imaxes en liña cun mínimo problema. Hai preto de 657 millóns de fotos publicadas cada ano dixitalmente, a maioría aparecendo nas redes sociais. Unha boa parte desas imaxes son persoas que promocionan produtos, aínda que o fagan sen querelo. O contido xerado polo usuario (UGC) na súa forma máis pura é un excelente habilitador para as marcas xa que ofrece o mellor tipo de promoción.
Existen ferramentas de mercadotecnia para alertar ás empresas cando hai unha mención de consumidores nas redes sociais, pero que pasa cando se produce a promoción de marcas sen que ninguén marque o seu nome na publicación social? Aquí é onde o recoñecemento de imaxes da intelixencia artificial demostra o seu valor. Se o técnico recibe os conxuntos de datos correctos, a IA pode identificar unha imaxe sen mencións de etiquetas específicas. Os resultados son inestimables para que as marcas sigan e rastrexan as súas mencións sociais.

Como funciona o recoñecemento de imaxes?

Como sabemos, a IA pode buscar fotos nas plataformas de redes sociais e comparalas con conxuntos de datos extensos. Despois decide sobre a imaxe relevante que coincida a un ritmo moito máis rápido do que son capaces os humanos. As marcas usan o recoñecemento de imaxes para atopar contido semellante ao seu nas redes sociais. Isto significa identificar o logotipo dunha marca ou recoñecer a colocación orgánica de produtos entre os usuarios das redes sociais. Pedir aos humanos que rastrexen tanta información convértese facilmente. A IA non se preocupa polo erro humano e devolve resultados precisos a niveis incomparables. O recoñecemento de imaxes da intelixencia artificial monitoriza o que a xente di sobre unha marca sen necesidade de texto. As marcas capaces de rastrexar as súas mencións sociais sen que os usuarios teñan que escribir o nome da empresa atoparanse nunha posición vantaxosa. O potencial de aproveitar a súa propia cobertura en liña só a través de identificadores recoñecidos por IA é enorme e ofrece unha cobertura incomparable.

Aquí tes algunhas tarefas típicas de recoñecemento de imaxes:

Nun primeiro momento temos que determinar se os datos da imaxe conteñen ou non algún obxecto, característica ou actividade específica. Esta tarefa normalmente pode ser resolta de forma robusta e sen esforzo por un humano, pero aínda non se resolve satisfactoriamente en visión por ordenador para o caso xeral: obxectos arbitrarios en situacións arbitrarias. Os métodos existentes para tratar este problema pódense resolver mellor só para obxectos específicos, como obxectos xeométricos simples (por exemplo, poliedros), rostros humanos, caracteres impresos ou escritos a man ou vehículos, e en situacións específicas, normalmente descritas en termos. de iluminación, fondo e pose ben definidos do obxecto en relación coa cámara. Na literatura descríbense diferentes variedades do problema de recoñecemento:

• Recoñecemento de obxectos

Pódense recoñecer un ou varios obxectos ou clases de obxectos previamente especificados ou aprendidos, xeralmente xunto coas súas posicións 2D na imaxe ou poses 3D na escena.

• Identificación
Recoñécese unha instancia individual dun obxecto. Exemplos son a identificación do rostro ou pegada dixital dunha persoa específica ou a identificación dun vehículo específico.

• Detección
Os datos da imaxe son escaneados para unha condición específica. Son exemplos a detección de posibles células ou tecidos anormais en imaxes médicas ou a detección dun vehículo nun sistema automático de peaxe de estradas. A detección baseada en cálculos relativamente sinxelos e rápidos úsase ás veces para atopar rexións máis pequenas de datos de imaxe interesantes que poden ser analizados máis adiante mediante técnicas computacionais máis esixentes para producir unha interpretación correcta.

Existen varias tarefas especializadas baseadas no recoñecemento, como:

• Recuperación de imaxes baseada no contido
Aquí atoparás todas as imaxes nun conxunto maior de imaxes que teñan un contido específico. O contido pódese especificar de diferentes xeitos, por exemplo en termos de semellanza con respecto a unha imaxe de destino (dáme todas as imaxes similares á imaxe X), ou en termos de criterios de busca de alto nivel indicados como entrada de texto (dáme todas as imaxes que conteñan moitas casas, son levadas durante o inverno e non teñen coches nelas).

• Estimación de poses
temos que estimar a posición ou orientación dun obxecto específico en relación á cámara. Un exemplo de aplicación desta técnica sería axudar a un robot a recuperar obxectos dunha cinta transportadora nunha situación de cadea de montaxe.

• Recoñecemento óptico de caracteres
OCR que é identificar caracteres en imaxes de texto impreso ou escrito a man, xeralmente co fin de codificar o texto nun formato máis e permitir a edición ou indexación Departamento de Ciencias da Computación e Enxeñaría da Universidade Estatal de Michigan. “O profesorado e estudantes do Laboratorio de Recoñecemento de Patróns e Procesamento de Imaxes (PRIP) investigan o uso de máquinas para recoñecer patróns ou obxectos. Desenvólvense métodos para detectar obxectos, descubrir cales das súas características os distinguen doutros e deseñar algoritmos que pode ser usado por unha máquina para facer a clasificación. As aplicacións importantes inclúen o recoñecemento facial, a identificación de pegadas dixitais, a análise de imaxes de documentos, a construción de modelos de obxectos 3D, a navegación do robot e a visualización/exploración de datos volumétricos en 3D. Os problemas de investigación actuais inclúen a autenticación biométrica, vixilancia e seguimento automáticos, HCI sen control, modelado facial, marca de auga dixital e análise da estrutura de documentos en liña. Os recentemente graduados do laboratorio traballaron no recoñecemento de escritura, a verificación de sinaturas, a aprendizaxe visual e a recuperación de imaxes".

⦁ Recoñecemento facial
sabemos que os sistemas de recoñecemento facial vanse popularizando progresivamente como medios para extraer información biométrica. O recoñecemento facial ten un papel fundamental nos sistemas biométricos e é atractivo para numerosas aplicacións, incluíndo a vixilancia visual e a seguridade. Debido á aceptación do público xeral das imaxes faciales en varios documentos, o recoñecemento facial ten un gran potencial para converterse na tecnoloxía biométrica de elección da próxima xeración.

Sistemas de recoñecemento de imaxes

⦁ Análise do movemento
Varias tarefas están relacionadas coa estimación do movemento onde se procesa unha secuencia de imaxes para producir unha estimación da velocidade en cada punto da imaxe ou na escena 3D, ou mesmo da cámara que produce as imaxes. Exemplos de tales tarefas son:

⦁ Movemento do ego
Determinación do movemento ríxido 3D (rotación e traslación) da cámara a partir dunha secuencia de imaxes producida pola cámara.

⦁ Seguimento
O seguimento consiste en seguir os movementos dun conxunto (normalmente) máis pequeno de puntos de interese ou obxectos (por exemplo, vehículos ou humanos) na secuencia de imaxes.

⦁ Fluxo óptico
Trátase de determinar, para cada punto da imaxe, como se move ese punto en relación ao plano da imaxe, é dicir, o seu movemento aparente. Este movemento é o resultado tanto de como se move o punto 3D correspondente na escena como de como se move a cámara en relación coa escena.

⦁ Reconstrución da escena
Tendo en conta unha ou (normalmente) máis imaxes dunha escena ou dun vídeo, a reconstrución da escena ten como obxectivo calcular un modelo 3D da escena. No caso máis sinxelo o modelo pode ser un conxunto de puntos 3D. Os métodos máis sofisticados producen un modelo de superficie 3D completo

⦁ Restauración da imaxe
O obxectivo da restauración da imaxe é a eliminación do ruído (ruído do sensor, desenfoque de movemento, etc.) das imaxes. O enfoque máis sinxelo posible para a eliminación de ruído son varios tipos de filtros, como filtros paso baixo ou filtros medianos. Os métodos máis sofisticados asumen un modelo de como se ven as estruturas da imaxe local, un modelo que as distingue do ruído. Ao analizar primeiro os datos da imaxe en función das estruturas locais da imaxe, como liñas ou bordos, e despois controlando o filtrado en función da información local do paso de análise, adoita obterse un mellor nivel de eliminación de ruído en comparación cos enfoques máis sinxelos. Un exemplo neste campo é a súa pintura. Algúns sistemas son aplicacións autónomas que resolven un problema específico de medición ou detección, mentres que outros constitúen un subsistema de deseño máis amplo que, por exemplo, contén tamén subsistemas de control de actuadores mecánicos, planificación, bases de datos de información, man- interfaces máquina, etc. A implantación específica dun sistema de visión por ordenador depende tamén de se a súa funcionalidade está preespecificada ou de se pode aprender ou modificar algunha parte durante o seu funcionamento. Non obstante, hai funcións típicas que se atopan en moitos sistemas de visión por ordenador.

Aprendizaxe máis profunda co recoñecemento de imaxes

O recoñecemento de imaxes existía antes da IA. Non obstante, o factor de aprendizaxe automática está a revolucionar os métodos para identificar o rostro dun obxecto ou dunha persoa. Non obstante, a aprendizaxe automática só é eficaz cando hai datos para alimentala. Para toda a automatización da IA, encargarlle que identifique imaxes non é unha simple solicitude. A nosa comprensión dos visuais é unha segunda natureza; é algo para o que estamos programados dende pequenos. Preguntarlle o mesmo a unha máquina non é un proceso sinxelo. Por ese motivo, unha das formas máis populares de recoñecemento da IA son as redes neuronais convolucionais (CNN). CNN é un método que se centra en píxeles situados un ao lado do outro. É máis probable que as imaxes situadas moi preto estean relacionadas, o que significa que un obxecto ou unha cara se corresponde cunha imaxe con máis transparencia.
Aínda que as marcas que buscan monetizar as redes sociais aínda que o recoñecemento de imaxes da intelixencia artificial teñen claros beneficios, os seus casos de uso son moito máis profundos. Os coches autónomos están a piques de ser a próxima gran cousa no mundo do automóbil, e a tecnoloxía de recoñecemento de imaxes da intelixencia artificial está axudando a impulsalos. Un coche autónomo que pode detectar obxectos e persoas na estrada para que non choque con eles non ocorre automaticamente. Precisa recoñecer as imaxes para tomar decisións informadas. Cada coche autónomo está equipado con varios sensores para que poida identificar outros vehículos en movemento, ciclistas, persoas, basicamente calquera cousa que poida supoñer un perigo. Un coche automatizado debe procesar os perigos da estrada do mesmo xeito que o fai un condutor experimentado. Aínda quedan algúns aspectos por resolver antes de que os coches autónomos saian á estrada en 2020. Pero cando a automatización dos vehículos se poña en marcha, o recoñecemento de imaxes da intelixencia artificial será un dos principais motores que traballen con seguridade.
⦁ Adquisición de imaxes
Unha imaxe dixital é producida por un ou varios sensores de imaxe que, ademais de varios tipos de cámaras sensibles á luz, inclúen sensores de alcance, dispositivos de tomografía, radares, cámaras ultrasónicas, etc. Dependendo do tipo de sensor, os datos da imaxe resultantes. é unha imaxe 2D normal, un volume 3D ou unha secuencia de imaxes. Os valores de píxeles normalmente corresponden á intensidade da luz nunha ou varias bandas espectrais (imaxes en gris ou imaxes en cor), pero tamén poden estar relacionados con varias medidas físicas, como a profundidade, a absorción ou a reflectancia de ondas sónicas ou electromagnéticas ou a resonancia magnética nuclear.
⦁ Procesamento previo:
Antes de que se poida aplicar un método de visión por ordenador aos datos de imaxe para extraer algunha información específica, adoita ser necesario procesar os datos para asegurarse de que satisfai certos supostos implicados polo método. Os exemplos son
1. Re-mostraxe para asegurar que o sistema de coordenadas da imaxe é correcto.
2. Redución do ruído para garantir que o ruído do sensor non introduza información falsa.
3. Mellora do contraste para garantir que se poida detectar a información relevante.
4. Representación escala-espacial para mellorar as estruturas da imaxe a escalas localmente adecuadas.
⦁ Extracción de características:
A partir dos datos da imaxe extráense características da imaxe en varios niveis de complexidade. Exemplos típicos de tales características son liñas, bordos e cristas
Puntos de interese localizados como esquinas, manchas ou puntos. As características máis complexas poden estar relacionadas coa textura, a forma ou o movemento.
⦁ Detección/segmentación:
Nalgún momento do procesamento tómase unha decisión sobre cales puntos ou rexións da imaxe son relevantes para o procesamento posterior. Os exemplos son
1. Selección dun conxunto específico de puntos de interese
2. Segmentación dunha ou varias rexións de imaxe que conteñan un obxecto específico de interese.
⦁ Procesamento de alto nivel:
Neste paso, a entrada é normalmente un pequeno conxunto de datos, por exemplo un conxunto de puntos ou unha rexión de imaxe que se supón que contén un obxecto específico. O procesamento restante trata, por exemplo:
1. Verificación de que os datos cumpren os supostos baseados no modelo e as especificacións da aplicación.
2. Estimación de parámetros específicos da aplicación, como a pose do obxecto ou o tamaño do obxecto.
3. Clasificar un obxecto detectado en diferentes categorías. Polo tanto, o procesamento de imaxes axuda a IA a identificar a imaxe e responder segundo a identificación da imaxe.

Un futuro sen fisuras de imaxes

A medida que mellora a tecnoloxía, o recoñecemento de imaxes devolverá resultados aínda maiores. O xefe de Machine Learning de Lobster, Vladimir Pavlov, di: "A base matemática para o recoñecemento de obxectos existe desde hai moito tempo, pero hai pouco apareceron posibilidades tecnolóxicas de usar algoritmos de visión por ordenador. Xa, as redes neuronais permiten facer detectores perfectos que son capaces de funcionar mellor que os humanos. Un gran idiota impide a presenza de conxuntos de datos de imaxes marcadas para o adestramento, pero nun futuro próximo, isto non será un problema. Os enxeñeiros de visión por ordenador están a traballar activamente en algoritmos de autoaprendizaxe”. Cun futuro tan influenciado pola comunicación visual, o recoñecemento de imaxes vai ser o factor clave detrás de moitas das imaxes que vemos. Tanto na vida real como na rede.