Per què és important el reconeixement d'imatges?

Al voltant del 80 per cent del contingut d'Internet és visual. Ja podeu començar a esbrinar per què l'etiquetatge d'imatges podria ocupar el seu lloc com a rei de la taula de contingut. Tant si es tracta d'individus com d'empreses, el reconeixement d'imatges d'IA ha permès identificar imatges en línia amb el mínim enrenou. Hi ha al voltant de 657 mil milions de fotos que es publiquen cada any digitalment, la majoria apareixen a les xarxes socials. Una bona part d'aquestes imatges són persones que promocionen productes, encara que ho facin sense voler-ho. El contingut generat per l'usuari (UGC) en la seva forma més pura és un excel·lent facilitador per a les marques, ja que ofereix el millor tipus de promoció.
Hi ha eines de màrqueting per alertar les empreses quan hi ha una menció de consumidors a les xarxes socials, però què passa quan es fa la promoció de les marques sense que ningú etiqueti el seu nom a la publicació social? Aquí és on el reconeixement d'imatges d'IA demostra el seu valor. Si la tecnologia s'alimenta dels conjunts de dades correctes, AI pot identificar una imatge sense mencions d'etiquetes específiques. Els resultats són inestimables per a les marques per fer un seguiment i traçar les seves mencions socials.

Com funciona el reconeixement d'imatges?

Com sabem, l'IA pot cercar a les plataformes de xarxes socials buscant fotos i comparar-les amb conjunts de dades extensos. Aleshores decideix la imatge rellevant que coincideixi a un ritme molt més ràpid del que són capaços els humans. Les marques utilitzen el reconeixement d'imatges per trobar contingut similar al seu a les xarxes socials. Això significa identificar el logotip d'una marca o reconèixer la col·locació de productes orgànicament entre els usuaris de les xarxes socials. Demanar als humans que rastregin tanta informació es fa fàcilment cansat. La IA no es preocupa per l'error humà i retorna resultats precisos a nivells incomparables. El reconeixement d'imatges d'IA controla el que la gent diu sobre una marca sense necessitat de text. Les marques que puguin fer un seguiment de les seves mencions socials sense que els usuaris hagin d'escriure el nom de l'empresa es trobaran en una posició avantatjosa. El potencial d'aprofitar la seva pròpia cobertura en línia només mitjançant identificadors reconeguts per IA és enorme i ofereix una cobertura inigualable.

Aquestes són algunes de les tasques típiques del reconeixement d'imatges:

Al principi hem de determinar si les dades de la imatge contenen o no algun objecte, característica o activitat específics. Aquesta tasca normalment pot ser resolta de manera robusta i sense esforç per un humà, però encara no es resol satisfactòriament en visió per ordinador per al cas general: objectes arbitraris en situacions arbitràries. Els mètodes existents per tractar aquest problema només es poden resoldre millor per a objectes específics, com ara objectes geomètrics simples (per exemple, poliedres), rostres humans, caràcters impresos o escrits a mà o vehicles, i en situacions específiques, normalment descrites en termes. d'il·luminació, fons i posada ben definits de l'objecte en relació amb la càmera. A la literatura es descriuen diferents varietats del problema de reconeixement:

• Reconeixement d'objectes

Es poden reconèixer un o diversos objectes o classes d'objectes preespecificats o apresos, normalment juntament amb les seves posicions 2D a la imatge o posicions 3D a l'escena.

• Identificació
Es reconeix una instància individual d'un objecte. Alguns exemples són la identificació de la cara o l'empremta digital d'una persona concreta, o la identificació d'un vehicle específic.

• Detecció
Les dades de la imatge s'escanegen per a una condició específica. Alguns exemples són la detecció de possibles cèl·lules o teixits anormals en imatges mèdiques o la detecció d'un vehicle en un sistema automàtic de peatge de carreteres. La detecció basada en càlculs relativament senzills i ràpids s'utilitza de vegades per trobar regions més petites de dades d'imatge interessants que es poden analitzar més amb tècniques més exigents computacionalment per produir una interpretació correcta.

Existeixen diverses tasques especialitzades basades en el reconeixement, com ara:

• Recuperació d'imatges basada en contingut
Aquí trobareu totes les imatges en un conjunt més gran d'imatges que tenen un contingut específic. El contingut es pot especificar de diferents maneres, per exemple en termes de similitud amb una imatge de destinació (doneu-me totes les imatges semblants a la imatge X), o en termes de criteris de cerca d'alt nivell donats com a entrada de text (doneu-me totes les imatges que continguin moltes cases, es prenen durant l'hivern i no hi ha cotxes).

• Estimació de la postura
hem d'estimar la posició o l'orientació d'un objecte concret respecte a la càmera. Un exemple d'aplicació d'aquesta tècnica seria ajudar un robot a recuperar objectes d'una cinta transportadora en una situació de línia de muntatge.

• Reconeixement òptic de caràcters
OCR que és identificar caràcters en imatges de text imprès o escrit a mà, generalment amb l'objectiu de codificar el text en un format més i permetre l'edició o la indexació del Departament d'Informàtica i Enginyeria de la Universitat Estatal de Michigan. "El professorat i els estudiants del laboratori de reconeixement i processament d'imatges de patrons (PRIP) investiguen l'ús de màquines per reconèixer patrons o objectes. Es desenvolupen mètodes per detectar objectes, descobrir quines de les seves característiques els distingeixen d'altres i dissenyar algorismes que una màquina pugui utilitzar per fer la classificació. Les aplicacions importants inclouen el reconeixement facial, la identificació d'empremtes dactilars, l'anàlisi d'imatges de documents, la construcció de models d'objectes en 3D, la navegació de robots i la visualització/exploració de dades volumètriques en 3D. Els problemes de recerca actuals inclouen l'autenticació biomètrica, la vigilància i el seguiment automàtics, l'HCI sense maneig, el modelatge de cares, la marca d'aigua digital i l'anàlisi de l'estructura de documents en línia. Els recents graduats del laboratori han treballat en el reconeixement d'escriptura, la verificació de signatura, l'aprenentatge visual i la recuperació d'imatges".

⦁ Reconeixement facial
sabem que els sistemes de reconeixement facial s'estan popularitzant progressivament com a mitjà per extreure informació biomètrica. El reconeixement facial té un paper fonamental en els sistemes biomètrics i és atractiu per a nombroses aplicacions, com ara la vigilància visual i la seguretat. A causa de l'acceptació del públic general de les imatges facials en diversos documents, el reconeixement facial té un gran potencial per convertir-se en la tecnologia biomètrica de nova generació preferida.

Sistemes de reconeixement d'imatges

⦁ Anàlisi del moviment
Diverses tasques es relacionen amb l'estimació del moviment on es processa una seqüència d'imatges per produir una estimació de la velocitat en cada punt de la imatge o en l'escena 3D, o fins i tot de la càmera que produeix les imatges. Alguns exemples d'aquestes tasques són:

⦁  Moviment de l'ego
Determinació del moviment rígid 3D (rotació i translació) de la càmera a partir d'una seqüència d'imatges produïda per la càmera.

⦁ Seguiment
El seguiment és seguir els moviments d'un conjunt (normalment) més petit de punts d'interès o objectes (p. ex., vehicles o humans) a la seqüència d'imatges.

⦁ Flux òptic
Això és per determinar, per a cada punt de la imatge, com es mou aquest punt respecte al pla de la imatge, és a dir, el seu moviment aparent. Aquest moviment és el resultat tant de com es mou el punt 3D corresponent a l'escena com de com es mou la càmera en relació a l'escena.

⦁ Reconstrucció d'escenes
Donades una o més imatges d'una escena, o d'un vídeo, la reconstrucció de l'escena té com a objectiu calcular un model 3D de l'escena. En el cas més senzill, el model pot ser un conjunt de punts 3D. Els mètodes més sofisticats produeixen un model de superfície 3D complet

⦁ Restauració d'imatges
L'objectiu de la restauració d'imatges és l'eliminació del soroll (soroll del sensor, desenfocament de moviment, etc.) de les imatges. L'enfocament més senzill possible per a l'eliminació del soroll són diversos tipus de filtres, com ara filtres de pas baix o filtres mitjans. Els mètodes més sofisticats suposen un model de com semblen les estructures de la imatge local, un model que les distingeix del soroll. Analitzant primer les dades de la imatge en termes de les estructures d'imatge locals, com ara línies o vores, i després controlant el filtratge basat en la informació local de l'etapa d'anàlisi, normalment s'obté un millor nivell d'eliminació de soroll en comparació amb els enfocaments més simples. Un exemple en aquest camp és la seva pintura. Alguns sistemes són aplicacions autònomes que resolen un problema específic de mesura o detecció, mentre que altres constitueixen un subsistema de disseny més gran que, per exemple, també conté subsistemes de control d'actuadors mecànics, planificació, bases de dades d'informació, interfícies de màquines, etc. La implementació específica d'un sistema de visió per ordinador també depèn de si la seva funcionalitat està prèviament especificada o si alguna part del mateix es pot aprendre o modificar durant el funcionament. Hi ha, però, funcions típiques que es troben en molts sistemes de visió per ordinador.

 

Aprenentatge més profund amb reconeixement d'imatges

El reconeixement d'imatges existia abans de la IA. No obstant això, el factor d'aprenentatge automàtic està revolucionant els mètodes per identificar un objecte o la cara d'una persona. Tanmateix, l'aprenentatge automàtic només és efectiu quan hi ha dades per alimentar-lo. Per a tota l'automatització de l'IA, encarregar-li d'identificar imatges no és una sol·licitud senzilla. La nostra comprensió de les imatges és una segona naturalesa; és una cosa que estem programats per fer des de petits. Preguntar el mateix a una màquina no és un procés senzill. Per aquest motiu, una de les formes més populars de reconeixement d'IA són les xarxes neuronals convolucionals (CNN). CNN és ​​un mètode que se centra en píxels situats un al costat de l'altre. És més probable que les imatges properes estiguin relacionades, la qual cosa significa que un objecte o una cara coincideix amb una imatge amb més transparència.
Tot i que les marques que busquen monetitzar les xarxes socials mitjançant el reconeixement d'imatges d'IA tenen avantatges clars, els seus casos d'ús són molt més profunds. Els cotxes autònoms estan a punt de ser la propera gran cosa al món de l'automòbil, i la tecnologia de reconeixement d'imatges d'IA els està ajudant a alimentar-los. Un cotxe autònom que pot detectar objectes i persones a la carretera perquè no xoqui contra ells no passa automàticament. Cal reconèixer les imatges per prendre decisions informades. Cada cotxe autònom està equipat amb diversos sensors perquè pugui identificar altres vehicles en moviment, ciclistes, persones, bàsicament qualsevol cosa que pugui suposar un perill. Un cotxe automatitzat ha de processar els perills de la carretera de la mateixa manera que ho fa un conductor experimentat. Encara queden alguns aspectes a resoldre abans que els cotxes autònoms surtin a la carretera el 2020. Però quan l'automatització dels vehicles s'iniciï, el reconeixement d'imatges d'IA serà un dels principals motors que funcionin amb seguretat.
⦁ Adquisició d'imatges
Una imatge digital és produïda per un o diversos sensors d'imatge que, a més de diversos tipus de càmeres sensibles a la llum, inclouen sensors de distància, aparells de tomografia, radar, càmeres ultrasòniques, etc. En funció del tipus de sensor, les dades d'imatge resultants és una imatge 2D normal, un volum 3D o una seqüència d'imatges. Els valors de píxels normalment corresponen a la intensitat de la llum en una o diverses bandes espectrals (imatges grises o imatges en color), però també es poden relacionar amb diverses mesures físiques, com ara la profunditat, l'absorció o la reflectància d'ones sonores o electromagnètiques, o la ressonància magnètica nuclear.
⦁ Preprocessament:
Abans que un mètode de visió per computador es pugui aplicar a les dades d'imatge per extreure alguna informació específica, normalment és necessari processar les dades per assegurar-se que compleixen determinades hipòtesis implicades pel mètode. En són exemples
1. Re-mostreig per tal d'assegurar que el sistema de coordenades de la imatge és correcte.
2. Reducció del soroll per tal d'assegurar que el soroll del sensor no introdueixi informació falsa.
3. Millora del contrast per assegurar que es pugui detectar la informació rellevant.
4. Representació escala-espai per millorar les estructures d'imatge a escales localment adequades.
⦁ Extracció de funcions:
Les característiques de la imatge amb diferents nivells de complexitat s'extreuen de les dades de la imatge. Exemples típics d'aquestes característiques són les línies, les vores i les crestes
Punts d'interès localitzats com ara cantonades, taques o punts. Les característiques més complexes poden estar relacionades amb la textura, la forma o el moviment.
⦁ Detecció/segmentació:
En algun moment del processament es pren una decisió sobre quins punts d'imatge o regions de la imatge són rellevants per al processament posterior. En són exemples
1. Selecció d'un conjunt específic de punts d'interès
2. Segmentació d'una o diverses regions d'imatge que contenen un objecte d'interès específic.
⦁ Processament d'alt nivell:
En aquest pas, l'entrada sol ser un petit conjunt de dades, per exemple un conjunt de punts o una regió d'imatge que se suposa que conté un objecte específic. La resta de processaments tracta, per exemple:
1. Verificació que les dades compleixen els supòsits basats en el model i les especificacions de l'aplicació.
2. Estimació dels paràmetres específics de l'aplicació, com ara la postura o la mida de l'objecte.
3. Classificació d'un objecte detectat en diferents categories. Així, el processament d'imatges ajuda la IA a identificar la imatge i respondre segons la identificació de la imatge.

Un futur perfecte d'imatges

A mesura que la tecnologia millori, el reconeixement d'imatges donarà resultats encara més grans. El cap d'aprenentatge automàtic de Lobster, Vladimir Pavlov, diu: "La base matemàtica per al reconeixement d'objectes existeix des de fa molt de temps, però les possibilitats tecnològiques d'utilitzar algorismes de visió per ordinador van aparèixer recentment. Ja, les xarxes neuronals permeten fer detectors perfectes capaços de funcionar millor que els humans. Un gran idiota frena la presència de conjunts de dades d'imatges marcades per a l'entrenament, però en un futur proper, això no serà un problema. Els enginyers de visió per ordinador estan treballant activament en algorismes d'autoaprenentatge”. Amb un futur tan influït per la comunicació visual, el reconeixement d'imatges serà el factor clau darrere de moltes de les imatges que veiem. Tant a la vida real com en línia.