Pourquoi la reconnaissance d'images est-elle importante ?

Environ 80 pour cent du contenu sur Internet est visuel. Vous pouvez déjà commencer à comprendre pourquoi le marquage d’images pourrait occuper sa place de roi dans la table de contenu. Qu'il s'agisse de particuliers ou d'entreprises, la reconnaissance d'images par l'IA a permis d'identifier des visuels en ligne avec un minimum de complications. Environ 657 milliards de photos sont publiées chaque année sous forme numérique, la majorité apparaissant sur les réseaux sociaux. Une bonne partie de ces images sont celles de personnes faisant la promotion de produits, même si elles le font involontairement. Le contenu généré par les utilisateurs (UGC) dans sa forme la plus pure est un excellent outil pour les marques car il offre le meilleur type de promotion.
Il existe des outils marketing pour alerter les entreprises lorsqu'il y a une mention d'un consommateur sur les réseaux sociaux, mais qu'en est-il lorsque la promotion d'une marque a lieu sans que personne ne mentionne son nom dans la publication sociale ? C’est là que la reconnaissance d’images par l’IA prouve sa valeur. Si la technologie reçoit les bons ensembles de données, l’IA peut identifier une image sans mention de balise spécifique. Les résultats sont inestimables pour que les marques puissent suivre et retracer leurs mentions sociales.

Comment fonctionne la reconnaissance d'images ?

Comme nous le savons, l’IA peut rechercher des photos sur les plateformes de médias sociaux et les comparer à de vastes ensembles de données. Il décide ensuite de l’image pertinente qui correspond à un rythme beaucoup plus rapide que ce dont les humains sont capables. Les marques utilisent la reconnaissance d’image pour trouver du contenu similaire au leur sur les réseaux sociaux. Cela signifie identifier le logo d'une marque ou reconnaître le placement de produit placé de manière organique parmi les utilisateurs des médias sociaux. Demander aux humains de parcourir autant d’informations devient facilement fatiguant. L'IA ne se soucie pas de l'erreur humaine et renvoie des résultats précis à des niveaux inégalés. La reconnaissance d'image par l'IA surveille ce que les gens disent à propos d'une marque sans avoir besoin de texte. Les marques capables de suivre leurs mentions sociales sans que les utilisateurs aient besoin de saisir le nom de l'entreprise se retrouveront dans une position avantageuse. Le potentiel d’exploiter leur propre couverture en ligne uniquement grâce à des identifiants reconnus par l’IA est énorme et offre une couverture sans précédent.

Voici quelques tâches typiques de reconnaissance d'image : -

Dans un premier temps, nous devons déterminer si les données d'image contiennent ou non un objet, une fonctionnalité ou une activité spécifique. Cette tâche peut normalement être résolue de manière robuste et sans effort par un humain, mais n'est toujours pas résolue de manière satisfaisante en vision par ordinateur pour le cas général : des objets arbitraires dans des situations arbitraires. Les méthodes existantes pour résoudre ce problème ne peuvent être mieux résolues que pour des objets spécifiques, tels que des objets géométriques simples (par exemple, des polyèdres), des visages humains, des caractères imprimés ou écrits à la main, ou des véhicules, et dans des situations spécifiques, généralement décrites en termes d'éclairage, d'arrière-plan et de pose bien définis de l'objet par rapport à la caméra. Différentes variétés du problème de reconnaissance sont décrites dans la littérature :

• Reconnaissance d'objets

Un ou plusieurs objets ou classes d'objets prédéfinis ou appris peuvent être reconnus, généralement avec leurs positions 2D dans l'image ou leurs poses 3D dans la scène.

• Identification
Une instance individuelle d'un objet est reconnue. Des exemples sont l'identification du visage ou des empreintes digitales d'une personne spécifique, ou l'identification d'un véhicule spécifique.

• Détection
Les données d'image sont analysées pour une condition spécifique. Des exemples sont la détection d'éventuelles cellules ou tissus anormaux dans des images médicales ou la détection d'un véhicule dans un système de péage routier automatique. La détection basée sur des calculs relativement simples et rapides est parfois utilisée pour trouver des régions plus petites de données d'image intéressantes qui peuvent être analysées plus en détail par des techniques plus exigeantes en termes de calcul pour produire une interprétation correcte.

Plusieurs tâches spécialisées basées sur la reconnaissance existent, telles que :

• Récupération d'images basée sur le contenu
Ici, trouver toutes les images dans un plus grand ensemble d’images qui ont un contenu spécifique. Le contenu peut être spécifié de différentes manières, par exemple en termes de similarité par rapport à une image cible (donnez-moi toutes les images similaires à l'image X), ou en termes de critères de recherche de haut niveau donnés sous forme de saisie de texte (donnez-moi toutes les images qui contiennent de nombreuses maisons, sont prises en hiver et ne contiennent pas de voitures).

• Estimation de pose
nous devons estimer la position ou l'orientation d'un objet spécifique par rapport à la caméra. Un exemple d'application de cette technique consisterait à aider un robot à récupérer des objets sur une bande transporteuse dans une situation de chaîne de montage.

• Reconnaissance optique de caractères
OCR qui consiste à identifier des caractères dans des images de texte imprimé ou manuscrit, généralement en vue d'encoder le texte dans un format plus large et de permettre l'édition ou l'indexation du Département d'informatique et d'ingénierie de la Michigan State University. « Les professeurs et les étudiants du laboratoire de reconnaissance de formes et de traitement d'images (PRIP) étudient l'utilisation de machines pour reconnaître des motifs ou des objets. Des méthodes sont développées pour détecter les objets, découvrir lesquelles de leurs caractéristiques les distinguent des autres et concevoir des algorithmes qui peuvent être utilisés par une machine pour effectuer la classification. Les applications importantes incluent la reconnaissance faciale, l'identification des empreintes digitales, l'analyse d'images de documents, la construction de modèles d'objets 3D, la navigation de robots et la visualisation/exploration de données volumétriques 3D. Les problèmes de recherche actuels incluent l'authentification biométrique, la surveillance et le suivi automatiques, l'HCI sans main, la modélisation du visage, le filigrane numérique et l'analyse de la structure des documents en ligne. Les récents diplômés du laboratoire ont travaillé sur la reconnaissance de l’écriture manuscrite, la vérification des signatures, l’apprentissage visuel et la récupération d’images.

⦁ Reconnaissance faciale
nous savons que les systèmes de reconnaissance faciale deviennent progressivement populaires comme moyen d'extraire des informations biométriques. La reconnaissance faciale joue un rôle essentiel dans les systèmes biométriques et est intéressante pour de nombreuses applications, notamment la surveillance visuelle et la sécurité. En raison de l’acceptation par le grand public des images de visages sur divers documents, la reconnaissance faciale a un grand potentiel pour devenir la technologie biométrique de choix de nouvelle génération.

Systèmes de reconnaissance d'images

⦁ Analyse de mouvement
Plusieurs tâches concernent l'estimation de mouvement où une séquence d'images est traitée pour produire une estimation de la vitesse soit en chaque point de l'image ou de la scène 3D, soit encore de la caméra qui produit les images. Des exemples de telles tâches sont :

⦁  Mouvement de l'ego
Détermination du mouvement rigide 3D (rotation et translation) de la caméra à partir d'une séquence d'images produite par la caméra.

⦁ Suivi
Le suivi consiste à suivre les mouvements d'un ensemble (généralement) plus petit de points d'intérêt ou d'objets (par exemple, des véhicules ou des humains) dans la séquence d'images.

⦁ Flux optique
Il s'agit de déterminer, pour chaque point de l'image, comment ce point se déplace par rapport au plan de l'image, c'est-à-dire son mouvement apparent. Ce mouvement résulte à la fois de la façon dont le point 3D correspondant se déplace dans la scène et de la façon dont la caméra se déplace par rapport à la scène.

⦁ Reconstitution de scène
Étant donné une ou (généralement) plusieurs images d'une scène, ou d'une vidéo, la reconstruction de scène vise à calculer un modèle 3D de la scène. Dans le cas le plus simple, le modèle peut être un ensemble de points 3D. Des méthodes plus sophistiquées produisent un modèle de surface 3D complet

⦁ Restauration d'images
Le but de la restauration d’images est la suppression du bruit (bruit du capteur, flou de mouvement, etc.) des images. L'approche la plus simple possible pour la suppression du bruit consiste à utiliser différents types de filtres tels que des filtres passe-bas ou des filtres médians. Des méthodes plus sophistiquées supposent un modèle de l'apparence des structures d'images locales, un modèle qui les distingue du bruit. En analysant d'abord les données d'image en termes de structures d'image locales, telles que des lignes ou des bords, puis en contrôlant le filtrage sur la base des informations locales issues de l'étape d'analyse, un meilleur niveau de suppression du bruit est généralement obtenu par rapport aux approches plus simples. Un exemple dans ce domaine est leur peinture. Certains systèmes sont des applications autonomes qui résolvent un problème de mesure ou de détection spécifique, tandis que d'autres constituent un sous-système de conception plus vaste qui, par exemple, contient également des sous-systèmes de contrôle d'actionneurs mécaniques, de planification, de bases de données d'informations, de interfaces machine, etc. La mise en œuvre spécifique d'un système de vision par ordinateur dépend également du fait que sa fonctionnalité soit prédéfinie ou qu'une partie de celle-ci puisse être apprise ou modifiée pendant le fonctionnement. Il existe cependant des fonctions typiques que l’on retrouve dans de nombreux systèmes de vision par ordinateur.

 

Apprentissage plus approfondi avec reconnaissance d'images

La reconnaissance d’images existait avant l’IA. Pourtant, le facteur d'apprentissage automatique révolutionne les méthodes d'identification d'un objet ou du visage d'une personne. Toutefois, l’apprentissage automatique n’est efficace que lorsqu’il existe des données pour l’alimenter. Pour toute l’automatisation de l’IA, lui confier la tâche d’identifier des images n’est pas une simple requête. Notre compréhension des visuels est une seconde nature ; c'est quelque chose que nous sommes programmés pour faire dès notre plus jeune âge. Demander la même chose à une machine n’est pas un processus simple. Pour cette raison, les réseaux de neurones convolutifs (CNN) sont l’une des formes les plus populaires de reconnaissance de l’IA. CNN est une méthode qui se concentre sur les pixels situés les uns à côté des autres. Les images rapprochées sont plus susceptibles d'être liées, ce qui signifie qu'un objet ou un visage est associé à une image avec plus de transparence.
Si les marques cherchent à monétiser les médias sociaux grâce à la reconnaissance d’images par l’IA, elles présentent des avantages évidents, mais ses cas d’utilisation sont bien plus profonds. Les voitures autonomes sont sur le point de devenir la prochaine grande nouveauté dans le monde automobile, et la technologie de reconnaissance d’images par l’IA contribue à les propulser. Une voiture autonome capable de détecter des objets et des personnes sur la route afin de ne pas les percuter ne se produit pas automatiquement. Il doit reconnaître les images pour prendre des décisions éclairées. Chaque voiture autonome est équipée de plusieurs capteurs lui permettant d’identifier les autres véhicules en mouvement, les cyclistes, les personnes – bref, tout ce qui pourrait présenter un danger. Une voiture automatisée doit gérer les dangers de la route de la même manière qu’un conducteur chevronné. Il reste encore quelques aspects à régler avant que les voitures autonomes ne prennent la route en 2020. Mais lorsque l’automatisation des véhicules entrera en vigueur, la reconnaissance d’images par l’IA sera l’un des principaux moteurs de leur travail en toute sécurité.
⦁ Acquisition d'images
Une image numérique est produite par un ou plusieurs capteurs d'images qui, outre différents types de caméras photosensibles, comprennent des capteurs de distance, des appareils de tomographie, des radars, des caméras à ultrasons, etc. Selon le type de capteur, les données d'image résultantes est une image 2D ordinaire, un volume 3D ou une séquence d'images. Les valeurs des pixels correspondent généralement à l'intensité lumineuse dans une ou plusieurs bandes spectrales (images grises ou images couleur), mais peuvent également être liées à diverses mesures physiques, telles que la profondeur, l'absorption ou la réflectance des ondes sonores ou électromagnétiques, ou encore la résonance magnétique nucléaire.
⦁ Prétraitement :
Avant qu'une méthode de vision par ordinateur puisse être appliquée à des données d'image afin d'en extraire une information spécifique, il est généralement nécessaire de traiter les données afin de garantir qu'elles satisfont à certaines hypothèses impliquées par la méthode. Les exemples sont
1. Ré-échantillonnage afin de garantir que le système de coordonnées de l'image est correct.
2. Réduction du bruit afin de garantir que le bruit du capteur n'introduit pas de fausses informations.
3. Amélioration du contraste pour garantir que les informations pertinentes peuvent être détectées.
4. Représentation à l'échelle de l'espace pour améliorer les structures d'image à des échelles localement appropriées.
⦁ Extraction de fonctionnalités :
Des caractéristiques d'image à différents niveaux de complexité sont extraites des données d'image. Des exemples typiques de telles caractéristiques sont les lignes, les bords et les crêtes.
Points d'intérêt localisés tels que des coins, des blobs ou des points. Des caractéristiques plus complexes peuvent être liées à la texture, à la forme ou au mouvement.
⦁ Détection/segmentation :
A un moment donné du traitement, une décision est prise quant aux points d'image ou aux régions de l'image qui sont pertinents pour un traitement ultérieur. Les exemples sont
1. Sélection d'un ensemble spécifique de points d'intérêt
2. Segmentation d'une ou plusieurs régions d'image contenant un objet d'intérêt spécifique.
⦁ Traitement de haut niveau :
A cette étape, l'entrée est généralement un petit ensemble de données, par exemple un ensemble de points ou une région d'image qui est supposée contenir un objet spécifique. Le reste du traitement concerne par exemple :
1. Vérification que les données satisfont aux hypothèses basées sur le modèle et spécifiques à l'application.
2. Estimation des paramètres spécifiques à l'application, tels que la pose ou la taille de l'objet.
3. Classer un objet détecté en différentes catégories. Ainsi, le traitement d'image aide l'IA à identifier l'image et à répondre en fonction de l'identification de l'image.

Un avenir fluide pour l’imagerie

À mesure que la technologie s’améliore, la reconnaissance d’images donnera des résultats encore meilleurs. Vladimir Pavlov, responsable du Machine Learning chez Lobster, déclare : « La base mathématique de la reconnaissance d'objets existe depuis longtemps, mais les possibilités technologiques d'utilisation des algorithmes de vision par ordinateur sont apparues récemment. Déjà, les réseaux de neurones permettent de fabriquer des détecteurs parfaits, capables de mieux fonctionner que les humains. Un gros coup retient la présence d'ensembles de données d'images marquées pour la formation, mais dans un avenir proche, cela ne posera plus de problème. Les ingénieurs en vision par ordinateur travaillent activement sur des algorithmes d'auto-apprentissage. Dans un avenir si fortement influencé par la communication visuelle, la reconnaissance d'images va être le facteur clé derrière de nombreuses images que nous voyons. Aussi bien dans la vraie vie qu’en ligne.