Waarom beeldherkenning belangrijk?

Ongeveer 80 procent van de inhoud op internet is visueel. U kunt al beginnen uit te zoeken waarom het taggen van afbeeldingen de koning van de inhoudstabel zou kunnen zijn. Of het nu om individuen of bedrijven gaat, AI-beeldherkenning heeft het mogelijk gemaakt om met minimale rompslomp beelden online te identificeren. Daar worden jaarlijks ongeveer 657 miljard foto’s digitaal geplaatst, waarvan het merendeel op sociale media verschijnt. Een groot deel van die afbeeldingen zijn mensen die producten promoten, zelfs als ze dat onbewust doen. Door gebruikers gegenereerde inhoud (UGC) in zijn puurste vorm is een uitstekende katalysator voor merken, omdat het de beste vorm van promotie biedt.
Er zijn marketingtools om bedrijven te waarschuwen wanneer er een vermelding van een consument op sociale media is, maar hoe zit het wanneer merkpromotie plaatsvindt zonder dat iemand hun naam in de sociale post heeft getagd? Dit is waar AI-beeldherkenning zijn waarde bewijst. Als de technologie de juiste datasets krijgt, kan AI een afbeelding identificeren zonder specifieke tagvermeldingen. De resultaten zijn van onschatbare waarde voor merken om hun sociale vermeldingen bij te houden en te traceren.

Hoe werkt beeldherkenning?

Zoals we weten kan AI sociale mediaplatforms doorzoeken op zoek naar foto’s en deze vergelijken met uitgebreide datasets. Vervolgens wordt er een relevant beeld gekozen dat veel sneller overeenkomt dan waartoe mensen in staat zijn. Merken gebruiken beeldherkenning om inhoud te vinden die vergelijkbaar is met die van henzelf op sociale media. Dat betekent het identificeren van het logo van een merk of het herkennen van organisch geplaatste productplaatsing onder gebruikers van sociale media. Mensen vragen zoveel informatie door te spitten wordt al snel vermoeiend. AI maakt zich geen zorgen over menselijke fouten en levert nauwkeurige resultaten op ongeëvenaarde niveaus. AI-beeldherkenning monitort wat mensen over een merk zeggen, zonder dat er tekst nodig is. Merken die hun sociale vermeldingen kunnen volgen zonder dat gebruikers de bedrijfsnaam hoeven in te typen, bevinden zich in een voordelige positie. Het potentieel om uitsluitend gebruik te maken van hun eigen online dekking via door AI erkende identificatiemiddelen is enorm en biedt een ongeëvenaarde dekking.

Hier zijn enkele typische taken van beeldherkenning: -

Eerst moeten we bepalen of de afbeeldingsgegevens al dan niet een specifiek object, kenmerk of activiteit bevatten. Deze taak kan normaal gesproken robuust en zonder inspanning door een mens worden opgelost, maar is nog steeds niet op bevredigende wijze opgelost in computervisie voor het algemene geval: willekeurige objecten in willekeurige situaties. De bestaande methoden om dit probleem aan te pakken kunnen alleen het beste worden opgelost voor specifieke objecten, zoals eenvoudige geometrische objecten (bijvoorbeeld veelvlakken), menselijke gezichten, gedrukte of handgeschreven karakters, of voertuigen, en in specifieke situaties, doorgaans beschreven in termen van goed gedefinieerde verlichting, achtergrond en pose van het object ten opzichte van de camera. In de literatuur worden verschillende varianten van het herkenningsprobleem beschreven:

• Object herkenning

Eén of meerdere vooraf gespecificeerde of aangeleerde objecten of objectklassen kunnen worden herkend, meestal samen met hun 2D-posities in het beeld of 3D-poses in de scène.

• Identificatie
Er wordt een individueel exemplaar van een object herkend. Voorbeelden hiervan zijn identificatie van het gezicht of de vingerafdruk van een specifiek persoon, of identificatie van een specifiek voertuig.

• Detectie
De afbeeldingsgegevens worden gescand op een specifieke voorwaarde. Voorbeelden hiervan zijn detectie van mogelijk afwijkende cellen of weefsels in medische beelden of detectie van een voertuig in een automatisch tolsysteem. Detectie op basis van relatief eenvoudige en snelle berekeningen wordt soms gebruikt voor het vinden van kleinere gebieden met interessante beeldgegevens die verder kunnen worden geanalyseerd door rekentechnisch veeleisende technieken om een ​​correcte interpretatie te produceren.

Er bestaan ​​verschillende gespecialiseerde taken op basis van erkenning, zoals:

• Op inhoud gebaseerd ophalen van afbeeldingen
Hier vindt u alle afbeeldingen in een grotere reeks afbeeldingen met een specifieke inhoud. De inhoud kan op verschillende manieren worden gespecificeerd, bijvoorbeeld in termen van gelijkenis ten opzichte van een doelafbeelding (geef mij alle afbeeldingen die lijken op afbeelding X), of in termen van zoekcriteria op hoog niveau die als tekstinvoer worden opgegeven (geef mij alle afbeeldingen die veel huizen, worden in de winter leeggehaald en er staan ​​geen auto's in).

• Pose-schatting
we moeten de positie of oriëntatie van een specifiek object ten opzichte van de camera schatten. Een voorbeeldtoepassing voor deze techniek is het assisteren van een robot bij het ophalen van objecten van een transportband in een lopende bandsituatie.

• Optische karakter erkenning
OCR dat is het identificeren van tekens in afbeeldingen van gedrukte of handgeschreven tekst, meestal met de bedoeling de tekst in een meer formaat te coderen en het bewerken of indexeren van de afdeling Computerwetenschappen en Techniek, Michigan State University mogelijk te maken. “De docenten en studenten van het Pattern Recognition and Image Processing (PRIP) Lab onderzoeken het gebruik van machines om patronen of objecten te herkennen. Er worden methoden ontwikkeld om objecten te detecteren, om te ontdekken welke kenmerken ze onderscheiden van andere, en om algoritmen te ontwerpen die door een machine kunnen worden gebruikt om de classificatie uit te voeren. Belangrijke toepassingen zijn onder meer gezichtsherkenning, identificatie van vingerafdrukken, analyse van documentbeelden, constructie van 3D-objectmodellen, robotnavigatie en visualisatie/verkenning van volumetrische 3D-gegevens. Huidige onderzoeksproblemen omvatten biometrische authenticatie, automatische bewaking en tracking, greeploze HCI, gezichtsmodellering, digitale watermerken en het analyseren van de structuur van online documenten. Pas afgestudeerden van het laboratorium hebben gewerkt aan handschriftherkenning, handtekeningverificatie, visueel leren en het ophalen van afbeeldingen.”

⦁ Gezichtsherkenning
we weten dat gezichtsherkenningssystemen steeds populairder worden als middel om biometrische informatie te extraheren. Gezichtsherkenning speelt een cruciale rol in biometrische systemen en is aantrekkelijk voor tal van toepassingen, waaronder visuele bewaking en beveiliging. Vanwege de algemene publieke acceptatie van gezichtsafbeeldingen op verschillende documenten, heeft gezichtsherkenning een groot potentieel om de biometrische technologie van de volgende generatie bij uitstek te worden.

Beeldherkenningssystemen

⦁ Bewegingsanalyse
Verschillende taken hebben betrekking op bewegingsschatting waarbij een beeldreeks wordt verwerkt om een ​​schatting te maken van de snelheid op elk punt in het beeld of in de 3D-scène, of zelfs van de camera die de beelden produceert. Voorbeelden van dergelijke taken zijn:

⦁  Ego-beweging
Bepalen van de 3D-starre beweging (rotatie en translatie) van de camera op basis van een door de camera geproduceerde beeldreeks.

⦁ Volgen
Tracking is het volgen van de bewegingen van een (meestal) kleinere reeks interessepunten of objecten (bijvoorbeeld voertuigen of mensen) in de beeldreeks.

⦁ Optische stroom
Dit is om voor elk punt in het beeld te bepalen hoe dat punt beweegt ten opzichte van het beeldvlak, dat wil zeggen de schijnbare beweging ervan. Deze beweging is zowel het resultaat van de manier waarop het corresponderende 3D-punt in de scène beweegt als van de manier waarop de camera beweegt ten opzichte van de scène.

⦁ Scènereconstructie
Gegeven een of (doorgaans) meer afbeeldingen van een scène, of een video, heeft scènereconstructie tot doel een 3D-model van de scène te berekenen. In het eenvoudigste geval kan het model een set 3D-punten zijn. Meer geavanceerde methoden produceren een compleet 3D-oppervlaktemodel

⦁ Beeldherstel
Het doel van beeldrestauratie is het verwijderen van ruis (sensorruis, bewegingsonscherpte etc.) uit beelden. De eenvoudigst mogelijke aanpak voor het verwijderen van ruis bestaat uit verschillende soorten filters, zoals laagdoorlaatfilters of mediaanfilters. Meer geavanceerde methoden gaan uit van een model van hoe de lokale beeldstructuren eruit zien, een model dat ze onderscheidt van de ruis. Door eerst de beeldgegevens te analyseren in termen van de lokale beeldstructuren, zoals lijnen of randen, en vervolgens de filtering te regelen op basis van lokale informatie uit de analysestap, wordt doorgaans een beter niveau van ruisverwijdering verkregen vergeleken met de eenvoudigere benaderingen. Een voorbeeld op dit gebied is hun schilderkunst. Sommige systemen zijn op zichzelf staande toepassingen die een specifiek meet- of detectieprobleem oplossen, terwijl andere een subsysteem vormen met een groter ontwerp dat bijvoorbeeld ook subsystemen bevat voor de besturing van mechanische actuatoren, planning, informatiedatabases, mens- machine-interfaces, enz. De specifieke implementatie van een computervisiesysteem hangt ook af van de vraag of de functionaliteit ervan vooraf is gespecificeerd of dat een deel ervan tijdens het gebruik kan worden geleerd of aangepast. Er zijn echter typische functies die in veel computervisiesystemen voorkomen.

 

Dieper leren met beeldherkenning

Beeldherkenning bestond al vóór AI. Toch zorgt de machine learning-factor voor een revolutie in de methoden voor het identificeren van het gezicht van een object of persoon. Machine learning is echter alleen effectief als er gegevens zijn om dit te voeden. Ondanks alle automatisering van AI is het geen eenvoudig verzoek om afbeeldingen te identificeren. Ons begrip van beelden is een tweede natuur; het is iets waar we vanaf jonge leeftijd voor geprogrammeerd zijn. Hetzelfde vragen van een machine is geen eenvoudig proces. Om die reden zijn convolutionele neurale netwerken (CNN) een van de meer populaire vormen van AI-herkenning. CNN is een methode die zich richt op naast elkaar gelegen pixels. Afbeeldingen die zich dichtbij elkaar bevinden, zijn waarschijnlijker gerelateerd, wat betekent dat een object of gezicht wordt gekoppeld aan een afbeelding met meer transparantie.
Hoewel merken die inkomsten willen genereren uit sociale media via AI-beeldherkenning duidelijke voordelen bieden, gaan de gebruiksscenario's veel dieper. Zelfrijdende auto's staan ​​op het punt de volgende grote ontwikkeling te worden in de autowereld, en AI-beeldherkenningstechnologie helpt hen daarbij van stroom te voorzien. Een zelfrijdende auto die objecten en mensen op de weg kan detecteren zodat hij er niet tegenaan botst, gebeurt niet automatisch. Het moet de beelden herkennen om weloverwogen beslissingen te kunnen nemen. Elke zelfrijdende auto is uitgerust met verschillende sensoren, zodat hij andere bewegende voertuigen, fietsers, mensen kan identificeren – eigenlijk alles wat een gevaar kan opleveren. Een geautomatiseerde auto moet op dezelfde manier omgaan met de gevaren van de weg als een doorgewinterde bestuurder. Er moeten nog een aantal aspecten worden gladgestreken voordat zelfrijdende auto's in 2020 de weg op gaan. Maar als de voertuigautomatisering zijn intrede doet, zal AI-beeldherkenning een van de belangrijkste drijfveren zijn achter veilig werken.
⦁ Beeldverwerving
Een digitaal beeld wordt geproduceerd door één of meerdere beeldsensoren, waaronder naast diverse soorten lichtgevoelige camera's ook afstandssensoren, tomografieapparatuur, radar, ultrasone camera's etc. vallen. Afhankelijk van het type sensor worden de resulterende beeldgegevens is een gewoon 2D-beeld, een 3D-volume of een beeldreeks. De pixelwaarden komen doorgaans overeen met de lichtintensiteit in één of meerdere spectrale banden (grijze afbeeldingen of kleurenafbeeldingen), maar kunnen ook verband houden met verschillende fysieke metingen, zoals diepte, absorptie of reflectie van sonische of elektromagnetische golven, of nucleaire magnetische resonantie.
⦁ Voorbewerking:
Voordat een computer vision-methode kan worden toegepast op beeldgegevens om er een specifiek stukje informatie uit te halen, is het meestal nodig om de gegevens te verwerken om er zeker van te zijn dat deze voldoen aan bepaalde aannames die door de methode worden geïmpliceerd. Voorbeelden zijn
1. Opnieuw bemonsteren om er zeker van te zijn dat het beeldcoördinatensysteem correct is.
2. Ruisonderdrukking om ervoor te zorgen dat sensorruis geen valse informatie introduceert.
3. Contrastverbetering om ervoor te zorgen dat relevante informatie kan worden gedetecteerd.
4. Schaal-ruimterepresentatie om beeldstructuren op lokaal geschikte schalen te verbeteren.
⦁ Functie-extractie:
Beeldkenmerken op verschillende niveaus van complexiteit worden uit de beeldgegevens gehaald. Typische voorbeelden van dergelijke kenmerken zijn lijnen, randen en ribbels
Gelokaliseerde interessepunten zoals hoeken, klodders of punten. Complexere kenmerken kunnen verband houden met textuur, vorm of beweging.
⦁ Detectie/segmentatie:
Op een bepaald moment in de verwerking wordt besloten welke beeldpunten of gebieden van het beeld relevant zijn voor verdere verwerking. Voorbeelden zijn
1. Selectie van een specifieke reeks interessepunten
2. Segmentatie van een of meerdere beeldgebieden die een specifiek interessant object bevatten.
⦁ Verwerking op hoog niveau:
Bij deze stap bestaat de invoer doorgaans uit een kleine set gegevens, bijvoorbeeld een set punten of een beeldgebied waarvan wordt aangenomen dat het een specifiek object bevat. De overige verwerkingen hebben bijvoorbeeld betrekking op:
1. Verificatie dat de gegevens voldoen aan modelgebaseerde en toepassingsspecifieke aannames.
2. Schatting van toepassingsspecifieke parameters, zoals objectpositie of objectgrootte.
3. Het classificeren van een gedetecteerd object in verschillende categorieën. Beeldverwerking helpt AI dus om het beeld te identificeren en te reageren op basis van de beeldidentificatie.

Een naadloze toekomst van beeldmateriaal

Naarmate de technologie verbetert, zal beeldherkenning nog betere resultaten opleveren. Vladimir Pavlov, hoofd Machine Learning bij Lobster, zegt: “De wiskundige basis voor objectherkenning bestaat al heel lang, maar de technologische mogelijkheden voor het gebruik van computer vision-algoritmen zijn onlangs verschenen. Dankzij neurale netwerken kunnen nu al perfecte detectoren worden gemaakt die beter kunnen werken dan mensen. Een grote schok houdt de aanwezigheid van gemarkeerde beelddatasets voor training tegen, maar in de nabije toekomst zal dit geen probleem zijn. Computer vision-ingenieurs werken actief aan zelflerende algoritmen. Nu de toekomst zo sterk wordt beïnvloed door visuele communicatie, zal beeldherkenning de sleutelfactor zijn achter veel van de foto's die we zien. Zowel in het echte leven als online.