Una guida per a ricunniscenza di l'imaghjini AI

Perchè u ricunniscenza di l'imaghjini hè impurtante?

Circa 80 per centu di u cuntenutu in Internet hè visuale. Pudete digià principià à travaglià perchè u tagging di l'imaghjini puderia tene u so postu cum'è rè di a tavola di cuntenutu. Qu'il s'agisse d'individus ou d'entreprises, l'intelligence artificielle a permis d'identifier les images en ligne avec un minimum d'efforts. Ci hè circa 657 miliardi di foto publicate ogni annu in digitale, cù a maiuranza chì appare nantu à e social media. Una bona parte di queste imagine sò persone chì prumove i prudutti, ancu s'elli facenu cusì senza vuluntà. U cuntenutu generatu da l'utilizatori (UGC) in a so forma più pura hè un eccellente attivatore per e marche perchè furnisce u megliu tipu di prumuzione.
Ci sò strumenti di cummercializazione per avvisà l'imprese quandu ci hè una menzione di u cunsumadore nantu à e social media, ma chì succede quandu a prumuzione di e marche si faci senza chì nimu hà taggatu u so nome in u postu suciale? Hè quì chì a ricunniscenza di l'imaghjini AI prova u so valore. Se a tecnulugia hè alimentata da i datasets curretti, l'AI pò identificà una maghjina senza menzioni di tag specifichi. I risultati sò inestimabili per e marche per seguità è tracciate e so menzioni suciali.

Cumu funziona u ricunniscenza di l'imaghjini?

Cum'è sapemu, l'AI pò cercà e plataforme di media suciali in cerca di foto è paragunà cù una vasta gamma di dati. Allora decide nantu à l'imaghjini pertinenti chì currisponde à un ritmu assai più veloce di l'omu. I marchi utilizanu a ricunniscenza di l'imaghjini per truvà cuntenutu simili à u so propiu nantu à e social media. Questu significa identificà u logu di una marca o ricunnosce u piazzamentu di u produttu postu organicu trà l'utilizatori di e social media. Chiedendu à l'omu di sparà per tante informazioni diventa facilmente stancante. L'IA ùn si preoccupa micca di l'errore umanu, è torna risultati precisi à livelli senza pari. A ricunniscenza di l'imaghjini AI monitoreghja ciò chì a ghjente dice nantu à una marca senza bisognu di testu. I marchi capaci di seguità e so menzioni suciali senza chì l'utilizatori anu bisognu di scrive u nome di a cumpagnia si trovanu in una pusizioni vantaghji. U putenziale di sfruttà a so propria copertura in linea solu per mezu di identificatori ricunnisciuti da l'AI hè enormu è offre una copertura senza paragone.

Eccu alcuni compiti tipici di ricunniscenza di l'imaghjini: -

À u principiu, avemu da determinà s'ellu o micca i dati di l'imaghjini cuntenenu qualchì ughjettu specificu, funzione o attività. Stu compitu pò esse risolta in modu robustu è senza sforzu da un umanu, ma ùn hè ancu risolta satisfactoriamente in a visione di l'informatica per u casu generale: oggetti arbitrarii in situazioni arbitrarie. I metudi esistenti per affruntà stu prublema pò esse solu solu solu per l'uggetti specifichi, cum'è l'uggetti geomettichi simplici (per esempiu, poliedri), facci umani, caratteri stampati o scritti a manu, o veiculi, è in situazioni specifiche, tipicamente descritte in termini. di illuminazione ben definita, fondo è posa di l'ughjettu relative à a camera. Diversi varietà di u prublema di ricunniscenza sò descritte in a literatura:

• Ricunniscenza d'ughjettu

Unu o parechji ogetti pre-specificati o appresi o classi d'ughjetti ponu esse ricunnisciuti, di solitu inseme cù e so pusizioni 2D in l'imaghjini o pose 3D in a scena.

• Identificazione
Un esempiu individuale di un oggettu hè ricunnisciutu. Esempii sò identificazione di a faccia o impronta digitale di una persona specifica, o identificazione di un veiculu specificu.

• Detection
I dati di l'imaghjini sò scannati per una cundizione specifica. Esempii sò a rilevazione di pussibuli cellule o tessuti anormali in l'imaghjini medichi o a rilevazione di un veiculu in un sistema di pedamentu di strada automatica. A rilevazione basata nantu à computazioni relativamente simplici è veloci hè qualchì volta aduprata per truvà regioni più chjuche di dati interessanti di l'imaghjini chì ponu esse analizati ulteriormente da tecniche più esigenti computazionalmente per pruduce una interpretazione curretta.

Ci sò parechje attività specializate basate nantu à a ricunniscenza, cum'è:

• Recuperazione di l'imagine basatu in cuntenutu
Quì truvate tutte l'imaghjini in un inseme più grande di imagine chì anu un cuntenutu specificu. U cuntenutu pò esse specificatu in diverse manere, per esempiu in termini di similitudine relative à una maghjina di destinazione (dammi tutte l'imaghjini simili à l'imaghjini X), o in termini di criteri di ricerca d'altu livellu datu cum'è input di testu (dammi tutte l'imaghjini chì cuntenenu). assai case, sò pigliati durante l'invernu, è ùn anu micca vitture in elli).

• Stima di posa
avemu da stimà a pusizione o l'orientazione di un oggettu specificu relative à a camera. Un esempiu di applicazione per sta tecnica seria assistendu un robot à ricuperà l'uggetti da un cinturione trasportatore in una situazione di linea di assemblea.

• Ricunniscenza di caratteri otticu
ICT chì identificanu caratteri in l'imaghjini di u testu stampatu o scrittu à a manu, di solitu in vista di codificà u testu in un formatu più è permette à edità o indexing Department of Computer Science and Engineering, Michigan State University. "U Pattern Recognition and Image Processing (PRIP) Lab facoltà è studienti investiganu l'usu di macchine per ricunnosce mudelli o oggetti. I metudi sò sviluppati per sensu l'uggetti, per scopre quale di e so caratteristiche li distingue da l'altri, è per cuncepisce algoritmi chì ponu esse utilizati da una macchina per fà a classificazione. L'applicazioni impurtanti includenu u ricunniscenza facciale, l'identificazione di l'impronta digitale, l'analisi di l'imaghjini di documenti, a custruzzione di mudelli di l'ughjettu 3D, a navigazione di robot, è a visualizazione / esplorazione di dati volumetrici 3D. I prublemi di ricerca attuali includenu l'autenticazione biometrica, a sorveglianza è u seguimentu automaticu, HCI senza mani, modellazione facciale, filigrana digitale è analisi di struttura di documenti in linea. I diplomi recenti di u laboratoriu anu travagliatu nantu à ricunniscenza di scrittura, verificazione di firma, apprendimentu visuale è ricuperazione di l'imaghjini.

⦁ Ricunniscenza faciale
Sapemu chì i sistemi di ricunniscenza facciale sò progressivamente diventendu populari cum'è mezi di estrazione di l'infurmazioni biometriche. A ricunniscenza facciale hà un rolu criticu in i sistemi biometrici è hè attrattiva per numerosi appiicazioni cumprese a vigilazione visuale è a sicurità. A causa di l'accettazione di u publicu generale di l'imaghjini facciali nantu à diversi documenti, a ricunniscenza facciale hà un grande potenziale per diventà a tecnulugia biometrica di a nova generazione di scelta.

Sistemi di ricunniscenza di l'Image

⦁ Analisi di u muvimentu
Diversi travaglii riguardanu l'estimazione di u muvimentu induve una sequenza di l'imaghjini hè trattata per pruduce una stima di a velocità sia in ogni puntu di l'imaghjini sia in a scena 3D, o ancu di a camera chì produce l'imaghjini. Esempii di tali compiti sò:

⦁ Movimentu di l'ego
Determinazione di u muvimentu rigidu 3D (rotazione è traduzzione) di a camera da una sequenza d'imaghjini prodotta da a camera.

⦁ Tracking
U seguimentu hè seguitu i muvimenti di un (di solitu) inseme più chjucu di punti d'interessu o oggetti (per esempiu, veiculi o umani) in a sequenza di l'imaghjini.

⦁ Flussu otticu
Questu hè di determinà, per ogni puntu in l'imaghjini, cumu quellu puntu si move in relazione à u pianu di l'imaghjini, vale à dì, u so muvimentu apparente. Stu muvimentu hè u risultatu sia di cumu u puntu 3D currispondente si move in a scena è cumu a camera si move in relazione à a scena.

⦁ Ricostruzione di scena
Data una o (tipicamenti) più imaghjini di una scena, o un video, a ricustruzzione di scena hà per scopu di calculà un mudellu 3D di a scena. In u casu più simplice, u mudellu pò esse un inseme di punti 3D. I metudi più sofisticati pruducenu un mudellu di superficia 3D cumpletu

⦁ Restaurazione di l'imaghjini
L'obiettivu di a restaurazione di l'imaghjini hè a rimuzione di u rumore (rumore di sensori, motion blur, etc.) da l'imaghjini. L'approcciu più simplice pussibule per a rimozione di u rumore hè varii tipi di filtri, cum'è filtri low-pass o filtri mediani. I metudi più sufisticati assumenu un mudellu di cumu si vede e strutture di l'imaghjini lucali, un mudellu chì li distingue da u rumore. Analizendu prima i dati di l'imaghjini in quantu à e strutture di l'imaghjini lucali, cum'è e linee o bordi, è poi cuntrullà u filtru basatu annantu à l'infurmazioni lucali da u passu di l'analisi, un megliu livellu di rimuzione di u rumore hè generalmente ottenutu cumparatu cù l'approcciu più simplice. Un esempiu in questu campu hè a so pittura. Certi sistemi sò applicazioni stand-alone chì risolve un prublema di misurazione o rilevazione specifichi, mentri àutri custituiscenu un sottosistema di un disignu più grande chì, per esempiu, cuntene ancu sottosistemi per u cuntrollu di attuatori meccanichi, pianificazione, basa di dati d'infurmazioni, man- interfacce machine, etc. L'implementazione specifica di un sistema di visione di l'urdinatore dipende ancu da se a so funziunalità hè pre-specificata o se una parte di questu pò esse amparatu o mudificata durante u funziunamentu. Ci sò, però, funzioni tipiche chì si trovanu in parechji sistemi di visione di computer.

Apprendimentu più profundo cù ricunniscenza di l'imaghjini

A ricunniscenza di l'imaghjini era intornu prima di l'AI. Eppuru u fattore di l'apprendimentu di a macchina rivoluziona i metudi per identificà un oggettu o a faccia di una persona. L'apprendimentu automaticu hè efficace solu quandu ci sò dati per alimentallu, però. Per tutte l'automatizazione di l'AI, l'incaricatu di identificà l'imaghjini ùn hè micca una dumanda simplice. A nostra cunniscenza di visuale hè a seconda natura; hè qualcosa chì simu programati per fà da a ghjovana età. Dumandà u listessu di una macchina ùn hè micca un prucessu simplice. Per quessa, una di e forme più populari di ricunniscenza AI hè e rete neurali cunvoluzionale (CNN). CNN hè un metudu chì fucalizza nantu à i pixelli situati unu à l'altru. L'imaghjini situati vicinu sò più probabili di esse ligati, chì significa chì un ughjettu o faccia hè assuciatu à una stampa cù più trasparenza.
Mentre chì e marche chì cercanu di monetizà e social media, ancu s'è a ricunniscenza di l'imaghjini AI portanu benefici evidenti, i so casi d'usu sò assai più profondi. E vitture autònuma sò per esse a prossima grande cosa in u mondu di l'automobile, è a tecnulugia di ricunniscenza di l'imaghjini AI aiuta à alimentà. Una vittura autònuma chì pò detectà l'uggetti è e persone nantu à a strada per ùn sbattà in elli ùn succede micca automaticamente. Hè bisognu di ricunnosce l'imaghjini per piglià decisioni infurmati. Ogni vittura autònuma hè dotata di parechji sensori per pudè identificà altri veiculi in muvimentu, ciclisti, persone - in fondu tuttu ciò chì puderia esse un periculu. Una vittura automatizata hà bisognu di processà i periculi di a strada cum'è un cunduttore espertu. Ci hè ancu uni pochi di aspetti da scaccià prima chì e vitture autònuma vanu in strada in 2020. Ma quandu l'automatizazione di u veiculu si mette in ballu, a ricunniscenza di l'imaghjini AI serà unu di i principali mutori daretu à elli chì travaglianu in modu sicuru.
⦁ Image-acquistion
Una maghjina digitale hè prodotta da unu o parechji sensori di l'imaghjini, chì, in più di vari tipi di camere sensibili à a luce, includenu sensori di gamma, apparecchi di tomografia, radar, camere ultra-soniche, ecc. hè una maghjina 2D ordinaria, un voluminu 3D, o una sequenza d'imaghjini. I valori di pixel tipicamenti currispondenu à l'intensità di a luce in una o parechje bande spettrali (imaghjini grigi o imagine di culore), ma ponu ancu esse ligati à diverse misure fisiche, cum'è a prufundità, l'assorbimentu o a riflessione di onde soniche o elettromagnetiche, o risonanza magnetica nucleare.
⦁ Pre-elaborazione:
Prima chì un metudu di visione di l'informatica pò esse appiicata à e dati di l'imaghjini in modu di estrattà un pezzu specificu di infurmazione, hè di solitu necessariu di processà e dati per assicurà chì satisface certe supposizioni implicate da u metudu. Esempii sò
1. Re-sampling in ordine per assicurà chì u sistema di coordenate imagine hè currettu.
2. Riduzzione di u rumore per assicurà chì u sonu di u sensoru ùn introduce micca infurmazione falsa.
3. Migliuramentu di cuntrastu per assicurà chì l'infurmazioni pertinenti ponu esse rilevati.
4. Rapprisintazioni in scala-spaziu per rinfurzà e strutture di l'imaghjini à scale appropritate in u locu.
⦁ Estrazione di caratteristiche:
Funzioni di l'imaghjini à diversi livelli di cumplessità sò estratti da i dati di l'imaghjini. Esempi tipici di tali caratteristiche sò linii, bordi è creste
Punti d'interessu localizati cum'è anguli, blobs o punti. Funzioni più cumplesse ponu esse ligati à a struttura, a forma o u muvimentu.
⦁ Rilevazione / segmentazione:
In un certu puntu in u processu, una decisione hè presa nantu à quali punti di l'imaghjini o regioni di l'imaghjini sò pertinenti per un ulteriore prucessu. Esempii sò
1. Selezzione di un settore specificu di punti di interessu
2. Segmentazione di una o parechje regioni di l'imaghjini chì cuntenenu un oggettu specificu d'interessu.
⦁ Trattamentu di altu livellu:
À questu passu, l'input hè tipicamente un picculu gruppu di dati, per esempiu un inseme di punti o una regione d'imaghjini chì si assume chì cuntene un oggettu specificu. U prucessu restante si tratta, per esempiu:
1. Verification chì i dati satisfacenu mudellu-basatu è applicàrisi specifichissumptions.
2. Stima di i paràmetri specifichi di l'applicazione, cum'è l'ughjettu di l'ughjettu o a dimensione di l'ughjettu.
3. Classificà un ughjettu rilevatu in diverse categurie. Allora, u processu di l'imaghjini aiuta l'AI à identificà l'imaghjini è risponde secondu l'identità di l'imaghjini.

Un futuru perfettu di l'imaghjini

Cume a tecnulugia migliora, a ricunniscenza di l'imaghjini restituverà risultati ancu più grande. U capu di Machine Learning in Lobster, Vladimir Pavlov, dice: "A basa matematica per a ricunniscenza di l'ughjettu esiste dapoi un bellu pezzu, ma e pussibulità tecnologiche d'utilizà algoritmi di visione di computer sò apparsu recentemente. Dighjà, e rete neurali permettenu di fà detectori perfetti chì sò capaci di travaglià megliu cà l'omu. Un big jerk mantene a prisenza di datasets d'imaghjini marcati per a furmazione, ma in un futuru vicinu, questu ùn serà micca un prublema. L'ingegneri di visione di l'informatica sò attivamente travagliendu in algoritmi d'auto-apprendimentu ". Cù un futuru assai influinzatu da a cumunicazione visuale, a ricunniscenza di l'imaghjini serà u fattore chjave daretu à parechji di i ritratti chì vedemu. Sia in a vita reale è in linea.