Isang Gabay sa AI Image Recognition

Bakit mahalaga ang pagkilala sa larawan?

Mga 80 porsiyento ng nilalaman sa internet ay visual. Maaari mo nang simulan ang pag-aaral kung bakit maaaring manatili ang pag-tag ng larawan bilang hari ng talahanayan ng nilalaman. Maging ito ay mga indibidwal o kumpanya, ginawang posible ng AI image recognition na matukoy ang mga visual online na may kaunting kaguluhan. May humigit-kumulang 657 bilyong larawan na nai-post bawat taon nang digital, na ang karamihan ay lumalabas sa social media. Ang isang magandang bahagi ng mga larawang iyon ay ang mga taong nagpo-promote ng mga produkto, kahit na ginagawa nila ito nang hindi sinasadya. Ang user-generated content (UGC) sa pinakadalisay nitong anyo ay isang mahusay na enabler para sa mga brand dahil nagbibigay ito ng pinakamahusay na uri ng promosyon.
May mga tool sa marketing upang alertuhan ang mga kumpanya kapag may binanggit na consumer sa social media, ngunit paano naman kapag naganap ang promosyon ng mga brand nang walang sinumang nagta-tag ng kanilang pangalan sa social post? Dito pinatutunayan ng AI image recognition ang halaga nito. Kung ang tech ay pinapakain ng mga tamang dataset, matutukoy ng AI ang isang larawan nang walang partikular na pagbanggit ng tag. Napakahalaga ng mga resulta para masubaybayan at masubaybayan ng mga brand ang kanilang mga social mention.

Paano gumagana ang pagkilala sa imahe?

Tulad ng alam natin, maaaring maghanap ang AI sa mga platform ng social media na naghahanap ng mga larawan at ihambing ang mga ito sa malawak na set ng data. Pagkatapos ay magpapasya ito sa may-katuturang larawan na tumutugma sa bilis na mas mabilis kaysa sa kakayahan ng mga tao. Gumagamit ang mga brand ng pagkilala sa larawan para maghanap ng content na katulad ng sa kanila sa social media. Nangangahulugan iyon ng pagtukoy sa logo ng isang brand o pagkilala sa organikong pagkakalagay ng produkto sa mga user ng social media. Ang pagtatanong sa mga tao na mag-trawl sa napakaraming impormasyon ay madaling nakakapagod. Ang AI ay hindi nag-aalala tungkol sa pagkakamali ng tao, at nagbabalik ng mga tumpak na resulta sa walang kapantay na antas. Sinusubaybayan ng AI image recognition kung ano ang sinasabi ng mga tao tungkol sa isang brand nang hindi nangangailangan ng text. Ang mga tatak na masusubaybayan ang kanilang mga social mention nang hindi nangangailangan ng mga user na i-type ang pangalan ng kumpanya ay makikita ang kanilang sarili sa isang kapaki-pakinabang na posisyon. Ang potensyal na mag-tap sa kanilang sariling online na saklaw sa pamamagitan lamang ng mga kinikilalang AI ay napakalaki at nag-aalok ng walang kapantay na saklaw.

Narito ang ilang karaniwang gawain ng pagkilala sa imahe:-

Sa una kailangan nating tukuyin kung ang data ng imahe ay naglalaman ng ilang partikular na bagay, tampok, o aktibidad. Ang gawaing ito ay karaniwang malulutas nang matatag at walang pagsisikap ng isang tao, ngunit hindi pa rin kasiya-siyang nalutas sa computer vision para sa pangkalahatang kaso: mga arbitrary na bagay sa mga arbitrary na sitwasyon. Ang mga umiiral na pamamaraan para sa pagharap sa problemang ito ay pinakamainam na malulutas lamang para sa mga partikular na bagay, tulad ng mga simpleng geometric na bagay (hal., polyhedra), mukha ng tao, mga character na naka-print o nakasulat sa kamay, o mga sasakyan, at sa mga partikular na sitwasyon, na karaniwang inilalarawan sa mga termino ng mahusay na tinukoy na pag-iilaw, background, at pose ng bagay na nauugnay sa camera. Ang iba't ibang uri ng problema sa pagkilala ay inilarawan sa panitikan:

• Pagkilala sa bagay

Ang isa o ilang mga paunang tinukoy o natutunan na mga bagay o mga klase ng bagay ay maaaring makilala, kadalasan kasama ang kanilang mga 2D na posisyon sa larawan o mga 3D na pose sa eksena.

• Pagkakakilanlan
Ang isang indibidwal na halimbawa ng isang bagay ay kinikilala. Ang mga halimbawa ay pagkakakilanlan ng mukha o fingerprint ng isang partikular na tao, o pagkakakilanlan ng isang partikular na sasakyan.

• Pagtuklas
Ang data ng imahe ay ini-scan para sa isang partikular na kundisyon. Ang mga halimbawa ay ang pag-detect ng mga posibleng abnormal na cell o tissue sa mga medikal na larawan o pagtuklas ng sasakyan sa isang awtomatikong sistema ng toll sa kalsada. Ang pagtuklas batay sa medyo simple at mabilis na mga pag-compute ay minsan ginagamit para sa paghahanap ng mas maliliit na rehiyon ng kawili-wiling data ng imahe na maaaring higit pang masuri sa pamamagitan ng higit pang computationally demanding techniques upang makabuo ng tamang interpretasyon.

Mayroong ilang mga espesyal na gawain batay sa pagkilala, tulad ng:

• Pagkuha ng imaheng nakabatay sa nilalaman
Dito mahahanap ang lahat ng mga larawan sa isang mas malaking hanay ng mga larawan na may partikular na nilalaman. Maaaring tukuyin ang nilalaman sa iba't ibang paraan, halimbawa sa mga tuntunin ng pagkakatulad na nauugnay sa isang target na imahe (ibigay sa akin ang lahat ng mga larawang katulad ng larawan X), o sa mga tuntunin ng mataas na antas na pamantayan sa paghahanap na ibinigay bilang text input (ibigay sa akin ang lahat ng mga larawang naglalaman ng maraming bahay, kinukuha sa panahon ng taglamig, at walang sasakyan sa mga ito).

• pagtatantya ng pose
kailangan nating tantyahin ang posisyon o oryentasyon ng isang partikular na bagay na may kaugnayan sa camera. Ang isang halimbawang aplikasyon para sa diskarteng ito ay ang pagtulong sa isang robot na kumukuha ng mga bagay mula sa isang conveyor belt sa isang sitwasyon ng assembly line.

• Optical character recognition
OCR na tumutukoy sa mga character sa mga larawan ng naka-print o nakasulat sa kamay na teksto, kadalasang may layuning i-encode ang teksto sa isang format nang higit pa at bigyang-daan ang pag-edit o pag-index ng Department of Computer Science and Engineering, Michigan State University. “Ang Faculty ng Pattern Recognition and Image Processing (PRIP) Lab at mga mag-aaral ay nag-iimbestiga sa paggamit ng mga makina upang makilala ang mga pattern o mga bagay. Ang mga pamamaraan ay binuo upang madama ang mga bagay, upang matuklasan kung alin sa kanilang mga tampok ang naiiba sa kanila mula sa iba, at upang magdisenyo ng mga algorithm na maaaring gamitin ng isang makina upang gawin ang pag-uuri. Kabilang sa mga mahahalagang application ang pagkilala sa mukha, pagkakakilanlan ng fingerprint, pagsusuri ng larawan ng dokumento, pagbuo ng modelo ng 3D object, pag-navigate sa robot, at visualization/pag-explore ng 3D volumetric na data. Ang mga kasalukuyang problema sa pananaliksik ay kinabibilangan ng biometric authentication, awtomatikong pagsubaybay at pagsubaybay, walang hawak na HCI, face modelling, digital watermarking at pagsusuri ng istraktura ng mga online na dokumento. Ang mga kamakailang nagtapos ng lab ay nagtrabaho sa pagkilala sa sulat-kamay, pag-verify ng lagda, visual na pag-aaral, at pagkuha ng imahe."

⦁ Pagkilala sa Mukha
alam namin na ang mga sistema ng pagkilala sa mukha ay unti-unting nagiging popular bilang paraan ng pagkuha ng biometric na impormasyon. Ang pagkilala sa mukha ay may mahalagang papel sa mga biometric system at kaakit-akit para sa maraming aplikasyon kabilang ang visual surveillance at seguridad. Dahil sa pangkalahatang pagtanggap ng publiko sa mga larawan ng mukha sa iba't ibang mga dokumento, ang pagkilala sa mukha ay may malaking potensyal na maging susunod na henerasyong biometric na teknolohiya na pinili.

Mga Sistema sa Pagkilala ng Larawan

⦁ Pagsusuri ng paggalaw
Ang ilang mga gawain ay nauugnay sa pagtatantya ng paggalaw kung saan pinoproseso ang isang pagkakasunud-sunod ng imahe upang makagawa ng isang pagtatantya ng bilis alinman sa bawat punto sa larawan o sa 3D na eksena, o kahit sa camera na gumagawa ng mga larawan . Ang mga halimbawa ng naturang mga gawain ay:

⦁ Ego galaw
Pagtukoy sa 3D rigid motion (pag-ikot at pagsasalin) ng camera mula sa isang pagkakasunud-sunod ng imahe na ginawa ng camera.

⦁ Pagsubaybay
Ang pagsubaybay ay pagsunod sa mga paggalaw ng isang (karaniwang) mas maliit na hanay ng mga punto ng interes o bagay (hal., mga sasakyan o tao) sa pagkakasunud-sunod ng larawan.

⦁ Optical na daloy
Ito ay upang matukoy, para sa bawat punto sa imahe, kung paano gumagalaw ang puntong iyon kaugnay sa eroplano ng imahe, ibig sabihin, ang maliwanag na paggalaw nito. Ang paggalaw na ito ay resulta pareho ng kung paano gumagalaw ang katumbas na 3D point sa eksena at kung paano gumagalaw ang camera kaugnay ng eksena.

⦁ Pagbubuo ng eksena
Dahil sa isa o (karaniwang) higit pang mga larawan ng isang eksena, o isang video, ang pag-reconstruct ng eksena ay naglalayong mag-compute ng isang 3D na modelo ng eksena. Sa pinakasimpleng kaso ang modelo ay maaaring isang hanay ng mga 3D na puntos. Ang mga mas sopistikadong pamamaraan ay gumagawa ng kumpletong 3D surface model

⦁ Pagpapanumbalik ng imahe
Ang layunin ng pagpapanumbalik ng imahe ay ang pag-alis ng ingay (ingay ng sensor, motion blur, atbp.) mula sa mga imahe. Ang pinakasimpleng posibleng diskarte para sa pag-alis ng ingay ay ang iba't ibang uri ng mga filter gaya ng mga low-pass na filter o median na filter. Ang mga mas sopistikadong pamamaraan ay nagpapalagay ng isang modelo kung paano ang hitsura ng mga lokal na istruktura ng imahe, isang modelo na nagpapakilala sa kanila mula sa ingay. Sa pamamagitan ng unang pagsusuri sa data ng imahe sa mga tuntunin ng mga lokal na istruktura ng imahe, tulad ng mga linya o gilid, at pagkatapos ay kontrolin ang pag-filter batay sa lokal na impormasyon mula sa hakbang ng pagsusuri, ang isang mas mahusay na antas ng pag-aalis ng ingay ay karaniwang nakukuha kumpara sa mga mas simpleng diskarte. Isang halimbawa sa larangang ito ay ang kanilang pagpipinta. Ang ilang mga system ay mga stand-alone na application na lumulutas ng isang partikular na problema sa pagsukat o pagtuklas, habang ang iba ay bumubuo ng isang sub-system ng isang mas malaking disenyo na, halimbawa, ay naglalaman din ng mga sub-system para sa kontrol ng mga mekanikal na actuator, pagpaplano, mga database ng impormasyon, man- mga interface ng makina, atbp. Ang partikular na pagpapatupad ng isang computer vision system ay nakasalalay din sa kung ang functionality nito ay paunang tinukoy o kung ang ilang bahagi nito ay maaaring matutunan o mabago sa panahon ng operasyon. Gayunpaman, mayroong mga tipikal na function na matatagpuan sa maraming mga computer vision system.

Mas malalim na pag-aaral na may pagkilala sa imahe

Ang pagkilala sa larawan ay nasa paligid bago ang AI. Ngunit ang kadahilanan sa pag-aaral ng makina ay nagbabago ng mga pamamaraan para sa pagtukoy ng isang bagay o mukha ng tao. Gayunpaman, epektibo lamang ang pag-aaral ng machine kapag mayroong data na ipapakain dito. Para sa lahat ng automation ng AI, ang pag-atas dito na tukuyin ang mga imahe ay hindi isang simpleng kahilingan. Ang aming pag-unawa sa mga visual ay pangalawang kalikasan; ito ay isang bagay na nakaprograma na nating gawin mula sa murang edad. Ang pagtatanong ng pareho sa isang makina ay hindi isang diretsong proseso. Para sa kadahilanang iyon, ang isa sa mga mas sikat na paraan ng pagkilala sa AI ay convolutional neural network (CNN). Ang CNN ay isang paraan na tumutuon sa mga pixel na matatagpuan sa tabi ng isa't isa. Ang mga larawang malapit sa lokasyon ay mas malamang na magkaugnay, na nangangahulugang ang isang bagay o mukha ay itinugma sa isang larawan na may higit na transparency.
Habang ang mga brand na naghahanap upang pagkakitaan ang social media kahit na ang AI image recognition ay may malinaw na mga benepisyo, ang mga kaso ng paggamit nito ay mas malalim. Ang mga self-driving na kotse ay malapit nang maging susunod na malaking bagay sa mundo ng sasakyan, at ang AI image recognition tech ay nakakatulong na palakasin ang mga ito. Ang isang self-driving na kotse na maaaring makakita ng mga bagay at mga tao sa kalsada upang hindi ito bumangga sa kanila ay hindi awtomatikong mangyayari. Kailangan nitong kilalanin ang mga larawan upang makagawa ng matalinong mga desisyon. Ang bawat self-driving na kotse ay nilagyan ng ilang mga sensor upang matukoy nito ang iba pang gumagalaw na sasakyan, mga siklista, mga tao - karaniwang anumang bagay na maaaring magdulot ng panganib. Kailangang iproseso ng isang automated na sasakyan ang mga panganib ng kalsada sa parehong paraan na ginagawa ng isang batikang driver. Mayroon pa ring ilang aspeto na dapat ayusin bago sumakay ang mga self-driving na kotse sa 2020. Ngunit kapag nagsimula na ang pag-automate ng sasakyan, ang AI image recognition ang magiging isa sa mga pangunahing driver sa likod ng mga ito na nagtatrabaho nang ligtas.
⦁ Pagkuha ng imahe
Ang isang digital na imahe ay ginawa ng isa o ilang mga sensor ng imahe, na, bukod sa iba't ibang uri ng light-sensitive na camera, kasama ang mga range sensor, tomography device, radar, ultra-sonic camera, atbp. Depende sa uri ng sensor, ang resultang data ng imahe ay isang ordinaryong 2D na imahe, isang 3D na volume, o isang pagkakasunud-sunod ng larawan. Karaniwang tumutugma ang mga pixel value sa light intensity sa isa o ilang spectral bands (mga gray na larawan o mga kulay na larawan), ngunit maaari ding iugnay sa iba't ibang pisikal na sukat, gaya ng lalim, pagsipsip o pagpapakita ng mga sonic o electromagnetic wave, o nuclear magnetic resonance.
⦁ Pre-processing:
Bago mailapat ang isang paraan ng computer vision sa data ng imahe upang kunin ang ilang partikular na piraso ng impormasyon, karaniwang kinakailangan na iproseso ang data upang matiyak na natutugunan nito ang ilang mga pagpapalagay na ipinahiwatig ng pamamaraan. Ang mga halimbawa ay
1. Re-sampling upang matiyak na tama ang image coordinate system.
2. Pagbabawas ng ingay upang matiyak na ang ingay ng sensor ay hindi nagpapakilala ng maling impormasyon.
3. Pagpapahusay ng contrast upang matiyak na matutukoy ang nauugnay na impormasyon.
4. Scale-space representation upang mapahusay ang mga istruktura ng imahe sa mga lokal na sukat na naaangkop.
⦁ Pagkuha ng tampok:
Ang mga tampok ng larawan sa iba't ibang antas ng pagiging kumplikado ay kinukuha mula sa data ng larawan. Ang mga karaniwang halimbawa ng naturang mga tampok ay mga linya, gilid at tagaytay
Mga naka-localize na punto ng interes gaya ng mga sulok, blobs o puntos. Ang mas kumplikadong mga tampok ay maaaring nauugnay sa texture, hugis o paggalaw.
⦁ Detection/segmentation:
Sa ilang mga punto sa pagproseso, isang desisyon ang ginawa tungkol sa kung aling mga punto ng imahe o mga rehiyon ng imahe ang may kaugnayan para sa karagdagang pagproseso. Ang mga halimbawa ay
1. Pagpili ng isang partikular na hanay ng mga punto ng interes
2. Segmentation ng isa o maramihang mga rehiyon ng imahe na naglalaman ng isang partikular na bagay ng interes.
⦁ Pagproseso ng mataas na antas:
Sa hakbang na ito ang input ay karaniwang isang maliit na hanay ng data, halimbawa isang set ng mga punto o isang rehiyon ng imahe na ipinapalagay na naglalaman ng isang partikular na bagay. Ang natitirang pagproseso ay nakikitungo sa, halimbawa:
1. Pag-verify na ang data ay nakakatugon sa mga pagpapalagay na batay sa modelo at application.
2. Pagtatantya ng mga partikular na parameter ng application, gaya ng object pose o objectsize.
3. Pag-uuri ng isang nakitang bagay sa iba't ibang kategorya. Kaya, ang pagpoproseso ng imahe ay tumutulong sa AI na makilala ang imahe at tumugon ayon sa pagkakakilanlan ng imahe.

Isang walang putol na hinaharap ng koleksyon ng imahe

Habang umuunlad ang teknolohiya, ang pagkilala sa larawan ay magbabalik ng mas malalaking resulta. Pinuno ng Machine Learning sa Lobster, Vladimir Pavlov ay nagsabi, "Ang mathematical na batayan para sa pagkilala sa bagay ay umiral nang mahabang panahon, ngunit ang mga teknolohikal na posibilidad ng paggamit ng mga algorithm ng computer vision ay lumitaw kamakailan. Sa ngayon, pinapayagan ng mga neural network ang paggawa ng mga perpektong detector na may kakayahang gumana nang mas mahusay kaysa sa mga tao. Pinipigilan ng isang malaking haltak ang pagkakaroon ng mga markadong dataset ng imahe para sa pagsasanay, ngunit sa malapit na hinaharap, hindi ito magiging problema. Ang mga inhinyero ng computer vision ay aktibong nagtatrabaho sa mga algorithm sa pag-aaral sa sarili." Sa hinaharap na labis na naiimpluwensyahan ng visual na komunikasyon, ang pagkilala sa imahe ay magiging pangunahing kadahilanan sa likod ng marami sa mga larawang nakikita natin. Parehong sa totoong buhay at online.