Bakit mahalaga ang pagkilala sa larawan?

Nasa 80% ng substance sa web ay visual. Magagawa mo nang simulan ang pag-aaral kung bakit ang pag-label ng larawan ay maaaring manatili sa lugar nito bilang panginoon ng talahanayan ng sangkap. Hindi alintana kung ito ay mga tao o mga organisasyon, ginawa ng AI image recognition na maisip na makilala ang mga visual online gamit ang hindi gaanong mahalagang bagay. May humigit-kumulang 657 bilyong larawan na nai-post bawat taon nang maingat, na ang mas malaking bahagi ay lumalabas sa pamamagitan ng online media. Ang isang disenteng piraso ng mga larawang iyon ay mga indibidwal na nagsusulong ng mga item, hindi alintana kung ginagawa nila ito nang hindi sinasadya. Ang nilalamang ginawa ng kliyente (UGC) sa pinakaperpektong istraktura nito ay isang napakatalino na nagbibigay-kapangyarihang impluwensya para sa mga tatak dahil nagbibigay ito ng pinakaperpektong uri ng pag-unlad.

May mga kagamitan sa pag-a-advertise upang maalarma ang mga organisasyon kapag may abiso ng mamimili sa pamamagitan ng online media, gayunpaman, hindi ba dapat may sabihin tungkol sa kung kailan nangyari ang pag-unlad ng mga tatak nang walang sinumang naglalagay ng label sa kanilang pangalan sa social post? Ito ang lugar kung saan ipinapakita ng AI image recognition ang halaga nito. Sa pagkakataong ang teknolohiya ay pinangangalagaan ang mga tamang dataset, maaaring makilala ng AI ang isang larawan nang walang tahasang label na tinutukoy. Ang mga resulta ay mahalaga para masubaybayan at sundin ng mga brand ang kanilang mga social notice.

Paano gumagana ang pagkilala sa imahe?

Tulad ng malamang na alam natin na ang AI ay maaaring tumingin sa mga web-based na mga yugto ng media na naghahanap ng mga larawan at ihambing ang mga ito sa malawak na mga koleksyon ng impormasyon. Ito sa puntong iyon ay pipili ng may kinalaman na larawan na tumutugma sa bilis na mas mabilis kaysa sa magagawa ng mga tao. Gumagamit ang mga brand ng picture acknowledgement upang tumuklas ng content tulad ng sa kanila sa pamamagitan ng web-based na media. Iyon ay nagpapahiwatig ng pagkilala sa logo ng isang brand o pagdama ng natural na nakaposisyon na sitwasyon ng item sa mga web-based na media client. Ang paghiling na mangisda ang mga tao sa pamamagitan ng napakaraming data ay epektibong nakakapagod. Hindi binibigyang-diin ng kunwa na katalinuhan ang pagkakamali ng tao, at ibinabalik nito ang eksaktong mga resulta sa hindi magkatugmang antas. Sina-screen ng artificial intelligence picture acknowledgement kung ano ang sinasabi ng mga indibidwal tungkol sa isang brand nang hindi nangangailangan ng text. Ang mga tatak na handang sundin ang kanilang mga social notice nang hindi inaasahan ng mga kliyente na i-type ang pangalan ng organisasyon ay mapupunta sa isang napakahalagang posisyon. Ang posibilidad na samantalahin ang kanilang sariling online na pagsasama nang eksklusibo sa pamamagitan ng AI perceived identifiers ay napakalaki at nag-aalok ng walang kapantay na pagsasama.

Narito ang ilang karaniwang gawain ng pagkilala sa larawan:-

Sa simula, kailangan nating magpasya kung ang impormasyon ng larawan ay naglalaman ng ilang partikular na artikulo, highlight, o paggalaw. Ang takdang-aralin na ito ay karaniwang matutugunan nang buong puso at walang pagsisikap ng isang tao, gayunpaman ay hindi pa sapat na natatalakay sa PC vision para sa pangkalahatang kaso: self-assertive na mga artikulo sa mga discretionary circumstances. Ang kasalukuyang mga diskarte para sa pamamahala sa isyung ito ay maaaring pinakamahusay na matugunan para lamang sa mga tahasang artikulo, halimbawa, mga pangunahing bagay sa matematika (hal., polyhedral), mga mukha ng tao, mga naka-print o na-transcribe na mga character, o mga sasakyan, at sa mga tahasang pangyayari, na karaniwang inilalarawan hanggang sa lahat. sa paligid ay nailalarawan ang pagliwanag, pundasyon, at postura ng item na kumpara sa camera. Ang iba't ibang uri ng isyu sa pagkilala ay inilalarawan sa pagsulat:

• Pagkilala sa bagay

Ang isa o ilang paunang natukoy o natutunan na mga artikulo o mga klase ng item ay maaaring makita, karaniwan kasama ang kanilang mga 2D na sitwasyon sa larawan o 3D na postura sa eksena.

• Pagkakakilanlan

Ang isang indibidwal na kaso ng isang artikulo ay pinaghihinalaang. Ang mga modelo ay nagpapakilala sa patunay ng mukha ng isang partikular na indibidwal o natatanging marka, o ID ng isang partikular na sasakyan.

• Pagtuklas

Ang impormasyon ng larawan ay sinusuri para sa isang partikular na kondisyon. Ang mga modelo ay pagtuklas ng mga naiisip na kakaibang cell o tissue sa mga klinikal na larawan o pagkilala sa isang sasakyan sa isang naka-program na balangkas ng gastos sa kalye. Ang pagtuklas na nakadepende sa katamtamang prangka at mabilis na mga kalkulasyon ay naririto at doon ginagamit para sa paghahanap ng mas katamtamang mga distrito ng nakakaintriga na impormasyon ng larawan na maaari ding masira sa pamamagitan ng mas maraming computation na paghiling ng mga diskarte upang lumikha ng tamang pagsasalin.

Mayroong ilang partikular na gawaing nakasalalay sa pagkilala, halimbawa,

• Pagbawi ng larawan na nakabatay sa nilalaman

Dito natutuklasan ang lahat ng mga larawan sa isang mas malaking pagsasaayos ng mga larawan na may partikular na sangkap. Ang sangkap ay maaaring matukoy sa isang hindi inaasahang paraan, halimbawa sa pagkakatulad na nauugnay sa isang layunin na larawan (ibigay sa akin ang lahat ng mga larawan tulad ng larawan X), o hanggang sa makabuluhang antas ng mga pamantayan sa pagtugis na ibinigay bilang text input (bigyan ako ng lahat ng mga larawan na naglalaman ng maraming mga bahay, kinukuha sa panahon ng taglamig, at walang sasakyan sa mga ito).

• Pagtatasa ng pose

kailangan nating sukatin ang posisyon o direksyon ng isang partikular na artikulo sa paghahambing sa camera. Ang isang modelong aplikasyon para sa diskarteng ito ay makakatulong sa isang robot na mabawi ang mga item mula sa isang linya ng transportasyon sa isang mekanikal na sitwasyon ng sistema ng produksyon.

• Pagkilala sa optical character

OCR na nagpapakilala sa mga character sa mga larawan ng naka-print o manu-manong nakasulat na nilalaman, para sa karamihan na may layuning pangwakas na i-encode ang nilalaman sa isang organisasyon nang higit pa at bigyang kapangyarihan ang pagbabago o pag-order ng Department of Computer Science and Engineering, Michigan State University. Ang mga diskarte ay nilikha upang makita ang mga bagay, upang mahanap kung alin sa kanilang mga highlight ang nakakakilala sa kanila mula sa iba, at upang magplano ng mga kalkulasyon na maaaring magamit ng isang makina upang gawin ang paglalarawan. Ang mga makabuluhang application ay nagsasama ng pagkilala sa mukha, finger impression na makikilalang patunay, pagtatala ng larawan na pagsusuri, pag-develop ng modelo ng 3D na artikulo, ruta ng robot, at representasyon/pagsisiyasat ng 3D volumetric na impormasyon. Isinasama ng mga isyu sa ebb and flow research ang biometric confirmation, programmed observation and following, handless HCI, face displaying, computerized watermarking at pagsusuri sa disenyo ng mga online na archive. Ang mga nahuling alumni ng lab ay humarap sa penmanship acknowledgement, signature check, visual learning, at picture recovery.

Modelo:

Dapat nating makita na nakakagulat na kailangan ng ilang pixel ng data upang magkaroon ng opsyong makilala ang paksa ng isang larawan, natuklasan ng isang pangkat na minamaneho ng isang espesyalista sa MIT. Ang paghahayag ay maaaring mag-udyok ng mga pambihirang pagsulong sa mekanisadong nakikilalang patunay ng mga online na larawan at, sa wakas, ay nagbibigay ng saligan sa mga PC na makita tulad ng ginagawa ng mga tao. Ang paghihinuha ng isang partikular na maikling paglalarawan ay magiging isang makabuluhang pag-unlad patungo sa paggawa ng maiisip na imbentaryo ang bilyun-bilyong larawan sa Internet dahil dito. Sa ngayon, ang nag-iisang paraan upang maghanap ng mga larawan ay nakasalalay sa mga inskripsiyon ng nilalaman na ipinasok ng mga indibidwal sa pamamagitan ng kamay para sa bawat larawan, at maraming mga larawan ang nangangailangan ng naturang data. Ang Programmed ID ay magbibigay din ng diskarte sa pag-file ng mga larawan na dina-download ng mga indibidwal mula sa mga computerized na camera papunta sa kanilang mga PC, nang hindi nararanasan at subtitle ang bawat isa sa pamamagitan ng kamay. Gayundin, sa wakas ay maaari itong mag-prompt ng tunay na machine vision, na kung minsan ay maaaring magpapahintulot sa mga robot na ayusin ang impormasyong nagmumula sa kanilang mga camera at ayusin kung nasaan sila. upang kung ang dalawang larawan ay may maihahambing na pagpapangkat [ng mga numero], sila ay malamang na mapaghahambing. gawa sa pangkalahatan ay katulad na artikulo, sa pangkalahatan ay katulad na kaayusan.” Kung ang isang larawan ay nauugnay sa isang inskripsiyon o pamagat, sa puntong iyon ang iba't ibang mga larawan na nag-uugnay sa mathematical code nito ay malamang na magpapakita ng katulad na item, (halimbawa, isang sasakyan, puno, o indibidwal) kaya ang pangalang nauugnay sa isang larawan ay maaaring lumipat sa iba. "Sa sobrang dami ng mga larawan, kahit na sa pangkalahatan ay direktang kalkulasyon ay maaaring gumanap ng tunay na mahusay" sa pagkilala sa mga larawan nang gayon.

⦁ Pagkilala sa Mukha

napagtanto namin na ang mga framework sa pagkilala sa mukha ay patuloy na sumikat bilang mga paraan para sa pag-alis ng biometric data. Ang pagkilala sa mukha ay may pangunahing bahagi sa biometric frameworks at nakakaakit para sa iba't ibang mga aplikasyon kabilang ang visual reconnaissance at seguridad. Dahil sa pangkalahatang pagkilala ng populasyon sa mga larawan ng mukha sa iba't ibang ulat, ang pagkilala sa mukha ay may hindi kapani-paniwalang potensyal na maging makabagong biometric na pagbabago ng desisyon.

Mga Sistema sa Pagkilala ng Larawan

⦁ Pagsusuri sa paggalaw

Ang ilang mga takdang-aralin ay tumutukoy sa pagtatasa ng paggalaw kung saan ang isang sunud-sunod na larawan ay inihanda upang lumikha ng isang sukatan ng bilis alinman sa bawat nakatutok sa larawan o sa 3D na eksena, o kahit sa camera na naghahatid ng mga larawan . Ang mga pagkakataon ng naturang mga takdang-aralin ay:

⦁ Ego na paggalaw

Pagpapasya sa 3D inflexible na paggalaw (pivot at interpretasyon) ng camera mula sa sunud-sunod na larawan na ginawa ng camera.

⦁ Pagsubaybay

Sumusunod ay ang pagsunod sa mga pag-unlad ng isang (karaniwan) na mas katamtamang pagsasaayos ng mga pokus ng interes o protesta (hal., mga sasakyan o tao) sa sunod-sunod na larawan.

⦁ Optical stream

Ito ay upang magpasya, para sa bawat punto sa larawan, kung paano gumagalaw ang puntong iyon sa paghahambing sa eroplano ng larawan, ibig sabihin, ang maliwanag na paggalaw nito. Ang paggalaw na ito ay isang kinalabasan kung paano gumagalaw ang paghahambing na 3D point sa eksena at kung paano gumagalaw ang camera kumpara sa eksena.

⦁ Pag-remake ng eksena

Dahil sa isa o (karaniwan) higit pang mga larawan ng isang eksena, o isang video, ang mga target na reproduction ng eksena ay nagrerehistro ng isang 3D na modelo ng eksena. Sa pinakamadaling kaso, ang modelo ay maaaring isang grupo ng mga 3D focus. Ang mga mas pinong diskarte ay gumagawa ng kabuuang 3D surface model

⦁ Muling pagbuo ng imahe

Ang punto ng muling pagtatayo ng larawan ay ang paglisan ng kaguluhan (sensor clamor, kilusan na nakakubli, at iba pa) mula sa mga larawan. Ang hindi bababa sa kumplikadong naiisip na pamamaraan para sa commotion expulsion ay iba't ibang uri ng mga channel, halimbawa, mga low-pass na channel o middle channel. Inaasahan ng mas modernong mga diskarte ang isang modelo kung paano magkahawig ang mga istruktura ng larawan ng kapitbahayan, isang modelo na kinikilala ang mga ito mula sa kaguluhan. Sa pamamagitan ng unang pagsisiyasat sa impormasyon ng larawan sa medyo matagal na panahon ng mga kalapit na istruktura ng larawan, halimbawa, mga linya o gilid, at pagkatapos ay kontrolin ang paghihiwalay na nakadepende sa data ng kapitbahayan mula sa hakbang ng pagsusuri, ang isang mas mataas na antas ng paglisan ng kaguluhan ay karaniwang nakuha na kaibahan sa mas kaunti. kumplikadong mga pamamaraan. Isang modelo sa larangang ito ang kanilang pagpipinta. Ang ilang mga balangkas ay mga independiyenteng aplikasyon na tumutugon sa isang partikular na isyu sa pagtatantya o pagkilala, habang ang iba ay binubuo ng isang sub-arrangement ng isang mas malaking plano na, halimbawa, ay naglalaman din ng mga sub-framework para sa kontrol ng mga mekanikal na actuator, pag-aayos, mga base ng impormasyon ng data, man- mga interface ng makina, at iba pa Ang partikular na pagpapatupad ng isang PC vision framework ay umaasa din sa kung ang pagiging kapaki-pakinabang nito ay paunang natukoy o kung ang ilang bahagi nito ay maaaring matutunan o maisaayos sa panahon ng aktibidad. Mayroong, maging na maaaring ito, ang mga regular na kapasidad na matatagpuan sa maraming PC vision