Ինչու՞ է կարևոր պատկերի ճանաչումը:

Համացանցում պարունակվող բովանդակության մոտ 80 տոկոսը տեսողական է: Դուք արդեն կարող եք սկսել պարզել, թե ինչու պատկերների պիտակավորումը կարող է զբաղեցնել իր տեղը որպես բովանդակության աղյուսակի թագավոր: Անկախ նրանից, թե դա անհատներ են, թե ընկերություններ, արհեստական ​​ինտելեկտի պատկերների ճանաչումը թույլ է տվել նվազագույն աղմուկով նույնականացնել վիզուալները առցանց: Ամեն տարի թվայնորեն տեղադրվում է մոտ 657 միլիարդ լուսանկար, որոնց մեծամասնությունը հայտնվում է սոցիալական ցանցերում: Այդ պատկերների մի լավ մասը մարդիկ են, ովքեր գովազդում են ապրանքներ, նույնիսկ եթե նրանք դա անում են ակամա: Օգտագործողի կողմից ստեղծված բովանդակությունը (UGC) իր մաքուր ձևով հիանալի հնարավորություն է տալիս ապրանքանիշերին, քանի որ այն ապահովում է գովազդի լավագույն տեսակը:
Կան մարքեթինգային գործիքներ ընկերություններին ահազանգելու համար, երբ սպառողների հիշատակումը կա սոցիալական մեդիայում, բայց ի՞նչ կարելի է ասել, երբ ապրանքանիշերի առաջխաղացումը տեղի է ունենում առանց որևէ մեկի անունը նշելու սոցիալական գրառման մեջ: Այստեղ է, որ AI պատկերի ճանաչումն ապացուցում է իր արժեքը: Եթե ​​տեխնոլոգիան սնվում է տվյալների ճիշտ հավաքածուներով, AI-ն կարող է նույնականացնել պատկերն առանց հատուկ պիտակների հիշատակման: Արդյունքները անգնահատելի են ապրանքանիշերի համար՝ հետևելու և հետևելու իրենց սոցիալական հիշատակումներին:

Ինչպե՞ս է աշխատում պատկերի ճանաչումը:

Ինչպես գիտենք, AI-ն կարող է որոնել սոցիալական մեդիա հարթակներ՝ փնտրելով լուսանկարներ և համեմատել դրանք տվյալների ընդարձակ հավաքածուների հետ: Այնուհետև այն որոշում է համապատասխան պատկերը, որը համընկնում է շատ ավելի արագ, քան մարդիկ կարող են: Բրենդներն օգտագործում են պատկերների ճանաչումը՝ սոցիալական մեդիայում իրենց սեփականին նման բովանդակություն գտնելու համար: Դա նշանակում է նույնականացնել ապրանքանիշի լոգոն կամ ճանաչել սոցիալական մեդիայի օգտատերերի շրջանում օրգանապես տեղադրված արտադրանքի տեղադրումը: Մարդկանցից այդքան տեղեկատվության միջով անցնելու խնդրանքը հեշտությամբ դառնում է հոգնեցուցիչ: AI-ն չի անհանգստանում մարդկային սխալի համար և ճշգրիտ արդյունքներ է տալիս անզուգական մակարդակներում: AI պատկերի ճանաչումը վերահսկում է այն, ինչ մարդիկ ասում են ապրանքանիշի մասին՝ առանց տեքստի անհրաժեշտության: Այն ապրանքանիշերը, որոնք կարող են հետևել իրենց սոցիալական հիշատակումներին, առանց օգտվողների ընկերության անունը մուտքագրելու անհրաժեշտության, կհայտնվեն շահավետ դիրքում: Սեփական առցանց ծածկույթը բացառապես AI ճանաչված նույնացուցիչների միջոցով օգտվելու ներուժը հսկայական է և առաջարկում է անզուգական ծածկույթ:

Ահա պատկերների ճանաչման մի քանի բնորոշ առաջադրանքներ.

Սկզբում մենք պետք է որոշենք՝ պատկերի տվյալները պարունակում են որոշակի օբյեկտ, հատկություն կամ գործունեություն, թե ոչ: Այս խնդիրը, որպես կանոն, կարող է լուծվել ուժեղ և առանց ջանքերի մարդու կողմից, բայց համակարգչային տեսլականում դեռևս բավարար չափով չի լուծվում ընդհանուր դեպքում՝ կամայական օբյեկտներ կամայական իրավիճակներում: Այս խնդրի լուծման գոյություն ունեցող մեթոդները լավագույնս կարող են լուծվել միայն կոնկրետ առարկաների համար, ինչպիսիք են պարզ երկրաչափական առարկաները (օրինակ՝ բազմադեմները), մարդու դեմքերը, տպագիր կամ ձեռագիր նիշերը կամ փոխադրամիջոցները, և կոնկրետ իրավիճակներում, որոնք սովորաբար նկարագրվում են տերմիններով։ տեսախցիկի նկատմամբ օբյեկտի լավ սահմանված լուսավորության, ֆոնի և դիրքի մասին: Գրականության մեջ նկարագրված են ճանաչման խնդրի տարբեր տեսակներ.

• Օբյեկտների ճանաչում

Մեկ կամ մի քանի նախապես սահմանված կամ սովորած առարկաներ կամ առարկաների դասեր կարող են ճանաչվել, սովորաբար պատկերի մեջ նրանց 2D դիրքերի կամ տեսարանի 3D դիրքերի հետ միասին:

• Նույնականացում
Ճանաչվում է օբյեկտի անհատական ​​օրինակ: Օրինակներն են կոնկրետ անձի դեմքի կամ մատնահետքի նույնականացումը կամ կոնկրետ մեքենայի նույնականացումը:

• Հայտնաբերում
Պատկերի տվյալները սկանավորվում են որոշակի վիճակի համար: Օրինակներ են բժշկական պատկերներում հնարավոր աննորմալ բջիջների կամ հյուսվածքների հայտնաբերումը կամ ավտոմոբիլների հայտնաբերումը ճանապարհային վճարների ավտոմատ համակարգում: Համեմատաբար պարզ և արագ հաշվարկների վրա հիմնված հայտնաբերումը երբեմն օգտագործվում է հետաքրքիր պատկերային տվյալների ավելի փոքր տարածքներ գտնելու համար, որոնք կարող են հետագայում վերլուծվել ավելի շատ հաշվողական տեխնիկայի միջոցով՝ ճիշտ մեկնաբանություն ստանալու համար:

Գոյություն ունեն ճանաչման վրա հիմնված մի քանի մասնագիտացված առաջադրանքներ, ինչպիսիք են.

• Բովանդակության վրա հիմնված պատկերի որոնում
Այստեղ կգտնեք բոլոր պատկերները պատկերների ավելի մեծ հավաքածուի մեջ, որոնք ունեն որոշակի բովանդակություն: Բովանդակությունը կարող է սահմանվել տարբեր ձևերով, օրինակ՝ թիրախային պատկերի հետ կապված նմանության տեսանկյունից (տուր ինձ բոլոր պատկերները նման են X պատկերին), կամ բարձր մակարդակի որոնման չափանիշներով, որոնք տրված են որպես տեքստի մուտքագրում (տուր ինձ բոլոր պատկերները, որոնք պարունակում են շատ տներ, վերցված են ձմռանը և մեքենաներ չկան):

• Պոզի գնահատում
մենք պետք է գնահատենք տեսախցիկի նկատմամբ կոնկրետ օբյեկտի դիրքը կամ կողմնորոշումը: Այս տեխնիկայի կիրառման օրինակ կարող է ծառայել ռոբոտին հավաքման գծի իրավիճակում կոնվեյերային գոտուց առարկաներ հանելիս:

• Օպտիկական բնույթի ճանաչում
OCR որը նույնականացնում է տպագիր կամ ձեռքով գրված տեքստի պատկերների նիշերը, սովորաբար տեքստը ավելի շատ ձևաչափով կոդավորելու և Միչիգան ​​նահանգի Համալսարանի Համակարգչային գիտության և ճարտարագիտության բաժինը խմբագրելու կամ ինդեքսավորելու նպատակով: «Նախշերի ճանաչման և պատկերի մշակման (PRIP) լաբորատորիայի պրոֆեսորադասախոսական կազմը և ուսանողները ուսումնասիրում են մեքենաների օգտագործումը նախշերը կամ առարկաները ճանաչելու համար: Մեթոդներ են մշակվում առարկաները զգալու, դրանց հատկանիշներից որոնք են դրանք տարբերում մյուսներից և նախագծելու ալգորիթմներ, որոնք կարող են օգտագործվել մեքենայի կողմից դասակարգումը կատարելու համար: Կարևոր հավելվածները ներառում են դեմքի ճանաչում, մատնահետքի նույնականացում, փաստաթղթերի պատկերի վերլուծություն, 3D օբյեկտի մոդելի կառուցում, ռոբոտների նավիգացիա և 3D ծավալային տվյալների վիզուալիզացիա/հետազոտություն: Ընթացիկ հետազոտական ​​խնդիրները ներառում են կենսաչափական նույնականացում, ավտոմատ հսկողություն և հետևում, առանց ձեռքի HCI, դեմքի մոդելավորում, թվային ջրանիշ և առցանց փաստաթղթերի կառուցվածքի վերլուծություն: Լաբորատորիայի վերջին շրջանավարտներն աշխատել են ձեռագրի ճանաչման, ստորագրության ստուգման, տեսողական ուսուցման և պատկերների որոնման վրա»:

⦁ Դեմքի ճանաչում
մենք գիտենք, որ դեմքի ճանաչման համակարգերը աստիճանաբար դառնում են հանրաճանաչ՝ որպես կենսաչափական տեղեկատվության արդյունահանման միջոց: Դեմքի ճանաչումը կարևոր դեր ունի կենսաչափական համակարգերում և գրավիչ է բազմաթիվ ծրագրերի համար, ներառյալ տեսողական հսկողությունը և անվտանգությունը: Տարբեր փաստաթղթերում դեմքի պատկերների հանրության կողմից ընդունված լինելու պատճառով դեմքի ճանաչումը մեծ ներուժ ունի դառնալու հաջորդ սերնդի ընտրության կենսաչափական տեխնոլոգիան:

Պատկերների ճանաչման համակարգեր

⦁ Շարժման վերլուծություն
Մի քանի առաջադրանքներ վերաբերում են շարժման գնահատմանը, որտեղ պատկերի հաջորդականությունը մշակվում է արագության գնահատման համար՝ կա՛մ պատկերի յուրաքանչյուր կետում, կա՛մ 3D տեսարանում, կամ նույնիսկ այն տեսախցիկի, որն արտադրում է պատկերները: Նման առաջադրանքների օրինակներն են.

⦁  Էգոյի շարժում
Տեսախցիկի 3D կոշտ շարժման (պտույտի և թարգմանության) որոշումը տեսախցիկի կողմից արտադրված պատկերի հաջորդականությունից:

⦁ Հետևում
Հետագծումը հետևում է (սովորաբար) ավելի փոքր թվով հետաքրքրությունների կետերի կամ առարկաների (օրինակ՝ տրանսպորտային միջոցներ կամ մարդիկ) շարժումներին պատկերի հաջորդականությամբ:

⦁ Օպտիկական հոսք
Սա պատկերի յուրաքանչյուր կետի համար որոշելու համար, թե ինչպես է այդ կետը շարժվում պատկերի հարթության համեմատ, այսինքն՝ նրա ակնհայտ շարժումը: Այս շարժումը արդյունք է և՛ այն բանի, թե ինչպես է համապատասխան 3D կետը շարժվում տեսարանում, և թե ինչպես է տեսախցիկը շարժվում տեսարանի համեմատ:

⦁ Տեսարանի վերակառուցում
Տեսարանի կամ տեսահոլովակի մեկ կամ (սովորաբար) ավելի շատ պատկերների դեպքում տեսարանի վերակառուցումը նպատակ ունի հաշվարկել տեսարանի 3D մոդելը: Ամենապարզ դեպքում մոդելը կարող է լինել 3D կետերի հավաքածու: Ավելի բարդ մեթոդները ստեղծում են 3D մակերեսի ամբողջական մոդել

⦁ Պատկերի վերականգնում
Պատկերի վերականգնման նպատակը պատկերներից աղմուկի հեռացումն է (սենսորային աղմուկ, շարժման պղտորում և այլն): Աղմուկի հեռացման ամենապարզ մոտեցումը տարբեր տեսակի զտիչներն են, ինչպիսիք են ցածր անցումային զտիչները կամ միջին ֆիլտրերը: Ավելի բարդ մեթոդները ենթադրում են մոդել, թե ինչպես են տեղական պատկերի կառուցվածքները նման, մոդել, որը տարբերում է դրանք աղմուկից: Սկզբում պատկերի տվյալները վերլուծելով պատկերի տեղական կառուցվածքների առումով, ինչպիսիք են գծերը կամ եզրերը, և այնուհետև վերահսկելով զտումը, որը հիմնված է վերլուծության փուլի տեղական տեղեկատվության վրա, սովորաբար ստացվում է աղմուկի հեռացման ավելի լավ մակարդակ՝ համեմատած ավելի պարզ մոտեցումների հետ: Այս ոլորտում օրինակ է նրանց նկարչությունը։ Որոշ համակարգեր ինքնուրույն հավելվածներ են, որոնք լուծում են չափման կամ հայտնաբերման հատուկ խնդիր, մինչդեռ մյուսները կազմում են ավելի մեծ նախագծման ենթահամակարգ, որը, օրինակ, պարունակում է նաև ենթահամակարգեր մեխանիկական շարժիչների, պլանավորման, տեղեկատվական տվյալների բազաների, մարդ- մեքենայական ինտերֆեյսներ և այլն: Համակարգչային տեսողության համակարգի հատուկ ներդրումը նույնպես կախված է նրանից, թե արդյոք դրա ֆունկցիոնալությունը նախապես սահմանված է, թե արդյոք դրա որոշ մասը կարելի է սովորել կամ փոփոխել շահագործման ընթացքում: Այնուամենայնիվ, կան բնորոշ գործառույթներ, որոնք հանդիպում են համակարգչային տեսողության շատ համակարգերում:

 

Ավելի խորը ուսուցում պատկերների ճանաչմամբ

Պատկերի ճանաչումը եղել է մինչև AI-ն: Այնուամենայնիվ, մեքենայական ուսուցման գործոնը հեղափոխում է առարկայի կամ անձի դեմքը նույնականացնելու մեթոդները: Այնուամենայնիվ, մեքենայական ուսուցումն արդյունավետ է միայն այն դեպքում, երբ կան տվյալներ այն կերակրելու համար: Արհեստական ​​ինտելեկտի ամբողջ ավտոմատացման համար պատկերները նույնականացնելու հանձնարարությունը պարզ խնդրանք չէ: Վիզուալների մեր ըմբռնումը երկրորդ բնույթն է. դա մի բան է, որը մենք ծրագրված ենք անել փոքր տարիքից: Նույնը մեքենայից խնդրելը պարզ գործընթաց չէ: Այդ իսկ պատճառով, արհեստական ​​ինտելեկտի ճանաչման առավել հայտնի ձևերից մեկը կոնվոլյուցիոն նեյրոնային ցանցերն են (CNN): CNN-ը մեթոդ է, որը կենտրոնանում է միմյանց կողքի գտնվող պիքսելների վրա: Մոտ տեղակայված պատկերներն ավելի հավանական է, որ փոխկապակցված լինեն, ինչը նշանակում է, որ առարկան կամ դեմքը համընկնում են ավելի թափանցիկ նկարի հետ:
Թեև ապրանքանիշերը, որոնք ցանկանում են դրամայնացնել սոցիալական մեդիան, թեև արհեստական ​​ինտելեկտի պատկերի ճանաչումն ունի հստակ առավելություններ, դրա օգտագործման դեպքերը շատ ավելի խորն են: Ինքնակառավարվող մեքենաները կդառնան ավտոմոբիլային աշխարհում հաջորդ մեծ բանը, և AI պատկերների ճանաչման տեխնոլոգիան օգնում է նրանց հզորացնել: Ինքնավար մեքենան, որը կարող է հայտնաբերել առարկաներ և մարդկանց ճանապարհին, որպեսզի չբախվի դրանց, ինքնաբերաբար չի առաջանում: Այն պետք է ճանաչի պատկերները՝ տեղեկացված որոշումներ կայացնելու համար: Յուրաքանչյուր ինքնակառավարվող մեքենա հագեցած է մի քանի սենսորներով, որպեսզի այն կարողանա նույնականացնել շարժվող այլ մեքենաները, հեծանվորդները, մարդկանց, հիմնականում այն ​​ամենը, ինչը կարող է վտանգ ներկայացնել: Ավտոմատացված մեքենան պետք է վերամշակի ճանապարհի վտանգները, ինչպես դա անում է փորձառու վարորդը: Դեռ մի քանի ասպեկտներ կան, որոնք պետք է արդուկվեն, մինչև 2020 թվականին ինքնակառավարվող մեքենաները դուրս գան ճանապարհին: Բայց երբ տրանսպորտային միջոցների ավտոմատացումը գործարկվի, AI պատկերի ճանաչումը կլինի նրանց հետևում ապահով աշխատող հիմնական շարժիչներից մեկը:
⦁ Պատկեր-ձեռքբերում
Թվային պատկերն արտադրվում է մեկ կամ մի քանի պատկերի սենսորների միջոցով, որոնք, բացի լուսազգայուն տեսախցիկների տարբեր տեսակներից, ներառում են տիրույթի տվիչներ, տոմոգրաֆիկ սարքեր, ռադարներ, ուլտրաձայնային տեսախցիկներ և այլն: Կախված սենսորի տեսակից՝ ստացված պատկերի տվյալները։ սովորական 2D պատկեր է, 3D ծավալ կամ պատկերի հաջորդականություն: Պիկսելային արժեքները սովորաբար համապատասխանում են լույսի ինտենսիվությանը մեկ կամ մի քանի սպեկտրային գոտիներում (մոխրագույն պատկերներ կամ գունավոր պատկերներ), բայց կարող են նաև կապված լինել տարբեր ֆիզիկական չափումների հետ, ինչպիսիք են ձայնային կամ էլեկտրամագնիսական ալիքների խորությունը, կլանումը կամ արտացոլումը կամ միջուկային մագնիսական ռեզոնանսը:
⦁ Նախամշակում.
Նախքան համակարգչային տեսողության մեթոդը կարող է կիրառվել պատկերի տվյալների վրա՝ որոշակի տեղեկատվություն հանելու համար, սովորաբար անհրաժեշտ է մշակել տվյալները՝ համոզվելու համար, որ այն բավարարում է մեթոդի կողմից ենթադրվող որոշակի ենթադրություններին: Օրինակներն են
1. Կրկին նմուշառում` համոզվելու համար, որ պատկերի կոորդինատային համակարգը ճիշտ է:
2. Աղմուկի նվազեցում, որպեսզի համոզվի, որ սենսորային աղմուկը կեղծ տեղեկատվություն չի ներկայացնում:
3. Կոնտրաստի ուժեղացում՝ հավաստիացնելու համար, որ համապատասխան տեղեկատվությունը կարող է հայտնաբերվել:
4. Սանդղակ-տարածության ներկայացում` պատկերի կառուցվածքները տեղական համապատասխան մասշտաբներով ուժեղացնելու համար:
⦁ Առանձնահատկությունների արդյունահանում.
Պատկերի առանձնահատկությունները բարդության տարբեր մակարդակներում արդյունահանվում են պատկերի տվյալներից: Նման հատկանիշների բնորոշ օրինակներ են գծերը, եզրերը և ծայրերը
Տեղայնացված հետաքրքրության կետեր, ինչպիսիք են անկյունները, բշտիկները կամ կետերը: Ավելի բարդ առանձնահատկություններ կարող են կապված լինել հյուսվածքի, ձևի կամ շարժման հետ:
⦁ Հայտնաբերում/հատվածավորում.
Մշակման ինչ-որ պահի որոշում է կայացվում այն ​​մասին, թե որ պատկերի կետերը կամ պատկերի շրջաններն են կարևոր հետագա մշակման համար: Օրինակներն են
1. Հետաքրքիր կետերի որոշակի փաթեթի ընտրություն
2. Մեկ կամ մի քանի պատկերային շրջանների հատվածավորում, որոնք պարունակում են հատուկ հետաքրքրության օբյեկտ:
⦁ Բարձր մակարդակի վերամշակում.
Այս քայլում մուտքագրումը սովորաբար տվյալների փոքր հավաքածու է, օրինակ՝ կետերի կամ պատկերի շրջան, որը ենթադրվում է, որ պարունակում է որոշակի օբյեկտ: Մնացած վերամշակումը վերաբերում է, օրինակ.
1. Ստուգում, որ տվյալները բավարարում են մոդելի վրա հիմնված և կիրառական ենթադրություններին:
2. Կիրառման հատուկ պարամետրերի գնահատում, ինչպիսիք են օբյեկտի դիրքը կամ օբյեկտի չափը:
3. Հայտնաբերված օբյեկտի դասակարգում տարբեր կատեգորիաների: Այսպիսով, պատկերի մշակումն օգնում է AI-ին բացահայտել պատկերը և արձագանքել պատկերի նույնականացմանը համապատասխան:

Պատկերների անխափան ապագա

Քանի որ տեխնոլոգիան բարելավվում է, պատկերի ճանաչումը ավելի մեծ արդյունքներ կտա: Lobster-ի մեքենայական ուսուցման ղեկավար Վլադիմիր Պավլովն ասում է. «Օբյեկտների ճանաչման մաթեմատիկական հիմքը գոյություն ունի վաղուց, սակայն վերջերս ի հայտ եկան համակարգչային տեսողության ալգորիթմներ օգտագործելու տեխնոլոգիական հնարավորությունները: Արդեն նեյրոնային ցանցերը թույլ են տալիս ստեղծել կատարյալ դետեկտորներ, որոնք ունակ են ավելի լավ աշխատել, քան մարդիկ: Մեծ ցնցումը հետ է պահում նշված պատկերների տվյալների հավաքածուների առկայությունը մարզումների համար, բայց մոտ ապագայում դա խնդիր չի լինի: Համակարգչային տեսողության ինժեներները ակտիվորեն աշխատում են ինքնուրույն ուսուցման ալգորիթմների վրա»: Վիզուալ հաղորդակցությունից մեծ ազդեցություն ունեցող ապագայի դեպքում պատկերների ճանաչումը կլինի մեր տեսած շատ նկարների հիմնական գործոնը: Ինչպես իրական կյանքում, այնպես էլ առցանց: