AI кескінін тану бойынша нұсқаулық

Неліктен суретті тану маңызды?

Интернеттегі мазмұнның шамамен 80 пайызы визуалды. Неліктен кескінді тегтеу мазмұн кестесінің патшасы ретінде орын алатынын анықтауды қазірдің өзінде бастауға болады. Жеке тұлғалар немесе компаниялар болсын, AI кескінді тану мүмкіндігі аз әбігермен онлайн бейнелерді анықтауға мүмкіндік берді. Жыл сайын 657 миллиардқа жуық фотосурет цифрлық түрде жарияланады, олардың көпшілігі әлеуметтік желілерде пайда болады. Бұл кескіндердің жақсы бөлігі - өнімдерді жарнамалайтын адамдар, тіпті олар байқаусызда жасаса да. Пайдаланушы жасаған мазмұн (UGC) өзінің таза түрінде брендтер үшін тамаша мүмкіндік болып табылады, өйткені ол жарнаманың ең жақсы түрін қамтамасыз етеді.
Әлеуметтік желілерде тұтынушы туралы ескертулер болған кезде компанияларды ескертуге арналған маркетинг құралдары бар, бірақ брендтерді жылжыту әлеуметтік постта олардың атын ешкім белгілемей-ақ болған кезде ше? Міне, AI кескінді тану оның құндылығын дәлелдейді. Технология дұрыс деректер жиынтығымен қамтамасыз етілсе, AI суретті арнайы тегтерсіз анықтай алады. Нәтижелер брендтер үшін олардың әлеуметтік ескертулерін қадағалау және қадағалау үшін баға жетпес.

Кескінді тану қалай жұмыс істейді?

Біз білетіндей, AI фотосуреттерді іздейтін әлеуметтік медиа платформаларын іздей алады және оларды кең деректер жиынтығымен салыстыра алады. Содан кейін ол адамдарға қарағанда әлдеқайда жылдамырақ сәйкес келетін сәйкес кескінді шешеді. Брендтер әлеуметтік желілерде өздеріне ұқсас мазмұнды табу үшін кескінді тану мүмкіндігін пайдаланады. Бұл брендтің логотипін анықтау немесе әлеуметтік медиа пайдаланушылары арасында органикалық түрде орналастырылған өнімді тану дегенді білдіреді. Адамдардан соншалықты көп ақпаратты іздеуді сұрау оңай шаршатады. AI адам қатесі туралы алаңдамайды және теңдесі жоқ деңгейде дәл нәтижелерді қайтарады. AI кескінді тану мәтінді қажет етпестен адамдардың бренд туралы не айтатынын бақылайды. Пайдаланушыларға компания атын теруді қажет етпей-ақ өздерінің әлеуметтік ескертулерін бақылай алатын брендтер өздерін тиімді жағдайда табады. AI мойындаған идентификаторлар арқылы өздерінің онлайн қамту мүмкіндігін пайдалану мүмкіндігі өте үлкен және теңдесі жоқ қамтуды ұсынады.

Мұнда кескінді танудың кейбір типтік тапсырмалары берілген: -

Алдымен сурет деректерінде белгілі бір нысан, мүмкіндік немесе әрекет бар ма, жоқ па анықтауымыз керек. Бұл тапсырма әдетте адамның күш-жігерінсіз және сенімді түрде шешілуі мүмкін, бірақ жалпы жағдай үшін компьютерлік көруде әлі де қанағаттанарлықсыз шешілмейді: ерікті жағдайларда ерікті объектілер. Бұл мәселені шешудің қолданыстағы әдістері қарапайым геометриялық нысандар (мысалы, көп қырлы), адам беттері, басып шығарылған немесе қолмен жазылған таңбалар немесе көлік құралдары сияқты нақты нысандар үшін және әдетте терминдермен сипатталған нақты жағдайларда ғана жақсы шешілуі мүмкін. объектінің камераға қатысты жақсы анықталған жарықтандыру, фон және поза. Әдебиетте тану мәселесінің әртүрлі түрлері сипатталған:

• Объектіні тану

Бір немесе бірнеше алдын ала көрсетілген немесе үйренген нысандарды немесе нысан сыныптарын, әдетте олардың суреттегі 2D позицияларымен немесе көріністегі 3D позаларымен бірге тануға болады.

• Сәйкестендіру
Нысанның жеке данасы танылады. Мысалдар белгілі бір адамның бет-әлпетін немесе саусақ ізін анықтау немесе нақты көлік құралын сәйкестендіру болып табылады.

• Анықтау
Кескін деректері белгілі бір жағдайға сканерленеді. Мысалдар медициналық суреттерде мүмкін болатын қалыптан тыс жасушаларды немесе тіндерді анықтау немесе автоматты жол ақысы жүйесінде көлік құралын анықтау болып табылады. Салыстырмалы түрде қарапайым және жылдам есептеулерге негізделген анықтау кейде дұрыс интерпретация жасау үшін есептеуді қажет ететін әдістермен әрі қарай талдауға болатын қызықты кескін деректерінің кішірек аймақтарын табу үшін қолданылады.

Тануға негізделген бірнеше арнайы тапсырмалар бар, мысалы:

• Мазмұнға негізделген кескінді іздеу
Мұнда белгілі бір мазмұны бар кескіндердің үлкен жинағындағы барлық кескіндерді табады. Мазмұн әртүрлі жолдармен көрсетілуі мүмкін, мысалы, мақсатты кескінге қатысты ұқсастық тұрғысынан (маған X суретіне ұқсас барлық кескіндерді беріңіз) немесе мәтін енгізу ретінде берілген жоғары деңгейлі іздеу критерийлері бойынша (маған барлық кескіндерді беріңіз көп үйлер, қыста алынады және оларда көлік жоқ).

• Позаны бағалау
камераға қатысты белгілі бір нысанның орнын немесе бағытын бағалауымыз керек. Бұл әдісті қолданудың мысалы ретінде конвейер лентасынан заттарды жинауға арналған роботқа көмек көрсетуге болады.

• Оптикалық таңбаларды тану
OCR ол әдетте мәтінді пішімде көбірек кодтау және Мичиган мемлекеттік университетінің Информатика және инженерия кафедрасының редакциялау немесе индекстеу мақсатында басып шығарылған немесе қолмен жазылған мәтін кескіндеріндегі кейіпкерлерді анықтайды. «Үлгілерді тану және кескінді өңдеу (PRIP) зертханасының оқытушылары мен студенттері үлгілерді немесе нысандарды тану үшін машиналарды пайдалануды зерттейді. Объектілерді сезіну, олардың қандай белгілері басқалардан ерекшеленетінін анықтау және классификациялау үшін машина қолдана алатын алгоритмдерді жобалау үшін әдістер әзірленеді. Маңызды қолданбаларға бет тану, саусақ ізін сәйкестендіру, құжат кескінін талдау, 3D нысан үлгісін құру, роботты навигациялау және 3D көлемді деректерді визуализациялау/зерттеу кіреді. Ағымдағы зерттеу мәселелеріне биометриялық аутентификация, автоматты бақылау және қадағалау, қолсыз HCI, бетті модельдеу, цифрлық су таңбалау және онлайн құжаттардың құрылымын талдау кіреді. Зертхананың соңғы түлектері қолжазбаны тану, қолтаңбаны тексеру, визуалды оқыту және суретті іздеу бойынша жұмыс істеді».

⦁ Бет-әлпетті тану
Біз бетті тану жүйелері биометриялық ақпаратты алу құралы ретінде біртіндеп танымал бола бастағанын білеміз. Бетті тану биометриялық жүйелерде маңызды рөл атқарады және визуалды бақылау мен қауіпсіздікті қоса алғанда, көптеген қолданбалар үшін тартымды. Түрлі құжаттардағы бет кескіндерін көпшіліктің қабылдауына байланысты, бетті тану келесі ұрпақтың таңдаулы биометриялық технологиясы болу үшін үлкен әлеуетке ие.

Кескінді тану жүйелері

⦁ Қозғалыс талдауы
Бірнеше тапсырмалар қозғалысты бағалауға қатысты, мұнда кескіннің әрбір нүктесіндегі немесе 3D көрінісіндегі, тіпті кескіндерді шығаратын камераның жылдамдығын бағалау үшін кескін реттілігі өңделеді. Мұндай тапсырмалардың мысалдары:

⦁ Эго қозғалысы
Камера жасаған кескін тізбегінен камераның 3D қатты қозғалысын (айналуы және аудармасы) анықтау.

⦁ Бақылау
Бақылау кескін тізбегіндегі (әдетте) кішірек қызығушылық нүктелерінің немесе объектілердің (мысалы, көлік құралдары немесе адамдар) қозғалысын бақылайды.

⦁ Оптикалық ағын
Бұл кескіннің әрбір нүктесі үшін бұл нүктенің кескін жазықтығына қатысты қалай қозғалатынын, яғни оның көрінетін қозғалысын анықтау. Бұл қозғалыс сәйкес 3D нүктесінің көріністе қалай қозғалатынының және камераның көрініске қатысты қалай қозғалатынының нәтижесі болып табылады.

⦁ Оқиға орнын қалпына келтіру
Сахнаның немесе бейненің бір немесе (әдетте) бірнеше кескінін ескере отырып, көріністі қайта құру сахнаның 3D үлгісін есептеуге бағытталған. Ең қарапайым жағдайда модель 3D нүктелерінің жиынтығы болуы мүмкін. Неғұрлым күрделі әдістер беттің толық 3D үлгісін жасайды

⦁ Кескінді қалпына келтіру
Кескінді қалпына келтірудің мақсаты кескіндерден шуды (сенсорлық шу, қозғалыс бұлдыры, т.б.) жою болып табылады. Шуды кетірудің ең қарапайым тәсілі төмен жиілікті сүзгілер немесе медиандық сүзгілер сияқты сүзгілердің әртүрлі түрлері болып табылады. Неғұрлым күрделі әдістер жергілікті кескін құрылымдарының қалай көрінетінін, оларды шуылдан ажырататын модельді болжайды. Алдымен кескін деректерін сызықтар немесе жиектер сияқты жергілікті кескін құрылымдары тұрғысынан талдау, содан кейін талдау қадамындағы жергілікті ақпарат негізінде сүзуді басқару арқылы әдетте қарапайым әдістермен салыстырғанда шуды жоюдың жақсы деңгейі алынады. Бұл саладағы мысал - олардың суреті. Кейбір жүйелер белгілі бір өлшеу немесе анықтау мәселесін шешетін дербес қолданбалар болып табылады, ал басқалары, мысалы, механикалық жетектерді басқаруға арналған ішкі жүйелерді, жоспарлауды, ақпараттық дерекқорларды, басқару элементтерін қамтитын үлкенірек дизайнның ішкі жүйесін құрайды. машина интерфейстері және т.б. Компьютерлік көру жүйесінің нақты іске асырылуы оның функционалдығы алдын ала көрсетілгеніне немесе оның кейбір бөлігін жұмыс кезінде үйренуге немесе өзгертуге болатындығына байланысты. Дегенмен, көптеген компьютерлік көру жүйелерінде кездесетін типтік функциялар бар.

Суретті тану арқылы тереңірек оқыту

Кескінді тану AI-ға дейін болды. Дегенмен, машинаны оқыту факторы объектіні немесе адамның бетін анықтау әдістерін төңкеріп отыр. Дегенмен, машиналық оқыту оны беру үшін деректер болған кезде ғана тиімді болады. Барлық AI автоматтандыруы үшін оған кескіндерді анықтауға тапсырма беру қарапайым сұраныс емес. Көрнекіліктер туралы біздің түсінігіміз екінші табиғат; бұл біз жас кезімізден жасауға бағдарламаланған нәрсе. Машинадан бірдей сұрау оңай процесс емес. Осы себепті, AI тануының ең танымал түрлерінің бірі конволюционды нейрондық желілер (CNN) болып табылады. CNN - бір-біріне жақын орналасқан пикселдерге бағытталған әдіс. Жақын орналасқан кескіндердің байланысты болуы ықтимал, яғни нысан немесе бет мөлдірлігі жоғары суретке сәйкес келеді.
Әлеуметтік медианы монетизациялауға ұмтылатын брендтер AI кескінін тану айқын артықшылықтарға ие болғанымен, оны пайдалану жағдайлары әлдеқайда тереңірек. Өздігінен басқарылатын көліктер автомобиль әлеміндегі келесі үлкен нәрсе болғалы тұр және AI кескінді тану технологиясы оларға қуат беруге көмектеседі. Жолдағы заттар мен адамдарды соқтығысып қалмас үшін анықтай алатын өздігінен жүретін көлік автоматты түрде болмайды. Ол негізделген шешімдер қабылдау үшін суреттерді тануы керек. Әрбір өзін-өзі басқаратын көлік бірнеше сенсорлармен жабдықталған, сондықтан ол басқа қозғалыстағы көліктерді, велосипедшілерді, адамдарды - негізінен қауіп төндіруі мүмкін кез келген нәрсені анықтай алады. Автоматтандырылған көлік жолдың қауіптілігін тәжірибелі жүргізуші сияқты өңдеуі керек. 2020 жылы өзін-өзі басқаратын көліктер жолға шықпас бұрын әлі де шешуге болатын бірнеше аспектілер бар. Бірақ көлікті автоматтандыру іске қосылғанда, AI кескінін тану олардың қауіпсіз жұмыс істеуінің негізгі драйверлерінің бірі болады.
⦁ Кескін алу
Сандық кескін бір немесе бірнеше кескін сенсорлары арқылы жасалады, олар жарыққа сезімтал камералардың әртүрлі түрлерінен басқа, диапазон датчиктерін, томографиялық құрылғыларды, радарларды, ультра дыбыстық камераларды және т.б. кіреді. Сенсор түріне байланысты, алынған кескін деректері кәдімгі 2D кескіні, 3D көлемі немесе кескін тізбегі. Пиксель мәндері әдетте бір немесе бірнеше спектрлік жолақтардағы (сұр кескіндер немесе түрлі-түсті кескіндер) жарық қарқындылығына сәйкес келеді, бірақ сонымен бірге тереңдік, дыбыстық немесе электромагниттік толқындардың жұтылу немесе шағылысу немесе ядролық магниттік резонанс сияқты әртүрлі физикалық өлшемдерге қатысты болуы мүмкін.
⦁ Алдын ала өңдеу:
Ақпараттың белгілі бір бөлігін алу үшін кескін деректеріне компьютерлік көру әдісін қолданбас бұрын, әдетте бұл әдіспен көзделген кейбір болжамдарды қанағаттандыратынына көз жеткізу үшін деректерді өңдеу қажет. Мысалдар
1. Кескіннің координаттар жүйесінің дұрыстығына көз жеткізу үшін қайта іріктеу.
2. Датчиктің шуы жалған ақпарат әкелмейтініне көз жеткізу үшін шуды азайту.
3. Тиісті ақпаратты анықтауға болатындығына көз жеткізу үшін контрастты жақсарту.
4. Кескін құрылымдарын жергілікті сәйкес масштабта жақсарту үшін масштаб-кеңістікте көрсету.
⦁ Мүмкіндіктерді шығару:
Кескін деректерінен күрделіліктің әртүрлі деңгейлеріндегі кескін мүмкіндіктері алынады. Мұндай белгілердің типтік мысалдары сызықтар, жиектер және жоталар болып табылады
Бұрыштар, бөртпелер немесе нүктелер сияқты жергілікті қызығушылық нүктелері. Күрделі мүмкіндіктер текстураға, пішінге немесе қозғалысқа қатысты болуы мүмкін.
⦁ Анықтау/сегменттеу:
Өңдеудің белгілі бір нүктесінде кескіннің қай нүктелері немесе аймақтары одан әрі өңдеуге сәйкес келетіні туралы шешім қабылданады. Мысалдар
1. Қызығушылықтың белгілі бір топтамасын таңдау
2. Белгілі бір қызығушылық объектісін қамтитын бір немесе бірнеше кескін аймақтарын сегменттеу.
⦁ Жоғары деңгейдегі өңдеу:
Бұл қадамда кіріс әдетте деректердің шағын жиыны болып табылады, мысалы, белгілі бір нысанды қамтиды деп болжанатын нүктелер жиыны немесе анимация аймағы. Қалған өңдеу, мысалы:
1. Деректердің үлгіге негізделген және қолданба спецификацияларына сәйкес келетінін тексеру.
2. Нысан позасы немесе нысан өлшемі сияқты қолданбаның арнайы параметрлерін бағалау.
3. Анықталған нысанды әртүрлі санаттарға жіктеу. Осылайша, кескінді өңдеу AI-ға кескінді анықтауға және кескін сәйкестендіруіне сәйкес жауап беруге көмектеседі.

Кескіндердің үздіксіз болашағы

Технология жақсарған сайын кескінді тану одан да үлкен нәтиже береді. Lobster компаниясының Machine Learning бөлімінің басшысы Владимир Павлов: «Объектіні танудың математикалық негізі бұрыннан бар, бірақ компьютерлік көру алгоритмдерін қолданудың технологиялық мүмкіндіктері жақында пайда болды. Қазірдің өзінде нейрондық желілер адамдарға қарағанда жақсы жұмыс істеуге қабілетті тамаша детекторларды жасауға мүмкіндік береді. Үлкен серпілу жаттығу үшін белгіленген кескін деректер жиынының болуын тоқтатады, бірақ жақын болашақта бұл проблема болмайды. Компьютерлік көру инженерлері өздігінен білім алу алгоритмдерімен белсенді жұмыс істеуде». Болашақта визуалды коммуникация қатты әсер еткендіктен, кескінді тану біз көріп отырған көптеген суреттердің негізгі факторы болмақ. Нақты өмірде де, желіде де.