Защо разпознаването на изображения е важно?

Около 80 процента от съдържанието в интернет е визуално. Вече можете да започнете да обмисляте защо маркирането на изображения може да задържи мястото си като цар на таблицата със съдържание. Независимо дали става дума за физически лица или компании, AI разпознаването на изображения направи възможно идентифицирането на визуални елементи онлайн с минимални усилия. Там около 657 милиарда снимки се публикуват всяка година дигитално, като повечето се появяват в социалните медии. Голяма част от тези изображения са хора, рекламиращи продукти, дори и да го правят несъзнателно. Генерираното от потребителите съдържание (UGC) в най-чистата му форма е отличен инструмент за брандовете, тъй като осигурява най-добрия вид промоция.
Има маркетингови инструменти за предупреждаване на компаниите, когато има споменаване на потребител в социалните медии, но какво да кажем, когато промотирането на марки се извършва без никой да маркира името им в социалната публикация? Това е мястото, където AI разпознаването на изображения доказва своята стойност. Ако технологията получи правилните набори от данни, AI може да идентифицира изображение без конкретни споменавания на етикети. Резултатите са безценни за марките, за да проследяват и проследяват своите социални споменавания.

Как работи разпознаването на изображения?

Както знаем, AI може да търси в платформи на социални медии, търсейки снимки и да ги сравнява с обширни набори от данни. След това взема решение за подходящо изображение, което съвпада със скорост много по-бърза, отколкото хората са способни. Марките използват разпознаване на изображения, за да намерят съдържание, подобно на тяхното собствено в социалните медии. Това означава идентифициране на логото на марката или разпознаване на органично позициониране на продукти сред потребителите на социални медии. Искането на хората да преглеждат толкова много информация лесно става уморително. AI не се тревожи за човешката грешка и връща прецизни резултати на несравними нива. AI разпознаването на изображения следи какво хората казват за дадена марка, без да е необходим текст. Марките, които могат да проследяват своите социални споменавания, без потребителите да трябва да въвеждат името на компанията, ще се окажат в изгодна позиция. Потенциалът да се възползват от собственото си онлайн покритие единствено чрез разпознати от AI идентификатори е огромен и предлага несравнимо покритие.

Ето някои типични задачи за разпознаване на изображения: -

Първо трябва да определим дали данните за изображението съдържат или не някакъв специфичен обект, функция или дейност. Тази задача обикновено може да бъде решена стабилно и без усилие от човек, но все още не е решена задоволително в компютърното зрение за общия случай: произволни обекти в произволни ситуации. Съществуващите методи за справяне с този проблем могат да бъдат разрешени най-добре само за конкретни обекти, като прости геометрични обекти (напр. полиедри), човешки лица, печатни или ръкописни знаци или превозни средства, и в специфични ситуации, обикновено описани с термини на добре дефинирано осветление, фон и поза на обекта спрямо камерата. В литературата са описани различни разновидности на проблема с разпознаването:

• Разпознаване на обекти

Могат да бъдат разпознати един или няколко предварително определени или научени обекти или класове обекти, обикновено заедно с техните 2D позиции в изображението или 3D пози в сцената.

• Идентификация
Разпознава се индивидуален екземпляр на обект. Примери за това са идентифициране на лице или пръстов отпечатък на конкретно лице или идентифициране на конкретно превозно средство.

• Откриване
Данните за изображението се сканират за конкретно състояние. Примери за това са откриване на възможни анормални клетки или тъкани в медицински изображения или откриване на превозно средство в система за автоматично пътно таксуване. Откриването, базирано на сравнително прости и бързи изчисления, понякога се използва за намиране на по-малки области от интересни данни за изображения, които могат да бъдат допълнително анализирани чрез по-взискателни от изчислителна гледна точка техники, за да се получи правилна интерпретация.

Съществуват няколко специализирани задачи, базирани на разпознаване, като например:

• Въз основа на съдържанието извличане на изображения
Тук се намират всички изображения в по-голям набор от изображения, които имат конкретно съдържание. Съдържанието може да бъде посочено по различни начини, например по отношение на сходство спрямо целево изображение (дайте ми всички изображения, подобни на изображение X), или по отношение на критерии за търсене от високо ниво, дадени като въвеждане на текст (дайте ми всички изображения, които съдържат много къщи, взети са през зимата и в тях няма коли).

• Оценка на позата
трябва да оценим позицията или ориентацията на конкретен обект спрямо камерата. Примерно приложение за тази техника би било подпомагане на робот, който изважда обекти от конвейерна лента в ситуация на поточна линия.

• Оптично разпознаване на символи
OCR което е идентифициране на знаци в изображения на печатен или ръкописен текст, обикновено с оглед на кодиране на текста в по-голям формат и възможност за редактиране или индексиране на Департамента по компютърни науки и инженерство, Мичиганския държавен университет. „Преподавателите и студентите от лабораторията за разпознаване на модели и обработка на изображения (PRIP) изследват използването на машини за разпознаване на модели или обекти. Разработени са методи за усещане на обекти, за откриване кои от техните характеристики ги отличават от другите и за проектиране на алгоритми, които могат да бъдат използвани от машина за извършване на класификация. Важни приложения включват разпознаване на лица, идентификация на пръстови отпечатъци, анализ на изображения на документи, конструиране на 3D модел на обект, навигация на роботи и визуализация/изследване на 3D обемни данни. Настоящите изследователски проблеми включват биометрично удостоверяване, автоматично наблюдение и проследяване, HCI без ръка, моделиране на лица, цифров воден знак и анализ на структурата на онлайн документи. Наскоро завършилите лабораторията са работили върху разпознаване на ръкописен текст, проверка на подпис, визуално обучение и извличане на изображения.

⦁ Разпознаване на лица
знаем, че системите за разпознаване на лица прогресивно стават популярни като средство за извличане на биометрична информация. Разпознаването на лица има критична роля в биометричните системи и е привлекателно за множество приложения, включително визуално наблюдение и сигурност. Поради широкото обществено приемане на изображения на лица върху различни документи, разпознаването на лица има голям потенциал да се превърне в биометричната технология от следващо поколение.

Системи за разпознаване на изображения

⦁ Анализ на движението
Няколко задачи са свързани с оценката на движението, при която последователност от изображения се обработва, за да се получи оценка на скоростта във всяка точка в изображението или в 3D сцената, или дори на камерата, която създава изображенията. Примери за такива задачи са:

⦁  Движение на егото
Определяне на 3D твърдо движение (въртене и транслация) на камерата от последователност от изображения, създадена от камерата.

⦁ Проследяване
Проследяването е проследяване на движенията на (обикновено) по-малък набор от интересни точки или обекти (напр. превозни средства или хора) в последователността от изображения.

⦁ Оптичен поток
Това е, за да се определи, за всяка точка в изображението, как тази точка се движи спрямо равнината на изображението, т.е. нейното видимо движение. Това движение е резултат както от това как се движи съответната 3D точка в сцената, така и от това как камерата се движи спрямо сцената.

⦁ Реконструкция на сцена
Като се има предвид едно или (обикновено) повече изображения на сцена или видео, реконструкцията на сцена има за цел да изчисли 3D модел на сцената. В най-простия случай моделът може да бъде набор от 3D точки. По-сложните методи създават пълен 3D модел на повърхността

⦁ Възстановяване на изображението
Целта на възстановяването на изображението е премахването на шума (шум от сензора, замъгляване на движението и т.н.) от изображенията. Най-простият възможен подход за премахване на шума е различни видове филтри като нискочестотни филтри или медианни филтри. По-сложните методи предполагат модел на това как изглеждат локалните структури на изображението, модел, който ги отличава от шума. Като първо се анализират данните за изображението по отношение на локалните структури на изображението, като линии или ръбове, и след това се контролира филтрирането въз основа на локална информация от стъпката на анализ, обикновено се получава по-добро ниво на премахване на шума в сравнение с по-простите подходи. Пример в тази област е тяхната живопис. Някои системи са самостоятелни приложения, които решават конкретен проблем с измерване или откриване, докато други съставляват подсистема с по-голям дизайн, която например съдържа също подсистеми за управление на механични задвижващи механизми, планиране, информационни бази данни, персонални машинни интерфейси и т.н. Специфичното внедряване на система за компютърно зрение също зависи от това дали нейната функционалност е предварително определена или дали част от нея може да бъде научена или модифицирана по време на работа. Има обаче типични функции, които се намират в много системи за компютърно зрение.

 

По-задълбочено обучение с разпознаване на изображения

Разпознаването на изображения съществуваше преди AI. И все пак факторът за машинно обучение революционизира методите за идентифициране на обект или лице на човек. Машинното обучение обаче е ефективно само когато има данни, които да го захранват. За цялата автоматизация на AI, поставянето на задача да идентифицира изображения не е просто искане. Нашето разбиране за визуализацията е втора природа; това е нещо, което сме програмирани да правим от ранна възраст. Да поискате същото от машина не е лесен процес. Поради тази причина една от най-популярните форми на разпознаване на AI са конволюционните невронни мрежи (CNN). CNN е метод, който се фокусира върху пиксели, разположени един до друг. Близко разположените изображения е по-вероятно да бъдат свързани, което означава, че обект или лице се съпоставят с картина с по-голяма прозрачност.
Докато марките, които искат да осигурят приходи от социалните медии чрез AI разпознаване на изображения, носят ясни предимства, случаите на употреба са много по-дълбоки. Самоуправляващите се автомобили са на път да бъдат следващото голямо нещо в света на автомобилите и технологията за разпознаване на изображения с изкуствен интелект им помага да бъдат захранвани. Самоуправляваща се кола, която може да засича предмети и хора на пътя, за да не се блъсна в тях, не се случва автоматично. Трябва да разпознава изображенията, за да взема информирани решения. Всеки самоуправляващ се автомобил е снабден с няколко сензора, така че да може да идентифицира други движещи се превозни средства, велосипедисти, хора – общо взето всичко, което може да представлява опасност. Една автоматизирана кола трябва да обработва опасностите на пътя по същия начин, по който го прави опитен шофьор. Все още има няколко аспекта за изглаждане, преди самоуправляващите се автомобили да излязат на пътя през 2020 г. Но когато автоматизацията на превозните средства започне да работи, AI разпознаването на изображения ще бъде един от основните двигатели зад тяхната безопасна работа.
⦁ Придобиване на изображение
Цифровото изображение се произвежда от един или няколко сензора за изображение, които освен различни видове светлочувствителни камери включват сензори за обхват, томографски устройства, радар, ултразвукови камери и др. В зависимост от вида на сензора, получените данни за изображението е обикновено 2D изображение, 3D обем или последователност от изображения. Стойностите на пикселите обикновено съответстват на интензитета на светлината в една или няколко спектрални ленти (сиви изображения или цветни изображения), но могат да бъдат свързани и с различни физически мерки, като дълбочина, абсорбция или отражение на звукови или електромагнитни вълни или ядрено-магнитен резонанс.
⦁ Предварителна обработка:
Преди метод за компютърно зрение да може да се приложи към данни за изображения, за да се извлече някаква конкретна част от информацията, обикновено е необходимо да се обработят данните, за да се гарантира, че те удовлетворяват определени предположения, подразбиращи се от метода. Примери са
1. Повторно вземане на проби, за да се гарантира, че координатната система на изображението е правилна.
2. Намаляване на шума, за да се гарантира, че шумът от сензора не въвежда невярна информация.
3. Подобряване на контраста, за да се гарантира, че съответната информация може да бъде открита.
4. Представяне на мащабно пространство за подобряване на структурите на изображението в подходящи за местно ниво мащаби.
⦁ Извличане на функции:
Характеристиките на изображението на различни нива на сложност се извличат от данните за изображението. Типични примери за такива характеристики са линии, ръбове и ръбове
Локализирани интересни точки като ъгли, петна или точки. По-сложните характеристики могат да бъдат свързани с текстура, форма или движение.
⦁ Откриване/сегментиране:
В даден момент от обработката се взема решение кои точки или региони на изображението са подходящи за по-нататъшна обработка. Примери са
1. Избор на определен набор от интересни точки
2. Сегментиране на един или множество области на изображението, които съдържат специфичен обект на интерес.
⦁ Обработка на високо ниво:
На тази стъпка входът обикновено е малък набор от данни, например набор от точки или анимационен регион, за който се предполага, че съдържа конкретен обект. Останалата обработка се занимава например с:
1. Проверка дали данните отговарят на предположения, базирани на модела и специфични за приложението.
2. Оценка на специфични за приложението параметри, като например позиция на обект или размер на обекта.
3. Класифициране на открит обект в различни категории. Така обработката на изображения помага на AI да идентифицира изображението и да реагира според идентификацията на изображението.

Безпроблемно бъдеще на изображенията

С подобряването на технологията разпознаването на изображения ще даде още по-добри резултати. Ръководителят на отдела за машинно обучение в Lobster, Владимир Павлов, казва: „Математическата основа за разпознаване на обекти съществува от дълго време, но наскоро се появиха технологични възможности за използване на алгоритми за компютърно зрение. Вече невронните мрежи позволяват да се правят перфектни детектори, които могат да работят по-добре от хората. Голям идиот задържа наличието на маркирани набори от данни за изображения за обучение, но в близко бъдеще това няма да е проблем. Инженерите по компютърно зрение работят активно върху самообучаващи се алгоритми”. С бъдеще, толкова силно повлияно от визуалната комуникация, разпознаването на изображения ще бъде ключовият фактор зад много от картините, които виждаме. Както в реалния живот, така и онлайн.