AI дүрсийг таних гарын авлага

Зургийг таних нь яагаад чухал вэ?

Интернэт дэх агуулгын 80 орчим хувь нь харааны шинж чанартай байдаг. Зургийн шошго нь яагаад агуулгын хүснэгтийн хаан болж байгааг та аль хэдийн судалж эхэлж болно. Хувь хүн ч бай, компани ч бай хиймэл оюун ухаанаар дүрс таних нь визуал дүрсийг онлайнаар хамгийн бага шуугиантай тодорхойлох боломжтой болгосон. Жил бүр 657 тэрбум орчим зураг дижитал хэлбэрээр нийтлэгдсэн бөгөөд дийлэнх нь олон нийтийн мэдээллийн хэрэгслээр гарч байна. Эдгээр зургуудын сайн хэсэг нь бүтээгдэхүүнээ сурталчлах хүмүүс байдаг, тэр ч байтугай тэд санамсаргүйгээр хийдэг. Хэрэглэгчийн үүсгэсэн контент (UGC) нь хамгийн цэвэр хэлбэрээрээ хамгийн сайн сурталчилгааг үзүүлдэг тул брэндүүдэд маш сайн түлхэц болдог.
Олон нийтийн мэдээллийн хэрэгслээр хэрэглэгчдийг дурдахад компаниудад анхааруулах маркетингийн хэрэгслүүд байдаг, гэхдээ олон нийтийн мэдээллийн хэрэгслээр хэн ч нэрийг нь таглахгүйгээр брэндийн сурталчилгаа явагдах үед яах вэ? AI дүрс таних нь түүний үнэ цэнийг нотолсон газар юм. Хэрэв техник нь зөв өгөгдлийн багцаар тэжээгддэг бол хиймэл оюун ухаан нь тусгай шошго дурдаагүй дүрсийг тодорхойлж чадна. Үр дүн нь брэндүүдийн нийгмийн дурдлагыг хянах, хянахад үнэлж баршгүй чухал юм.

Зураг таних нь хэрхэн ажилладаг вэ?

Бидний мэдэж байгаагаар хиймэл оюун ухаан нь олон нийтийн мэдээллийн хэрэгслээр зураг хайж, тэдгээрийг өргөн хүрээний мэдээллийн багцтай харьцуулж чаддаг. Дараа нь хүний чадахаас хамаагүй хурдан тохирох дүрсийг шийддэг. Брэндүүд олон нийтийн мэдээллийн хэрэгслээр өөрийнхтэй төстэй контентыг олохын тулд зураг таних аргыг ашигладаг. Энэ нь брэндийн логог тодорхойлох эсвэл олон нийтийн мэдээллийн хэрэгслийн хэрэглэгчдийн дунд органик байдлаар байрлуулсан бүтээгдэхүүний байршлыг таних гэсэн үг юм. Хүмүүсээс ийм их мэдээлэлтэй танилцахыг хүсэх нь амархан ядардаг. AI нь хүний алдааны талаар санаа зовохгүй бөгөөд хосгүй түвшинд нарийн үр дүнг өгдөг. AI дүрс таних нь текст оруулах шаардлагагүйгээр хүмүүс брэндийн талаар юу ярьж байгааг хянадаг. Хэрэглэгчид компаний нэрийг бичих шаардлагагүйгээр өөрсдийн нийгмийн дурдлагыг хянах боломжтой брэндүүд давуу талтай байх болно. Зөвхөн хиймэл оюун ухаанаар хүлээн зөвшөөрөгдсөн танигчаар дамжуулан өөрсдийн онлайн хамрах хүрээг ашиглах боломж асар их бөгөөд хосгүй хамрах хүрээг санал болгодог.

Зураг таних зарим ердийн ажлууд энд байна: -

Эхлээд бид зургийн өгөгдөлд тодорхой объект, онцлог, үйл ажиллагаа байгаа эсэхийг тодорхойлох хэрэгтэй. Энэ даалгаврыг ихэвчлэн хүний хүч чармайлтгүйгээр шийдэж болох боловч ерөнхий тохиолдолд компьютерийн харааны хувьд хангалттай шийдэгдээгүй хэвээр байна: дурын нөхцөл байдалд дурын объектууд. Энэ асуудлыг шийдвэрлэх одоо байгаа аргуудыг зөвхөн геометрийн энгийн объектууд (жишээлбэл, олон талт), хүний нүүр царай, хэвлэсэн эсвэл гараар бичсэн тэмдэгтүүд, тээврийн хэрэгсэл гэх мэт тодорхой объектуудад, мөн ерөнхийдөө нэр томъёогоор тайлбарласан тодорхой нөхцөл байдалд хамгийн сайн шийдвэрлэх боломжтой. камертай харьцуулахад сайн тодорхойлогдсон гэрэлтүүлэг, дэвсгэр, объектын байрлал. Уран зохиолд таних асуудлын янз бүрийн төрлүүдийг тайлбарласан болно.

• Объектыг таних

Урьдчилан тодорхойлсон эсвэл сурсан нэг буюу хэд хэдэн объект, объектын ангиллыг ихэвчлэн зураг дээрх 2 хэмжээст байрлал эсвэл үзэгдэл дэх 3 хэмжээст позуудын хамт таних боломжтой.

• Тодорхойлолт
Объектийн бие даасан жишээг хүлээн зөвшөөрдөг. Тухайлбал, тодорхой хүний нүүр царай, хурууны хээг таних, эсвэл тодорхой тээврийн хэрэгслийг таних гэх мэт.

• Илрүүлэх
Зургийн өгөгдлийг тодорхой нөхцөл байдалд сканнердсан. Жишээлбэл, эмнэлгийн зураг дээр хэвийн бус эс, эд эсийг илрүүлэх эсвэл авто замын хураамжийн системд тээврийн хэрэгслийг илрүүлэх зэрэг болно. Харьцангуй энгийн бөгөөд хурдан тооцоололд суурилсан илрүүлэлтийг заримдаа сонирхолтой зургийн өгөгдлийн жижиг хэсгүүдийг олоход ашигладаг бөгөөд үүнийг зөв тайлбарлахын тулд илүү тооцоолол шаардсан техникээр цаашид дүн шинжилгээ хийх боломжтой.

Хүлээн зөвшөөрөхөд суурилсан хэд хэдэн тусгай даалгавар байдаг, тухайлбал:

• Агуулгад суурилсан зураг хайх
Эндээс бүх зургийг тодорхой агуулга бүхий том зургийн багцаас олж болно. Агуулгыг янз бүрийн аргаар тодорхойлж болно, жишээлбэл, зорилтот зурагтай ижил төстэй байдлын хувьд (х зурагтай төстэй бүх зургийг надад өгөөч), эсвэл текст оруулахад өгсөн өндөр түвшний хайлтын шалгуурын хувьд (надад агуулагдсан бүх зургийг өг) олон байшин, өвлийн улиралд авсан, машингүй).

• Позын тооцоолол
Бид камертай харьцуулахад тодорхой объектын байрлал эсвэл чиглэлийг тооцоолох ёстой. Энэхүү техникийг ашиглах жишээ нь угсрах шугамын нөхцөлд туузан дамжуулагчаас объект авах роботод туслах явдал юм.

• Оптик тэмдэгт таних
OCR Энэ нь Мичиган мужийн их сургуулийн Компьютерийн шинжлэх ухаан, инженерчлэлийн тэнхимийн текстийг илүү форматаар кодлох, засварлах, индексжүүлэх боломжийг олгодог хэвлэмэл эсвэл гараар бичсэн текстийн зураг дээрх тэмдэгтүүдийг тодорхойлох явдал юм. "Хээг таних, дүрс боловсруулах (PRIP) лабораторийн багш нар болон оюутнууд загвар, объектыг танихын тулд машин ашиглах талаар судалж байна. Объектуудыг мэдрэх, тэдгээрийн аль шинж чанар нь бусдаас ялгарч байгааг олж мэдэх, ангиллыг хийхэд машин ашиглаж болох алгоритмуудыг зохиох аргуудыг боловсруулдаг. Чухал хэрэглээнд нүүр таних, хурууны хээ таних, баримт бичгийн дүрсний шинжилгээ, 3D объектын загвар бүтээх, роботын навигаци, 3D хэмжээст өгөгдлийг дүрслэх/хайгуул хийх зэрэг орно. Одоогийн судалгааны асуудлууд нь биометрийн баталгаажуулалт, автомат тандалт, хяналт, гаргүй HCI, нүүрний загварчлал, дижитал усан тэмдэглэгээ, онлайн баримт бичгийн бүтцэд дүн шинжилгээ хийх зэрэг орно. Тус лабораторийг саяхан төгсөгчид гар бичмэлийг таних, гарын үсгийг баталгаажуулах, нүдээр сургах, зураг хайх зэрэг чиглэлээр ажилласан.”

⦁ Нүүр царай таних
Царай таних систем нь биометрийн мэдээллийг задлах хэрэгсэл болгон аажмаар түгээмэл болж байгааг бид мэднэ. Царай таних нь биометрийн системд чухал үүрэг гүйцэтгэдэг бөгөөд харааны хяналт, аюулгүй байдал зэрэг олон төрлийн хэрэглээнд сонирхолтой байдаг. Төрөл бүрийн баримт бичигт байгаа царайны зургийг олон нийт хүлээн зөвшөөрдөг тул нүүр таних нь дараагийн үеийн сонголт болох биометрийн технологи болох асар их боломжтой юм.

Зураг таних системүүд

⦁ Хөдөлгөөний шинжилгээ
Хөдөлгөөний тооцоололтой холбоотой хэд хэдэн ажил нь зургийн дарааллыг боловсруулж, зургийн цэг бүр эсвэл 3D дүр зураг, тэр ч байтугай зураг үүсгэдэг камерын хурдыг тооцоолоход чиглэгддэг. Ийм ажлуудын жишээ нь:

⦁ Эго хөдөлгөөн
Камерын бүтээсэн зургийн дарааллаас камерын 3D хатуу хөдөлгөөнийг (эргэлт ба орчуулга) тодорхойлох.

⦁ Хяналт
Хяналт нь зургийн дараалалд (ихэвчлэн) бага хэмжээний сонирхлын цэг эсвэл объектын (жишээ нь: тээврийн хэрэгсэл эсвэл хүн) хөдөлгөөнийг дагаж мөрдөх явдал юм.

⦁ Оптик урсгал
Энэ нь зургийн цэг бүрийн хувьд тухайн цэг нь зургийн хавтгайтай харьцуулахад хэрхэн хөдөлж байгааг, өөрөөр хэлбэл түүний илэрхий хөдөлгөөнийг тодорхойлох явдал юм. Энэ хөдөлгөөн нь тухайн үзэгдэлд харгалзах 3D цэг хэрхэн хөдөлж байгаа болон камер хэрхэн хөдөлж байгаагийн үр дүн юм.

⦁ Хэргийн газрыг сэргээн засварлах
Нэг буюу (ихэвчлэн) хэд хэдэн дүр зураг, эсвэл видеог өгөгдсөн бол дүр зургийг сэргээн засварлах нь тухайн үзэгдлийн 3D загварыг тооцоолоход чиглэгддэг. Хамгийн энгийн тохиолдолд загвар нь 3D цэгийн багц байж болно. Илүү боловсронгуй аргууд нь гадаргуугийн бүрэн 3D загварыг гаргадаг

⦁ Зургийг сэргээх
Зургийг сэргээх зорилго нь зураг дээрх дуу чимээ (мэдрэгчийн дуу чимээ, хөдөлгөөнийг бүдгэрүүлэх гэх мэт) арилгах явдал юм. Дуу чимээг арилгах хамгийн энгийн арга бол бага нэвтрүүлэх шүүлтүүр эсвэл медиан шүүлтүүр гэх мэт янз бүрийн төрлийн шүүлтүүрүүд юм. Илүү боловсронгуй аргууд нь орон нутгийн дүрсийн бүтцийг дуу чимээнээс ялгах загварыг авч үздэг. Зургийн өгөгдлийг эхлээд зураас эсвэл ирмэг зэрэг орон нутгийн зургийн бүтцээр нь шинжилж, дараа нь дүн шинжилгээ хийх алхамаас авсан орон нутгийн мэдээлэлд үндэслэн шүүлтүүрийг хянах замаар энгийн аргуудтай харьцуулахад дуу чимээг арилгах илүү сайн түвшинг олж авдаг. Энэ салбарын нэг жишээ бол тэдний уран зураг юм. Зарим системүүд нь тодорхой хэмжилт, илрүүлэх асуудлыг шийддэг бие даасан програмууд байдаг бол зарим нь илүү том загварын дэд системийг бүрдүүлдэг бөгөөд жишээлбэл, механик идэвхжүүлэгч, төлөвлөлт, мэдээллийн сан, хүний нөөцийг удирдах дэд системүүдийг агуулдаг. машины интерфэйс гэх мэт. Компьютерийн харааны системийн тодорхой хэрэгжилт нь түүний үйл ажиллагааг урьдчилан тодорхойлсон эсэх, эсвэл үйл ажиллагааны явцад зарим хэсгийг нь сурч, өөрчлөх боломжтой эсэхээс хамаарна. Гэсэн хэдий ч олон компьютерийн харааны системд байдаг ердийн функцууд байдаг.

Зургийг таних замаар илүү гүнзгий суралцах

Зургийг таних нь хиймэл оюун ухаанаас өмнө байсан. Гэсэн хэдий ч машин сургалтын хүчин зүйл нь объект эсвэл хүний нүүр царайг таних аргад хувьсгал хийж байна. Гэсэн хэдий ч үүнийг тэжээх өгөгдөл байгаа тохиолдолд л машин суралцах үр дүнтэй байдаг. AI-ийн бүх автоматжуулалтын хувьд дүрсийг таних даалгавар өгөх нь энгийн хүсэлт биш юм. Үзүүлэнгийн талаарх бидний ойлголт бол хоёр дахь шинж чанар юм; Энэ бол бид бага наснаасаа программчлагдсан зүйл юм. Машинаас ижил зүйлийг асуух нь энгийн үйл явц биш юм. Ийм учраас хиймэл оюун ухааныг таних хамгийн түгээмэл хэлбэрүүдийн нэг бол конволюцийн мэдрэлийн сүлжээ (CNN) юм. CNN бол бие биенийхээ хажууд байрлах пикселүүд дээр төвлөрдөг арга юм. Ойролцоох зургууд нь хоорондоо холбоотой байх магадлалтай бөгөөд энэ нь объект эсвэл нүүр нь илүү ил тод зурагтай таарч байна гэсэн үг юм.
AI дүрс таних нь тодорхой ашиг тустай ч олон нийтийн мэдээллийн хэрэгслээр мөнгө олохыг эрэлхийлж буй брэндүүд үүнийг ашиглах тохиолдол илүү гүнзгий байдаг. Автомат жолоодлоготой машинууд автомашины ертөнцөд дараагийн том зүйл болох гэж байгаа бөгөөд хиймэл оюун ухаан дүрс таних технологи нь тэднийг хүчирхэгжүүлэхэд тусалж байна. Зам дээр байгаа эд зүйл болон хүмүүсийг мөргөхгүйн тулд өөрөө жолооддог машин автоматаар бүтдэггүй. Мэдээлэлтэй шийдвэр гаргахын тулд зургийг таньж мэдэх хэрэгтэй. Өөрийгөө жолооддог машин бүр хэд хэдэн мэдрэгчээр тоноглогдсон тул бусад хөдөлж буй тээврийн хэрэгсэл, унадаг дугуйчид, хүмүүсийг - үндсэндээ аюул учруулж болзошгүй бүх зүйлийг тодорхойлох боломжтой. Автомат машин нь туршлагатай жолоочтой адил замын аюулыг боловсруулах ёстой. 2020 онд автомат жолоодлоготой машинууд замд гарахаас өмнө шийдвэрлэх хэд хэдэн асуудал байсаар байна. Гэвч тээврийн хэрэгслийн автоматжуулалт идэвхжиж эхлэхэд хиймэл оюун ухаан дүрс таних нь тэдний аюулгүй ажиллах гол хөшүүрэг байх болно.
⦁ Зураг авах
Дижитал дүрсийг нэг буюу хэд хэдэн дүрс мэдрэгч үйлдвэрлэдэг бөгөөд үүнд гэрэл мэдрэмтгий янз бүрийн төрлийн камеруудаас гадна хүрээний мэдрэгч, томографийн төхөөрөмж, радар, хэт авианы камер гэх мэт орно. Мэдрэгчийн төрлөөс хамааран зургийн өгөгдөл нь энгийн 2D дүрс, 3D хэмжээ эсвэл зургийн дараалал юм. Пикселийн утга нь ихэвчлэн нэг буюу хэд хэдэн спектрийн зурвас дахь гэрлийн эрчмтэй (саарал зураг эсвэл өнгөт зураг) тохирдог боловч дууны болон цахилгаан соронзон долгионы гүн, шингээлт, тусгал, цөмийн соронзон резонанс зэрэг янз бүрийн физик хэмжигдэхүүнтэй холбоотой байж болно.
⦁ Урьдчилсан боловсруулалт:
Зарим тодорхой мэдээллийг гаргаж авахын тулд компьютерийн харааны аргыг зургийн өгөгдөлд хэрэглэхээс өмнө тухайн аргын илэрхийлсэн тодорхой таамаглалыг хангаж байгаа эсэхийг баталгаажуулахын тулд өгөгдлийг боловсруулах шаардлагатай байдаг. Жишээ нь
1. Зургийн координатын систем зөв эсэхийг баталгаажуулахын тулд дахин дээж авах.
2. Мэдрэгчийн дуу чимээ нь худал мэдээлэл оруулахгүй байхын тулд дуу чимээг бууруулах.
3. Холбогдох мэдээллийг илрүүлэхийн тулд тодосгогчийг сайжруулах.
4. Орон нутгийн хэмжээнд тохирсон масштабаар зургийн бүтцийг сайжруулахын тулд масштаб-орон зайн дүрслэл.
⦁ Онцлогыг задлах:
Зургийн өгөгдлөөс янз бүрийн түвшний нарийн төвөгтэй зургийн онцлогуудыг гаргаж авдаг. Ийм шинж чанаруудын ердийн жишээ нь шугам, ирмэг, нуруу юм
Булан, толбо эсвэл цэг зэрэг орон нутгийн сонирхлын цэгүүд. Илүү нарийн төвөгтэй шинж чанарууд нь бүтэц, хэлбэр, хөдөлгөөнтэй холбоотой байж болно.
⦁ Илрүүлэх/сегментчлэл:
Боловсруулалтын зарим үед зургийн аль цэг эсвэл хэсэг нь цаашдын боловсруулалтад хамааралтай болохыг шийддэг. Жишээ нь
1. Сонирхлын тодорхой багцыг сонгох
2. Тодорхой сонирхол татахуйц объектыг агуулсан нэг буюу хэд хэдэн зургийн бүсийг сегментлэх.
⦁ Өндөр түвшний боловсруулалт:
Энэ үе шатанд оролт нь ихэвчлэн жижиг өгөгдлийн багц, тухайлбал тодорхой объектыг агуулж байгаа цэгүүдийн багц эсвэл дүрсний бүс юм. Үлдсэн боловсруулалт нь жишээлбэл:
1. Өгөгдөл нь загварт суурилсан болон хэрэглээний үзүүлэлтүүдийг хангаж байгаа эсэхийг шалгах.
2. Объектын байрлал эсвэл объектын хэмжээ гэх мэт хэрэглээний тусгай параметрүүдийг тооцоолох.
3. Илрүүлсэн объектыг өөр өөр ангилалд ангилах. Тиймээс дүрс боловсруулалт нь хиймэл оюун ухаанд дүрсийг таньж, дүрсний танилтын дагуу хариу үйлдэл үзүүлэхэд тусалдаг.

Зургийн үл үзэгдэх ирээдүй

Технологи сайжрахын хэрээр зураг таних нь илүү их үр дүнг өгөх болно. Lobster-ийн Machine Learning хэлтсийн дарга Владимир Павлов хэлэхдээ, "Объект таних математикийн үндэс нь удаан хугацааны туршид бий болсон боловч компьютерийн харааны алгоритмыг ашиглах технологийн боломжууд саяхан гарч ирэв. Мэдрэлийн сүлжээнүүд нь хүнээс илүү сайн ажиллах чадвартай төгс мэдрэгчийг бүтээх боломжийг аль хэдийн олгожээ. Том онигоо нь сургалтанд зориулж тэмдэглэсэн зургийн өгөгдлийн багц байгааг саатуулдаг боловч ойрын ирээдүйд энэ нь асуудалгүй болно. Компьютерийн харааны инженерүүд бие даан суралцах алгоритмууд дээр идэвхтэй ажиллаж байна.” Ирээдүйд харааны харилцаа маш ихээр нөлөөлж байгаа тул дүрс таних нь бидний харж буй олон зургийн ард гол хүчин зүйл байх болно. Бодит амьдрал дээр ч, онлайнаар ч.