Зургийг таних нь яагаад чухал вэ?

Вэб дээрх бодисын 80 орчим хувь нь харааны шинж чанартай байдаг. Зургийн шошго яагаад бодисын хүснэгтийн эзний байр суурийг эзэлдэг болохыг та аль хэдийн судалж эхлэх боломжтой байх болно. Хүмүүс эсвэл байгууллага эсэхээс үл хамааран хиймэл оюун ухаанаар дүрс таних нь онлайн дүрслэлийг өчүүхэн зүйлээр ялгах боломжтой болгосон. Жил бүр 657 тэрбум орчим гэрэл зургийг анхааралтай нийтэлдэг бөгөөд ихэнх хэсэг нь онлайн мэдээллийн хэрэгслээр гарч ирдэг. Тэдгээр зургуудын нэг хэсэг нь санамсаргүй байдлаар хийсэн эсэхээс үл хамааран эд зүйлсийг урагшлуулж буй хувь хүмүүс юм. Үйлчлүүлэгчийн үйлдвэрлэсэн контент (UGC) нь хамгийн төгс бүтцээрээ брэндүүдийг хүчирхэгжүүлдэг гайхалтай нөлөө бөгөөд энэ нь хамгийн тохиромжтой дэвшлийг өгдөг.

Онлайн мэдээллийн хэрэгслээр дамжуулан худалдан авагчийн мэдэгдэл ирэх үед байгууллагуудыг сэрэмжлүүлэх сурталчилгааны хэрэгсэл байдаг, гэхдээ хэн ч тэдний нэрийг нийгмийн шуудангаар шошголохгүйгээр брэндүүд дэвшихэд ямар нэгэн зүйл хэлэх ёсгүй гэж үү? Энэ бол AI дүрсийг таних нь үнэ цэнийг харуулсан газар юм. Технологи нь зөв мэдээллийн багцад анхаарал хандуулсан тохиолдолд хиймэл оюун ухаан нь тодорхой шошгогүйгээр зургийг ялгаж чаддаг. Үр дүн нь брэндүүдэд нийгмийн мэдэгдлүүдийг дагаж мөрдөхөд чухал ач холбогдолтой.

Зураг таних нь хэрхэн ажилладаг вэ?

Бидний мэдэж байгаагаар хиймэл оюун ухаан нь гэрэл зураг хайхын тулд вэб дээр суурилсан медиа үе шатуудыг үзэж, тэдгээрийг өргөн мэдээллийн цуглуулгатай харьцуулж чаддаг. Тэр үед хүмүүсийн хийж чадахаас хамаагүй хурдан тохирох зургийг сонгодог. Брэндүүд вэб дээр суурилсан мэдээллийн хэрэгслээр дамжуулан өөрсдийнхтэй адил контентыг олж илрүүлэхийн тулд зургийн хүлээн зөвшөөрөлтийг ашигладаг. Энэ нь вэбэд суурилсан медиа үйлчлүүлэгчдийн дунд брэндийн логог ялгах эсвэл байгалийн байрлалтай зүйлийн нөхцөл байдлыг ойлгохыг хэлнэ. Хүмүүс ийм их хэмжээний өгөгдөлд үр дүнтэйгээр загасчлахыг хүсэх нь ядаргаатай байдаг. Загварчилсан оюун ухаан нь хүний ​​алдаа дутагдлыг үл тоомсорлодоггүй бөгөөд бодит үр дүнг харьцуулашгүй түвшинд хүргэдэг. Хиймэл оюун ухааны зургийг хүлээн зөвшөөрөх дэлгэц нь хувь хүмүүс ямар нэгэн брэндийн талаар юу хэлж байгааг текстийн шаардлагагүйгээр харуулдаг. Байгууллагын нэрийг бичихийг хүлээсэн үйлчлүүлэгчидгүйгээр нийгмийн мэдэгдлүүдийг дагахад бэлэн брэндүүд үнэлж баршгүй байр суурь эзэлнэ. Зөвхөн хиймэл оюун ухаанаар хүлээн зөвшөөрөгдсөн танигчаар дамжуулан өөрсдийн онлайн оролцооны давуу талыг ашиглах боломж асар их бөгөөд энэ нь хосгүй оролцоог санал болгодог.

Зургийг таних зарим энгийн даалгаврууд энд байна: -

Зургийн мэдээлэлд тодорхой нийтлэл, онцлох зүйл, хөдөлгөөн орсон эсэхийг бид эхнээс нь шийдэх хэрэгтэй. Энэ даалгаврыг ихэвчлэн хүн хүч чармайлтгүйгээр чин сэтгэлээсээ шийдэж болох боловч ерөнхийдөө PC-ийн алсын хараанд хангалттай шийдэгдээгүй байна: өөрийн үзэмжээр бичсэн нийтлэлүүд. Энэ асуудлыг зохицуулах өнөөгийн арга техникийг зөвхөн тодорхой өгүүлэлд, жишээлбэл, математикийн үндсэн зүйлс (жишээлбэл, олон талт), хүний ​​царай, хэвлэсэн эсвэл хуулбарласан тэмдэгт, тээврийн хэрэгсэл, мөн тодорхой нөхцөл байдалд, ердийн байдлаар дүрсэлсэн бүх зүйлд хамгийн сайн шийдвэрлэх боломжтой. эргэн тойронд гэрэлтэх, суурь, байрлал нь камертай харьцуулахад. Бичлэгт хүлээн зөвшөөрөх асуудлын янз бүрийн төрлийг дүрсэлсэн болно.

• Объектыг таних

Урьдчилан тодорхойлсон эсвэл сурсан нэг юм уу хэд хэдэн нийтлэл, зүйлийн ангиллыг ихэвчлэн зураг дээрх 2D нөхцөл байдал эсвэл үзэгдэл дэх 3D байрлалтай хамт хүлээн авч болно.

• Тодорхойлолт

Нийтлэлийн бие даасан тохиолдол гэж үздэг. Загвар нь тухайн хүний ​​нүүр царай, өвөрмөц тэмдэг, эсвэл тухайн тээврийн хэрэгслийн үнэмлэхийг ялгах баталгаа юм.

• Илрүүлэх

Зургийн мэдээллийг тодорхой нөхцөл байдалд шалгадаг. Загвар гэдэг нь эмнэлзүйн зураг дээр төсөөлж болох хачирхалтай эс, эд эсийг илрүүлэх эсвэл гудамжны зардлын программчлагдсан хүрээнд тээврийн хэрэгслийг таних явдал юм. Ойролцоогоор энгийн бөгөөд хурдан тооцоололд тулгуурласан нээлтийг энд тэндээс илүү даруухан хэсгүүдийг хайж олоход ашигладаг бөгөөд үүнийг зөв орчуулгыг бий болгохын тулд илүү тооцоолсон стратеги ашиглан задлах боломжтой.

Хүлээн зөвшөөрөхөөс хамааралтай хэд хэдэн тодорхой ажил байдаг, жишээлбэл,

• Агуулгад суурилсан зургийг сэргээх

Эндээс бүх зургийг тодорхой нэг бодис агуулсан зургуудын том зохион байгуулалттайгаар олж болно. Бодисыг санаанд оромгүй байдлаар тодорхойлж болно, жишээлбэл, объектив зурагтай ижил төстэй байдлаар (надад X зураг гэх мэт бүх зургийг өг) эсвэл текст оруулахад өгөгдсөн чухал түвшний мөрдлөгийн стандартууд (олон тооны зураг агуулсан бүх зургийг надад өг. байшингууд, өвлийн улиралд авсан, машингүй).

• Байрлалыг үнэлэх

Бид тухайн зүйлийн байрлал, чиглэлийг камертай харьцуулан хэмжих хэрэгтэй. Энэхүү стратегийн загвар програм нь механик үйлдвэрлэлийн системийн нөхцөлд тээврийн шугамаас эд зүйлсийг сэргээхэд роботод туслах болно.

• Оптик тэмдэгтийг хүлээн зөвшөөрөх

OCR нь хэвлэмэл эсвэл гараар бичсэн агуулгын зураг дээрх дүрүүдийг ялгах бөгөөд ихэнхдээ байгууллагын агуулгыг илүү их кодлох, Мичиган мужийн их сургуулийн Компьютерийн шинжлэх ухаан, инженерийн тэнхимийг өөрчлөх, захиалах боломжийг олгох зорилготой юм. Стратеги нь объектуудыг илрүүлэх, тэдгээрийн аль нь бусдаас ялгарахыг олж мэдэх, мөн шинж чанарыг тодорхойлохдоо машин ашиглаж болох тооцооллыг төлөвлөх зорилготой юм. Чухал ач холбогдол бүхий програмууд нь нүүр царайг таних, хурууны даралтыг таних баталгаа, бичлэгийн зургийг шалгах, 3D нийтлэлийн загвар боловсруулах, роботын маршрут, 3D хэмжээст мэдээллийг дүрслэх/шинжилгээ зэргийг багтаасан болно. Ebb and flow судалгааны асуудалд биометрийн баталгаажуулалт, програмчлагдсан ажиглалт, хяналт, хяналтгүй HCI, нүүр царай харуулах, компьютержсэн усан тэмдэглэгээ, онлайн архивын дизайны дизайныг багтаасан болно. Лабораторийн сүүлийн үеийн төгсөгчид уран зохиолыг баталгаажуулах, гарын үсгийг шалгах, харааны сургалт, зургийг сэргээх зэрэг асуудлыг шийдэж байсан."

загвар:

Зургийн сэдвийг таних сонголттой байхын тулд хэд хэдэн пикселийн өгөгдөл шаардагддаг гэдгийг MIT-ийн мэргэжилтний удирдсан бүлэг олж мэдсэн. Энэхүү илчлэлт нь онлайн зургуудын механикжсан танигдахуйц нотолгоонд ер бусын ахиц дэвшил гаргаж, эцэст нь компьютерт хүмүүстэй адил харагдах нөхцөлийг бүрдүүлж чадна. Ялангуяа богино хэмжээний дүрслэл гаргах нь интернет дэх олон тэрбум зургийг тоолох боломжтой болгоход чухал ахиц дэвшил болно. Одоогийн байдлаар зураг хайх цорын ганц арга зам нь хувь хүмүүс зураг бүрт гараар оруулсан агуулгын бичээсээс хамаардаг бөгөөд олон тооны зурагт ийм мэдээлэл хэрэгтэй байна. Програмчлагдсан ID нь мөн адил хувь хүмүүст компьютерийн камераас компьютер дээрээ татаж авах, өөрийн гараар хадмал орчуулга хийхгүйгээр файлын зургийг авах боломжийг олгоно. Мөн эцэст нь энэ нь жинхэнэ машины алсын харааг идэвхжүүлж болох бөгөөд энэ нь заримдаа роботуудад камераасаа ирж буй мэдээллийг ялгаж, хаана байгааг нь ялгах боломжийг олгодог. Ингэснээр хоёр зураг [тоонуудын] харьцуулж болохуйц бүлэгтэй байвал тэдгээр нь харьцуулсан байх болно. ерөнхийдөө ижил төстэй зүйл, ерөнхийдөө ижил төстэй зохицуулалтаар хийгдсэн. Хэрэв нэг зураг нь бичээс эсвэл гарчигтай холбоотой байсан бол тэр үед түүний математик кодыг зохицуулсан өөр өөр зургууд ижил төстэй зүйлийг (жишээлбэл, тээврийн хэрэгсэл, мод, хувь хүн) харуулах тул нэг зурагтай холбоотой нэр байж болно. бусад руу шилжсэн. "Хамгийн олон зурагтай ч гэсэн ерөнхийдөө энгийн тооцоолол ч үнэхээр сайн ажиллаж чадна" гэж зургийг таньж чадна.

⦁ Нүүр царай таних

Нүүр царайг хүлээн зөвшөөрөх тогтолцоо нь биометрийн өгөгдлийг устгах аргуудын хувьд тасралтгүй алдартай болж байгааг бид ойлгож байна. Нүүр царайг таних нь биометрийн тогтолцооны үндсэн хэсэг бөгөөд харааны тагнуул, аюулгүй байдал зэрэг янз бүрийн хэрэглээнд сонирхолтой байдаг. Төрөл бүрийн тайланд нүүр царайны зургийг нийт хүн амын хүлээн зөвшөөрсний үүднээс царайг хүлээн зөвшөөрөх нь шийдвэрийн хамгийн сүүлийн үеийн биометрийн инноваци болж хувирах гайхалтай чадвартай юм.

Зураг таних системүүд

⦁ Хөдөлгөөний үзлэг

Хэд хэдэн даалгаврууд нь зураг дээрх эсвэл 3D дүр зураг дээрх фокус тус бүр, тэр байтугай зургийг хүргэж буй камерын хурдны хэмжүүрийг бий болгохын тулд зургийн дараалал бэлтгэгдсэнийг хөдөлгөөний үнэлгээгээр тодорхойлдог. Ийм даалгаврын жишээ нь:

⦁ Эго хөдөлгөөн

Камерын бүтээсэн зургийн дарааллаас камерын 3D уян хатан бус хөдөлгөөнийг (эргэлт ба тайлбар) шийдэх.

⦁ Хяналт

Зургийн дараалалд (ерөнхийдөө) сонирхолын төвлөрөл эсвэл эсэргүүцлийн (жишээ нь, тээврийн хэрэгсэл эсвэл хүмүүс) илүү даруухан зохицуулалтын хөгжлийг дагаж мөрдөх болно.

⦁ Оптик урсгал

Энэ нь зураг дээрх цэг бүрийн хувьд тухайн цэг нь зургийн хавтгайтай харьцуулахад хэрхэн хөдөлж байгааг, өөрөөр хэлбэл түүний илт хөдөлгөөнийг шийдэх явдал юм. Энэ хөдөлгөөн нь дүр зураг дээр харьцуулах 3D цэг хэрхэн хөдөлж байгаа болон камер хэрхэн дүр зурагтай харьцуулан хөдөлж байгаагийн үр дүн юм.

⦁ Үзэсгэлэнг сэргээн засварлах

Нэг юм уу (ихэвчлэн) хэд хэдэн үзэгдэл, видеог өгвөл тухайн үзэгдлийн 3D загварыг бүртгэх дүр зургийг хуулбарлах зорилтууд. Хамгийн хялбар тохиолдолд загвар нь 3D фокусын багц байж болно. Илүү боловсронгуй стратеги нь нийт 3D гадаргуугийн загварыг гаргадаг

⦁ Зургийг сэргээх

Зургийг сэргээн босгох гол зорилго нь үймээн самууныг (мэдрэгчийн чимээ, хөдөлгөөн тодорхойгүй гэх мэт) зургуудаас нүүлгэн шилжүүлэх явдал юм. Үймээн самуунаас гаргах хамгийн төвөгтэй аргачлал бол янз бүрийн төрлийн суваг, жишээлбэл, бага нэвтрүүлэх суваг эсвэл дунд суваг юм. Илүү орчин үеийн стратегиуд нь ойр орчмын дүр төрхийг хэрхэн санагдуулах, тэднийг үймээн самуунаас таних загварыг хүлээж байна. Эхлээд зурагны мэдээллийг ойролцоох зургийн бүтэц, тухайлбал, шугам, ирмэг гэх мэт нэлээд хэсэг хугацаанд судалж, дараа нь шалгалтын алхамаас хөршийн мэдээллээс хамаарлыг тусгаарлахыг хянаснаар үймээн самууны нүүлгэн шилжүүлэлтийн дээд зэрэг нь ерөнхийдөө бага хэмжээтэй ялгаатай байдаг. цогц арга зүй. Энэ чиглэлийн загвар нь тэдний уран зураг юм. Цөөн хэдэн хүрээ нь тодорхой тооцоолол эсвэл хүлээн зөвшөөрөх асуудлыг шийддэг бие даасан програмууд байдаг бол зарим нь илүү том төлөвлөгөөний дэд зохицуулалтаас бүрддэг бөгөөд жишээлбэл, механик идэвхжүүлэгч, зохион байгуулалт, мэдээллийн мэдээллийн бааз, хүний машин интерфэйс гэх мэт. Компьютерийн харааны тогтолцооны тодорхой гүйцэтгэл нь түүний ашиг тусыг урьдчилан тодорхойлсон эсэх эсвэл үйл ажиллагааны явцад түүний зарим хэсгийг маш сайн сурч эсвэл тохируулж чадах эсэхээс хамаарна. Гэсэн хэдий ч олон тооны компьютерийн хараанд байдаг тогтмол хүчин чадал байдаг