ເປັນຫຍັງການຮັບຮູ້ຮູບພາບຈຶ່ງສຳຄັນ?

ປະມານ 80 ເປີເຊັນຂອງເນື້ອຫາຢູ່ໃນອິນເຕີເນັດແມ່ນເບິ່ງເຫັນໄດ້. ເຈົ້າສາມາດເລີ່ມຕົ້ນໄດ້ແລ້ວວ່າເປັນຫຍັງການແທັກຮູບພາບອາດຖືສະຖານທີ່ຂອງຕົນເປັນກະສັດຂອງຕາຕະລາງເນື້ອຫາ. ບໍ່ວ່າຈະເປັນບຸກຄົນ ຫຼືບໍລິສັດ, ການຮັບຮູ້ຮູບພາບຂອງ AI ໄດ້ເຮັດໃຫ້ມັນສາມາດລະບຸພາບທາງອອນລາຍໄດ້ດ້ວຍການລົບກວນໜ້ອຍທີ່ສຸດ. ມີປະມານ 657 ຕື້ຮູບທີ່ຖືກເຜີຍແຜ່ໃນແຕ່ລະປີດ້ວຍດິຈິຕອນ, ໂດຍສ່ວນໃຫຍ່ຈະປາກົດຢູ່ໃນສື່ສັງຄົມ. ຊິ້ນສ່ວນທີ່ດີຂອງຮູບພາບເຫຼົ່ານັ້ນແມ່ນຄົນທີ່ສົ່ງເສີມຜະລິດຕະພັນ, ເຖິງແມ່ນວ່າພວກເຂົາເຮັດແນວນັ້ນໂດຍບໍ່ຕັ້ງໃຈ ເນື້ອຫາທີ່ສ້າງໂດຍຜູ້ໃຊ້ (UGC) ໃນຮູບແບບທີ່ບໍລິສຸດແມ່ນຕົວຊ່ວຍທີ່ດີເລີດສໍາລັບຍີ່ຫໍ້ຍ້ອນວ່າມັນສະຫນອງປະເພດທີ່ດີທີ່ສຸດຂອງການສົ່ງເສີມ.
ມີເຄື່ອງມືການຕະຫຼາດເພື່ອແຈ້ງເຕືອນບໍລິສັດໃນເວລາທີ່ມີການກ່າວເຖິງຜູ້ບໍລິໂພກໃນສື່ມວນຊົນສັງຄົມ, ແຕ່ວ່າເວລາການສົ່ງເສີມຍີ່ຫໍ້ເກີດຂຶ້ນໂດຍບໍ່ມີໃຜແທັກຊື່ຂອງພວກເຂົາໃນສື່ສັງຄົມ? ນີ້ແມ່ນບ່ອນທີ່ການຮັບຮູ້ຮູບພາບ AI ພິສູດຄຸນຄ່າຂອງມັນ. ຖ້າເທກໂນໂລຍີຖືກປ້ອນຊຸດຂໍ້ມູນທີ່ຖືກຕ້ອງ, AI ສາມາດກໍານົດຮູບພາບໂດຍບໍ່ມີການກ່າວເຖິງແທັກສະເພາະ. ຜົນໄດ້ຮັບແມ່ນບໍ່ມີຄ່າສໍາລັບຍີ່ຫໍ້ທີ່ຈະຕິດຕາມແລະຕິດຕາມການກ່າວເຖິງສັງຄົມຂອງພວກເຂົາ.

ການຮັບຮູ້ຮູບພາບເຮັດວຽກແນວໃດ?

ດັ່ງທີ່ພວກເຮົາຮູ້ວ່າ AI ສາມາດຄົ້ນຫາແພລະຕະຟອມສື່ສັງຄົມທີ່ຊອກຫາຮູບພາບແລະປຽບທຽບກັບຊຸດຂໍ້ມູນຢ່າງກວ້າງຂວາງ. ຫຼັງຈາກນັ້ນ, ມັນຕັດສິນໃຈກ່ຽວກັບຮູບພາບທີ່ກ່ຽວຂ້ອງທີ່ກົງກັນໃນອັດຕາໄວກວ່າທີ່ມະນຸດມີຄວາມສາມາດ. ຍີ່ຫໍ້ໃຊ້ການຮັບຮູ້ຮູບພາບເພື່ອຊອກຫາເນື້ອຫາທີ່ຄ້າຍຄືກັບຂອງຕົນເອງໃນສື່ສັງຄົມ. ນັ້ນຫມາຍຄວາມວ່າການກໍານົດໂລໂກ້ຂອງຍີ່ຫໍ້ຫຼືການຮັບຮູ້ການຈັດວາງຜະລິດຕະພັນທີ່ວາງໄວ້ທາງອິນຊີໃນບັນດາຜູ້ໃຊ້ສື່ສັງຄົມ. ການຂໍໃຫ້ມະນຸດຂ້າມຜ່ານຂໍ້ມູນຫຼາຍອັນນັ້ນເປັນເລື່ອງທີ່ໜ້າເບື່ອງ່າຍ. AI ບໍ່ໄດ້ກັງວົນກ່ຽວກັບຄວາມຜິດພາດຂອງມະນຸດ, ແລະໃຫ້ຜົນໄດ້ຮັບທີ່ຊັດເຈນໃນລະດັບທີ່ບໍ່ມີຕົວຕົນ. ການຮັບຮູ້ຮູບພາບ AI ຕິດຕາມສິ່ງທີ່ຄົນເວົ້າກ່ຽວກັບຍີ່ຫໍ້ໂດຍບໍ່ຈໍາເປັນຕ້ອງມີຂໍ້ຄວາມ. ຍີ່ຫໍ້ສາມາດຕິດຕາມການກ່າວເຖິງສັງຄົມຂອງພວກເຂົາໂດຍທີ່ຜູ້ໃຊ້ບໍ່ຈໍາເປັນຕ້ອງພິມຊື່ບໍລິສັດຈະເຫັນວ່າຕົນເອງຢູ່ໃນຕໍາແຫນ່ງທີ່ມີປະໂຫຍດ. ທ່າແຮງທີ່ຈະເຂົ້າໄປໃນການຄຸ້ມຄອງອອນໄລນ໌ຂອງຕົນເອງພຽງແຕ່ຜ່ານຕົວລະບຸທີ່ຮັບຮູ້ AI ແມ່ນໃຫຍ່ຫຼວງແລະສະຫນອງການຄຸ້ມຄອງທີ່ບໍ່ມີຕົວຕົນ.

ນີ້ແມ່ນບາງວຽກງານປົກກະຕິຂອງການຮັບຮູ້ຮູບພາບ: -

ທໍາອິດພວກເຮົາຕ້ອງກໍານົດວ່າຂໍ້ມູນຮູບພາບປະກອບດ້ວຍວັດຖຸ, ຄຸນນະສົມບັດ, ຫຼືກິດຈະກໍາສະເພາະໃດຫນຶ່ງ. ວຽກງານນີ້ສາມາດແກ້ໄຂໄດ້ຢ່າງແຂງແຮງແລະບໍ່ມີຄວາມພະຍາຍາມໂດຍມະນຸດ, ແຕ່ຍັງບໍ່ໄດ້ຮັບການແກ້ໄຂຢ່າງຫນ້າພໍໃຈໃນວິໄສທັດຄອມພິວເຕີສໍາລັບກໍລະນີທົ່ວໄປ: ວັດຖຸທີ່ມັກໃນສະຖານະການ arbitrary. ວິທີການທີ່ມີຢູ່ແລ້ວສໍາລັບການແກ້ໄຂບັນຫານີ້ສາມາດແກ້ໄຂໄດ້ດີທີ່ສຸດສໍາລັບວັດຖຸສະເພາະ, ເຊັ່ນ: ວັດຖຸເລຂາຄະນິດທີ່ງ່າຍດາຍ (ເຊັ່ນ: polyhedra), ໃບຫນ້າຂອງມະນຸດ, ຕົວອັກສອນທີ່ພິມຫຼືຂຽນດ້ວຍມື, ຫຼືຍານພາຫະນະ, ແລະໃນສະຖານະການສະເພາະ, ໂດຍທົ່ວໄປແລ້ວອະທິບາຍໃນຄໍາສັບຕ່າງໆ. ຄວາມສະຫວ່າງທີ່ຖືກກໍານົດໄວ້ດີ, ພື້ນຫລັງ, ແລະການສະແດງຂອງວັດຖຸທີ່ກ່ຽວຂ້ອງກັບກ້ອງຖ່າຍຮູບ. ແນວພັນທີ່ແຕກຕ່າງກັນຂອງບັນຫາການຮັບຮູ້ໄດ້ຖືກອະທິບາຍໄວ້ໃນວັນນະຄະດີ:

• ການຮັບຮູ້ວັດຖຸ

ສາມາດຮັບຮູ້ວັດຖຸ ຫຼື ຫ້ອງຮຽນວັດຖຸໜຶ່ງ ຫຼືຫຼາຍອັນທີ່ໄດ້ລະບຸໄວ້ລ່ວງໜ້າ ຫຼືຫຼາຍອັນສາມາດຮັບຮູ້ໄດ້, ໂດຍປົກກະຕິແລ້ວ ພ້ອມກັບຕຳແໜ່ງ 2 ມິຕິໃນຮູບ ຫຼື 3 ມິຕິໃນສາກ.

• ການລະບຸຕົວຕົນ
ຕົວຢ່າງສ່ວນບຸກຄົນຂອງວັດຖຸຖືກຮັບຮູ້. ຕົວ​ຢ່າງ​ແມ່ນ​ການ​ລະ​ບຸ​ໃບ​ຫນ້າ​ຂອງ​ບຸກ​ຄົນ​ໃດ​ຫນຶ່ງ​ຫຼື​ລາຍ​ນີ້ວ​ມື​, ຫຼື​ການ​ກໍາ​ນົດ​ຂອງ​ຍານ​ພາ​ຫະ​ນະ​ສະ​ເພາະ​ໃດ​ຫນຶ່ງ​.

• ການກວດຫາ
ຂໍ້ມູນຮູບພາບໄດ້ຖືກສະແກນສໍາລັບເງື່ອນໄຂສະເພາະ. ຕົວຢ່າງແມ່ນການກວດຫາຈຸລັງ ຫຼືເນື້ອເຍື່ອທີ່ຜິດປົກກະຕິໃນຮູບພາບທາງການແພດ ຫຼືການກວດຫາລົດໃນລະບົບການເກັບຄ່າທາງອັດຕະໂນມັດ. ການກວດຫາໂດຍອີງໃສ່ການຄິດໄລ່ທີ່ຂ້ອນຂ້າງງ່າຍດາຍແລະໄວແມ່ນບາງຄັ້ງໃຊ້ສໍາລັບການຊອກຫາພື້ນທີ່ຂະຫນາດນ້ອຍຂອງຂໍ້ມູນຮູບພາບທີ່ຫນ້າສົນໃຈເຊິ່ງສາມາດວິເຄາະຕື່ມອີກໂດຍເຕັກນິກທີ່ຕ້ອງການຄອມພິວເຕີ້ຫຼາຍເພື່ອໃຫ້ການຕີຄວາມຫມາຍທີ່ຖືກຕ້ອງ.

ມີຫຼາຍໜ້າວຽກສະເພາະໂດຍອີງໃສ່ການຮັບຮູ້, ເຊັ່ນ:

• ການດຶງຮູບພາບທີ່ອີງໃສ່ເນື້ອຫາ
ທີ່ນີ້ຊອກຫາຮູບພາບທັງຫມົດໃນຊຸດຮູບພາບຂະຫນາດໃຫຍ່ທີ່ມີເນື້ອຫາສະເພາະ. ເນື້ອຫາສາມາດຖືກລະບຸໄວ້ໃນວິທີຕ່າງໆ, ຕົວຢ່າງເຊັ່ນໃນແງ່ຂອງຄວາມຄ້າຍຄືກັນກ່ຽວກັບຮູບພາບເປົ້າຫມາຍ (ໃຫ້ຮູບພາບທັງຫມົດທີ່ຄ້າຍຄືກັບຮູບພາບ X), ຫຼືໃນເງື່ອນໄຂການຊອກຫາລະດັບສູງທີ່ໃຫ້ໃສ່ຂໍ້ຄວາມ (ໃຫ້ຂ້ອຍທຸກຮູບພາບທີ່ມີ ເຮືອນ​ຫຼາຍ​ຫຼັງ​ຖືກ​ນຳ​ເອົາ​ໃນ​ລະ​ດູ​ໜາວ, ແລະ​ບໍ່​ມີ​ລົດ​ຢູ່).

• ຄາດຄະເນການວາງແຜນ
ພວກ​ເຮົາ​ຕ້ອງ​ຄາດ​ຄະ​ເນ​ຕໍາ​ແຫນ່ງ​ຫຼື​ທິດ​ທາງ​ຂອງ​ວັດ​ຖຸ​ສະ​ເພາະ​ໃດ​ຫນຶ່ງ​ທີ່​ກ່ຽວ​ຂ້ອງ​ກັບ​ກ້ອງ​ຖ່າຍ​ຮູບ​ໄດ້​. ຄໍາຮ້ອງສະຫມັກຕົວຢ່າງສໍາລັບເຕັກນິກນີ້ຈະຊ່ວຍໃຫ້ຫຸ່ນຍົນດຶງວັດຖຸຈາກສາຍແອວ conveyor ໃນສະຖານະການສາຍປະກອບ.

• ການຮັບຮູ້ຕົວລະຄອນແບບ Optical
ອຄ ເຊິ່ງເປັນການກໍານົດຕົວອັກສອນໃນຮູບພາບຂອງຂໍ້ຄວາມທີ່ພິມອອກຫຼືຂຽນດ້ວຍມື, ໂດຍປົກກະຕິເພື່ອແນໃສ່ການເຂົ້າລະຫັດຂໍ້ຄວາມໃນຮູບແບບຫຼາຍແລະເຮັດໃຫ້ການດັດແກ້ຫຼືດັດສະນີພະແນກວິທະຍາສາດຄອມພິວເຕີແລະວິສະວະກໍາ, ມະຫາວິທະຍາໄລລັດ Michigan. “ຄະນະວິຊາຫ້ອງທົດລອງການຮັບຮູ້ ແລະ ປະມວນຜົນຮູບພາບ (PRIP) ແລະ ນັກສຶກສາຄົ້ນຄວ້າການນຳໃຊ້ເຄື່ອງຈັກເພື່ອຮັບຮູ້ຮູບແບບ ຫຼື ວັດຖຸ. ວິທີການໄດ້ຖືກພັດທະນາເພື່ອຮັບຮູ້ວັດຖຸ, ຄົ້ນພົບລັກສະນະໃດທີ່ແຕກຕ່າງຈາກຄົນອື່ນ, ແລະການອອກແບບສູດການຄິດໄລ່ທີ່ສາມາດນໍາໃຊ້ໄດ້ໂດຍເຄື່ອງຈັກເພື່ອຈັດປະເພດ. ຄໍາຮ້ອງສະຫມັກທີ່ສໍາຄັນປະກອບມີການຮັບຮູ້ໃບຫນ້າ, ການລະບຸນິ້ວມື, ການວິເຄາະຮູບພາບເອກະສານ, ການກໍ່ສ້າງແບບຈໍາລອງວັດຖຸ 3D, ການນໍາທາງຫຸ່ນຍົນ, ແລະການເບິ່ງເຫັນ / ການສໍາຫຼວດຂໍ້ມູນ 3D volumetric. ບັນຫາການຄົ້ນຄວ້າໃນປະຈຸບັນປະກອບມີການກວດສອບຄວາມຖືກຕ້ອງທາງຊີວະມິຕິ, ການເຝົ້າລະວັງແລະການຕິດຕາມອັດຕະໂນມັດ, HCI ທີ່ບໍ່ມີມື, ການສ້າງແບບຈໍາລອງໃບຫນ້າ, watermarking ດິຈິຕອນແລະໂຄງສ້າງການວິເຄາະຂອງເອກະສານອອນໄລນ໌. ນັກສຶກສາທີ່ຮຽນຈົບຫ້ອງທົດລອງທີ່ຜ່ານມາໄດ້ເຮັດວຽກກ່ຽວກັບການຮັບຮູ້ການຂຽນດ້ວຍມື, ການກວດສອບລາຍເຊັນ, ການຮຽນຮູ້ສາຍຕາ, ແລະການດຶງຮູບພາບ."

⦁ ການຮັບຮູ້ໃບໜ້າ
ພວກ​ເຮົາ​ຮູ້​ວ່າ​ລະ​ບົບ​ການ​ຮັບ​ຮູ້​ໃບ​ຫນ້າ​ໄດ້​ຮັບ​ຄວາມ​ນິ​ຍົມ​ເປັນ​ວິ​ທີ​ການ​ຂອງ​ການ​ສະ​ກັດ​ຂໍ້​ມູນ biometric​. ການຮັບຮູ້ໃບໜ້າມີບົດບາດສຳຄັນໃນລະບົບຊີວະມິຕິ ແລະເປັນທີ່ໜ້າສົນໃຈສຳລັບແອັບພລິເຄຊັນຕ່າງໆ ລວມທັງການເຝົ້າລະວັງທາງສາຍຕາ ແລະຄວາມປອດໄພ. ເນື່ອງຈາກວ່າປະຊາຊົນທົ່ວໄປຍອມຮັບຮູບພາບໃບຫນ້າໃນເອກະສານຕ່າງໆ, ການຮັບຮູ້ໃບຫນ້າມີທ່າແຮງອັນໃຫຍ່ຫຼວງທີ່ຈະກາຍເປັນເຕັກໂນໂລຊີ biometric ລຸ້ນຕໍ່ໄປທາງເລືອກ.

ລະບົບການຮັບຮູ້ຮູບພາບ

⦁ ການວິເຄາະການເຄື່ອນໄຫວ
ວຽກງານຫຼາຍຢ່າງກ່ຽວຂ້ອງກັບການປະເມີນການເຄື່ອນໄຫວທີ່ລໍາດັບຮູບພາບຖືກປະມວນຜົນເພື່ອຜະລິດການປະເມີນຄວາມໄວໃນແຕ່ລະຈຸດໃນຮູບພາບ ຫຼືໃນສາກ 3 ມິຕິ, ຫຼືແມ່ນແຕ່ກ້ອງຖ່າຍຮູບທີ່ຜະລິດຮູບພາບ. ຕົວຢ່າງຂອງວຽກງານດັ່ງກ່າວແມ່ນ:

⦁  ການເຄື່ອນໄຫວຂອງຊີວິດ
ການກໍານົດການເຄື່ອນໄຫວແຂງ 3D (ການຫມຸນແລະການແປ) ຂອງກ້ອງຖ່າຍຮູບຈາກລໍາດັບຮູບພາບທີ່ຜະລິດໂດຍກ້ອງຖ່າຍຮູບ.

⦁ ການຕິດຕາມ
ການຕິດຕາມແມ່ນປະຕິບັດຕາມການເຄື່ອນໄຫວຂອງຈຸດສົນໃຈ ຫຼືວັດຖຸທີ່ນ້ອຍກວ່າ (ຕົວຢ່າງ: ພາຫະນະ ຫຼືມະນຸດ) ໃນລໍາດັບຮູບພາບ.

⦁ Optical flow
ນີ້ແມ່ນການກໍານົດ, ສໍາລັບແຕ່ລະຈຸດໃນຮູບພາບ, ວິທີການທີ່ຈຸດນັ້ນແມ່ນການເຄື່ອນຍ້າຍທຽບກັບຍົນຮູບພາບ, ເຊັ່ນ, ການເຄື່ອນໄຫວທີ່ປາກົດຂື້ນຂອງມັນ. ການເຄື່ອນໄຫວນີ້ແມ່ນເປັນຜົນມາຈາກທັງສອງວິທີການທີ່ຈຸດ 3D ທີ່ສອດຄ້ອງກັນກໍາລັງເຄື່ອນທີ່ຢູ່ໃນສາກ ແລະວິທີການທີ່ກ້ອງຖ່າຍຮູບກໍາລັງເຄື່ອນທີ່ທຽບກັບສາກ.

⦁ ການຟື້ນຟູສາກ
ໂດຍໃຫ້ໜຶ່ງ ຫຼື (ໂດຍປົກກະຕິແລ້ວ) ຮູບພາບຂອງສາກໜຶ່ງ ຫຼື ວິດີໂອ, ການສ້າງສາກຄືນໃໝ່ແມ່ນແນໃສ່ການຄິດໄລ່ຮູບແບບ 3 ມິຕິຂອງສາກ. ໃນກໍລະນີງ່າຍດາຍທີ່ສຸດ, ຮູບແບບສາມາດເປັນຊຸດຂອງຈຸດ 3D. ວິທີການທີ່ຊັບຊ້ອນຫຼາຍຜະລິດຮູບແບບ 3D ທີ່ສົມບູນ

⦁ ການຟື້ນຟູຮູບພາບ
ຈຸດ​ປະ​ສົງ​ຂອງ​ການ​ຟື້ນ​ຟູ​ຮູບ​ພາບ​ແມ່ນ​ການ​ລົບ​ສິ່ງ​ລົບ​ກວນ (ສິ່ງ​ລົບ​ກວນ sensor​, ມົວ​ການ​ເຄື່ອນ​ໄຫວ​, ແລະ​ອື່ນໆ​) ຈາກ​ຮູບ​ພາບ​. ວິທີທີ່ງ່າຍທີ່ສຸດທີ່ເປັນໄປໄດ້ສໍາລັບການກໍາຈັດສິ່ງລົບກວນແມ່ນປະເພດຕ່າງໆຂອງການກັ່ນຕອງເຊັ່ນ: ການກັ່ນຕອງຕ່ໍາຫຼືຕົວກອງປານກາງ. ວິທີການທີ່ຊັບຊ້ອນຫຼາຍສົມມຸດວ່າຕົວແບບຂອງໂຄງສ້າງຮູບພາບທ້ອງຖິ່ນມີລັກສະນະຄ້າຍຄື, ຮູບແບບທີ່ແຍກແຍະພວກມັນອອກຈາກສິ່ງລົບກວນ. ໂດຍທໍາອິດການວິເຄາະຂໍ້ມູນຮູບພາບໃນແງ່ຂອງໂຄງສ້າງຮູບພາບທ້ອງຖິ່ນເຊັ່ນ: ເສັ້ນຫຼືຂອບ, ແລະຫຼັງຈາກນັ້ນຄວບຄຸມການກັ່ນຕອງໂດຍອີງໃສ່ຂໍ້ມູນທ້ອງຖິ່ນຈາກຂັ້ນຕອນການວິເຄາະ, ລະດັບທີ່ດີກວ່າຂອງການກໍາຈັດສິ່ງລົບກວນແມ່ນໄດ້ຮັບເມື່ອປຽບທຽບກັບວິທີການທີ່ງ່າຍດາຍກວ່າ. ຕົວຢ່າງໃນພາກສະຫນາມນີ້ແມ່ນຮູບແຕ້ມຂອງພວກເຂົາ. ບາງລະບົບແມ່ນຄໍາຮ້ອງສະຫມັກແບບຢືນຢູ່ຄົນດຽວເພື່ອແກ້ໄຂບັນຫາການວັດແທກສະເພາະຫຼືການຊອກຄົ້ນຫາ, ໃນຂະນະທີ່ບາງລະບົບປະກອບເປັນລະບົບຍ່ອຍຂອງການອອກແບບທີ່ໃຫຍ່ກວ່າ, ສໍາລັບຕົວຢ່າງ, ຍັງມີລະບົບຍ່ອຍສໍາລັບການຄວບຄຸມເຄື່ອງກະຕຸ້ນກົນຈັກ, ການວາງແຜນ, ຖານຂໍ້ມູນຂໍ້ມູນ, ມະນຸດ. ການໂຕ້ຕອບຂອງເຄື່ອງຈັກ, ແລະອື່ນໆ. ການປະຕິບັດສະເພາະຂອງລະບົບວິໄສທັດຂອງຄອມພິວເຕີຍັງຂຶ້ນກັບວ່າຫນ້າທີ່ຂອງມັນໄດ້ຖືກລະບຸໄວ້ລ່ວງຫນ້າຫຼືບາງສ່ວນຂອງມັນສາມາດຮຽນຮູ້ຫຼືດັດແປງໃນລະຫວ່າງການປະຕິບັດງານ. ຢ່າງໃດກໍຕາມ, ມີຫນ້າທີ່ປົກກະຕິທີ່ພົບເຫັນຢູ່ໃນລະບົບວິໄສທັດຄອມພິວເຕີຈໍານວນຫຼາຍ.

 

ການຮຽນຮູ້ທີ່ເລິກເຊິ່ງດ້ວຍການຮັບຮູ້ຮູບພາບ

ການຮັບຮູ້ຮູບພາບແມ່ນປະມານກ່ອນ AI. ແຕ່ປັດໄຈການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນການປະຕິວັດວິທີການເພື່ອກໍານົດວັດຖຸຫຼືໃບຫນ້າຂອງຄົນ. ການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນມີປະສິດທິພາບພຽງແຕ່ເມື່ອມີຂໍ້ມູນເພື່ອປ້ອນມັນ, ແນວໃດກໍ່ຕາມ. ສໍາລັບການອັດຕະໂນມັດທັງຫມົດຂອງ AI, ມອບຫມາຍໃຫ້ມັນເພື່ອກໍານົດຮູບພາບບໍ່ແມ່ນການຮ້ອງຂໍງ່າຍດາຍ. ຄວາມເຂົ້າໃຈຂອງພວກເຮົາກ່ຽວກັບສາຍຕາແມ່ນລັກສະນະທີສອງ; ມັນເປັນສິ່ງທີ່ພວກເຮົາຕັ້ງໂຄງການໃຫ້ເຮັດຕັ້ງແຕ່ອາຍຸຍັງນ້ອຍ. ການຖາມເຄື່ອງດຽວກັນບໍ່ແມ່ນຂະບວນການທີ່ກົງໄປກົງມາ. ສໍາລັບເຫດຜົນນັ້ນ, ຫນຶ່ງໃນຮູບແບບທີ່ນິຍົມຫຼາຍຂອງການຮັບຮູ້ AI ແມ່ນເຄືອຂ່າຍ neural convolutional (CNN). CNN ແມ່ນວິທີການທີ່ສຸມໃສ່ pixels ທີ່ຢູ່ຂ້າງກັນ. ຮູບພາບທີ່ຕັ້ງໃກ້ຊິດມີແນວໂນ້ມທີ່ຈະມີຄວາມກ່ຽວຂ້ອງກັນຫຼາຍຂຶ້ນ, ຊຶ່ງຫມາຍຄວາມວ່າວັດຖຸຫຼືໃບຫນ້າຖືກຈັບຄູ່ກັບຮູບພາບທີ່ມີຄວາມໂປ່ງໃສຫຼາຍຂຶ້ນ.
ໃນຂະນະທີ່ຍີ່ຫໍ້ຊອກຫາສ້າງລາຍໄດ້ຈາກສື່ມວນຊົນສັງຄົມເຖິງແມ່ນວ່າການຮັບຮູ້ຮູບພາບ AI ມີຜົນປະໂຫຍດທີ່ຊັດເຈນ, ກໍລະນີການນໍາໃຊ້ຂອງມັນດໍາເນີນການເລິກກວ່າ. ລົດທີ່ຂັບລົດດ້ວຍຕົນເອງກໍາລັງຈະເປັນສິ່ງໃຫຍ່ຕໍ່ໄປໃນໂລກລົດໃຫຍ່, ແລະເຕັກໂນໂລຢີການຮັບຮູ້ຮູບພາບ AI ກໍາລັງຊ່ວຍສ້າງພະລັງງານໃຫ້ເຂົາເຈົ້າ. ລົດທີ່ຂັບລົດດ້ວຍຕົນເອງທີ່ສາມາດກວດຫາວັດຖຸ ແລະຄົນຢູ່ຖະໜົນເພື່ອບໍ່ໃຫ້ມັນຕຳພວກມັນຈະບໍ່ເກີດຂຶ້ນໂດຍອັດຕະໂນມັດ. ມັນຈໍາເປັນຕ້ອງຮັບຮູ້ຮູບພາບຕ່າງໆເພື່ອຕັດສິນໃຈຢ່າງມີຂໍ້ມູນ. ລົດທີ່ຂັບລົດດ້ວຍຕົນເອງແຕ່ລະຄັນແມ່ນຕິດຕັ້ງດ້ວຍເຊັນເຊີຫຼາຍອັນເພື່ອໃຫ້ມັນສາມາດລະບຸຍານພາຫະນະເຄື່ອນທີ່ອື່ນໆ, ຄົນຂີ່ລົດຖີບ, ຄົນ – ໂດຍພື້ນຖານແລ້ວແມ່ນສິ່ງໃດແດ່ທີ່ສາມາດເຮັດໃຫ້ເກີດອັນຕະລາຍໄດ້. ລົດອັດຕະໂນມັດຕ້ອງປະມວນຜົນອັນຕະລາຍຂອງຖະໜົນ ຄືກັນກັບຄົນຂັບລົດທີ່ມີລະດູການເຮັດ. ຍັງມີບາງແງ່ມຸມທີ່ຕ້ອງໃຊ້ໄຟກ່ອນທີ່ລົດທີ່ຂັບລົດຕົນເອງຈະແລ່ນມາສູ່ທ້ອງຖະໜົນໃນປີ 2020. ແຕ່ເມື່ອລະບົບອັດຕະໂນມັດຂອງຍານພາຫະນະເລີ່ມຂຶ້ນ, ການຮັບຮູ້ຮູບພາບ AI ຈະເປັນຫນຶ່ງໃນຕົວຂັບເຄື່ອນທີ່ສໍາຄັນທີ່ຢູ່ເບື້ອງຫຼັງການເຮັດວຽກຢ່າງປອດໄພ.
⦁ ການຊື້ຮູບພາບ
ຮູບ​ພາບ​ດິ​ຈິ​ຕອນ​ແມ່ນ​ຜະ​ລິດ​ໂດຍ​ຫນຶ່ງ​ຫຼື​ຫຼາຍ​ເຊັນ​ເຊີ​ຮູບ​ພາບ​, ຊຶ່ງ​ນອກ​ຈາກ​ປະ​ເພດ​ຕ່າງໆ​ຂອງ​ກ້ອງ​ຖ່າຍ​ຮູບ​ທີ່​ລະ​ອຽດ​ອ່ອນ​ແສງ​, ລວມ​ທັງ​ເຊັນ​ເຊີ​ໄລ​ຍະ​, ອຸ​ປະ​ກອນ tomography , radar​, ກ້ອງ​ຖ່າຍ​ຮູບ ultra-sonic​, ແລະ​ອື່ນໆ​, ຂຶ້ນ​ກັບ​ປະ​ເພດ​ຂອງ​ເຊັນ​ເຊີ​, ຂໍ້​ມູນ​ຮູບ​ພາບ​ທີ່​ໄດ້​ຮັບ​. ເປັນຮູບ 2D ທຳມະດາ, ລະດັບສຽງ 3D, ຫຼື ລຳດັບຮູບພາບ. ຄ່າຂອງ pixels ລວງໂດຍປົກກະຕິຈະກົງກັບຄວາມເຂັ້ມຂອງແສງຢູ່ໃນແຖບຫນຶ່ງຫຼືຫຼາຍ spectral (ຮູບພາບສີຂີ້ເຖົ່າຫຼືຮູບພາບສີ), ແຕ່ຍັງສາມາດກ່ຽວຂ້ອງກັບມາດຕະການທາງດ້ານຮ່າງກາຍຕ່າງໆ, ເຊັ່ນ: ຄວາມເລິກ, ການດູດຊຶມຫຼືການສະທ້ອນຂອງຄື້ນຟອງສຽງ, ຫຼືຄື້ນແມ່ເຫຼັກໄຟຟ້າ, ຫຼື nuclear magnetic resonance.
⦁ ການປຸງແຕ່ງກ່ອນ:
ກ່ອນທີ່ວິທີການວິໄສທັດຂອງຄອມພິວເຕີສາມາດຖືກນໍາໃຊ້ກັບຂໍ້ມູນຮູບພາບເພື່ອສະກັດຂໍ້ມູນບາງສ່ວນ, ປົກກະຕິແລ້ວມັນຈໍາເປັນຕ້ອງປະມວນຜົນຂໍ້ມູນເພື່ອຮັບປະກັນວ່າມັນພໍໃຈກັບສົມມຸດຕິຖານທີ່ແນ່ນອນໂດຍວິທີການ. ຕົວຢ່າງແມ່ນ
1. Re-sampling ເພື່ອໃຫ້ແນ່ໃຈວ່າລະບົບການປະສານງານຮູບພາບຖືກຕ້ອງ.
2. ການຫຼຸດຜ່ອນສິ່ງລົບກວນເພື່ອໃຫ້ແນ່ໃຈວ່າສິ່ງລົບກວນຂອງເຊັນເຊີບໍ່ໄດ້ແນະນໍາຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງ.
3. ການປັບປຸງຄວາມຄົມຊັດເພື່ອໃຫ້ແນ່ໃຈວ່າຂໍ້ມູນທີ່ກ່ຽວຂ້ອງສາມາດກວດພົບໄດ້.
4. ການສະແດງຂະຫນາດພື້ນທີ່ເພື່ອເສີມສ້າງໂຄງສ້າງຮູບພາບໃນລະດັບທີ່ເຫມາະສົມໃນທ້ອງຖິ່ນ.
⦁ການສະກັດເອົາຄຸນສົມບັດ:
ລັກສະນະຮູບພາບໃນລະດັບຕ່າງໆຂອງຄວາມສັບສົນແມ່ນສະກັດຈາກຂໍ້ມູນຮູບພາບ. ຕົວຢ່າງທົ່ວໄປຂອງລັກສະນະດັ່ງກ່າວແມ່ນເສັ້ນ, ແຄມແລະສັນຕາມລວງຍາວ
ຈຸດສົນໃຈໃນທ້ອງຖິ່ນເຊັ່ນ: ມຸມ, blobs ຫຼືຈຸດ. ລັກສະນະສະລັບສັບຊ້ອນຫຼາຍອາດຈະກ່ຽວຂ້ອງກັບໂຄງສ້າງ, ຮູບຮ່າງຫຼືການເຄື່ອນໄຫວ.
⦁ ການກວດຫາ/ການແບ່ງສ່ວນ:
ໃນບາງຈຸດຂອງການປະມວນຜົນແມ່ນການຕັດສິນໃຈກ່ຽວກັບວ່າຈຸດໃດ ຫຼື ພາກພື້ນຂອງຮູບພາບມີຄວາມກ່ຽວຂ້ອງເພື່ອປະມວນຜົນຕໍ່ໄປ. ຕົວຢ່າງແມ່ນ
1. ການເລືອກຊຸດສະເພາະຂອງຈຸດສົນໃຈ
2. ການແບ່ງສ່ວນຂອງໜຶ່ງ ຫຼືຫຼາຍຂົງເຂດຮູບພາບທີ່ມີວັດຖຸທີ່ໜ້າສົນໃຈ.
⦁ ການ​ປຸງ​ແຕ່ງ​ລະ​ດັບ​ສູງ​:
ໃນຂັ້ນຕອນນີ້, ການປ້ອນຂໍ້ມູນແມ່ນປົກກະຕິແລ້ວຊຸດຂໍ້ມູນຂະຫນາດນ້ອຍ, ຕົວຢ່າງເຊັ່ນຊຸດຂອງຈຸດຫຼືພື້ນທີ່ຂອງສັດທີ່ສົມມຸດວ່າມີວັດຖຸສະເພາະ. ການປະມວນຜົນທີ່ຍັງເຫຼືອຈັດການກັບ, ສໍາລັບການຍົກຕົວຢ່າງ:
1. ການກວດສອບວ່າຂໍ້ມູນຕອບສະໜອງຕາມການສົມມຸດຕິຖານແບບຈຳລອງ ແລະ ການນຳໃຊ້ສະເພາະ.
2. ການ​ຄາດ​ຄະ​ເນ​ຕົວ​ກໍາ​ນົດ​ການ​ສະ​ເພາະ​ຂອງ​ຄໍາ​ຮ້ອງ​ສະ​ຫມັກ​, ເຊັ່ນ​: ຈຸດ​ປະ​ສົງ​ຫຼື objectsize​.
3. ການຈັດປະເພດວັດຖຸທີ່ກວດພົບອອກເປັນປະເພດຕ່າງໆ. ດັ່ງນັ້ນ, ການປະມວນຜົນຮູບພາບຊ່ວຍໃຫ້ AI ສາມາດລະບຸຮູບພາບ ແລະຕອບສະໜອງຕາມການກໍານົດຮູບພາບ.

ອະນາຄົດທີ່ບໍ່ມີຮອຍຕໍ່ຂອງຮູບພາບ

ເມື່ອເທັກໂນໂລຍີປັບປຸງ, ການຮັບຮູ້ຮູບພາບຈະກັບຄືນມາຜົນໄດ້ຮັບທີ່ໃຫຍ່ກວ່າ. ຫົວຫນ້າຂອງການຮຽນຮູ້ເຄື່ອງຈັກຢູ່ Lobster, Vladimir Pavlov ເວົ້າວ່າ, "ພື້ນຖານທາງຄະນິດສາດສໍາລັບການຮັບຮູ້ວັດຖຸມີມາດົນນານ, ແຕ່ຄວາມເປັນໄປໄດ້ທາງດ້ານເຕັກໂນໂລຢີຂອງການນໍາໃຊ້ລະບົບວິໄສທັດຄອມພິວເຕີປະກົດວ່າບໍ່ດົນມານີ້. ແລ້ວ, ເຄືອຂ່າຍ neural ອະນຸຍາດໃຫ້ສ້າງເຄື່ອງກວດຈັບທີ່ສົມບູນແບບທີ່ມີຄວາມສາມາດເຮັດວຽກໄດ້ດີກວ່າມະນຸດ. A jerk ໃຫຍ່ຖືກັບຄືນໄປບ່ອນມີຊຸດຂໍ້ມູນຮູບພາບທີ່ຫມາຍສໍາລັບການຝຶກອົບຮົມ, ແຕ່ໃນອະນາຄົດອັນໃກ້ນີ້, ນີ້ຈະບໍ່ເປັນບັນຫາ. ວິສະວະກອນວິໄສທັດຄອມພິວເຕີກໍາລັງເຮັດວຽກຢ່າງຫ້າວຫັນກ່ຽວກັບວິທີການຮຽນຮູ້ດ້ວຍຕົນເອງ”. ໃນອະນາຄົດໄດ້ຮັບອິດທິພົນຢ່າງຫຼວງຫຼາຍຈາກການສື່ສານທາງສາຍຕາ, ການຮັບຮູ້ຮູບພາບຈະເປັນປັດໃຈສໍາຄັນທີ່ຢູ່ເບື້ອງຫຼັງຫຼາຍຮູບທີ່ພວກເຮົາເຫັນ. ທັງໃນຊີວິດຈິງແລະອອນໄລນ໌.