ເປັນຫຍັງການຮັບຮູ້ຮູບພາບຈຶ່ງສຳຄັນ?
ປະມານ 80 ເປີເຊັນຂອງເນື້ອຫາຢູ່ໃນອິນເຕີເນັດແມ່ນເບິ່ງເຫັນໄດ້. ເຈົ້າສາມາດເລີ່ມຕົ້ນໄດ້ແລ້ວວ່າເປັນຫຍັງການແທັກຮູບພາບອາດຖືສະຖານທີ່ຂອງຕົນເປັນກະສັດຂອງຕາຕະລາງເນື້ອຫາ. ບໍ່ວ່າຈະເປັນບຸກຄົນ ຫຼືບໍລິສັດ, ການຮັບຮູ້ຮູບພາບຂອງ AI ໄດ້ເຮັດໃຫ້ມັນສາມາດລະບຸພາບທາງອອນລາຍໄດ້ດ້ວຍການລົບກວນໜ້ອຍທີ່ສຸດ. ມີປະມານ 657 ຕື້ຮູບທີ່ຖືກເຜີຍແຜ່ໃນແຕ່ລະປີດ້ວຍດິຈິຕອນ, ໂດຍສ່ວນໃຫຍ່ຈະປາກົດຢູ່ໃນສື່ສັງຄົມ. ຊິ້ນສ່ວນທີ່ດີຂອງຮູບພາບເຫຼົ່ານັ້ນແມ່ນຄົນທີ່ສົ່ງເສີມຜະລິດຕະພັນ, ເຖິງແມ່ນວ່າພວກເຂົາເຮັດແນວນັ້ນໂດຍບໍ່ຕັ້ງໃຈ ເນື້ອຫາທີ່ສ້າງໂດຍຜູ້ໃຊ້ (UGC) ໃນຮູບແບບທີ່ບໍລິສຸດແມ່ນຕົວຊ່ວຍທີ່ດີເລີດສໍາລັບຍີ່ຫໍ້ຍ້ອນວ່າມັນສະຫນອງປະເພດທີ່ດີທີ່ສຸດຂອງການສົ່ງເສີມ.
ມີເຄື່ອງມືການຕະຫຼາດເພື່ອແຈ້ງເຕືອນບໍລິສັດໃນເວລາທີ່ມີການກ່າວເຖິງຜູ້ບໍລິໂພກໃນສື່ມວນຊົນສັງຄົມ, ແຕ່ວ່າເວລາການສົ່ງເສີມຍີ່ຫໍ້ເກີດຂຶ້ນໂດຍບໍ່ມີໃຜແທັກຊື່ຂອງພວກເຂົາໃນສື່ສັງຄົມ? ນີ້ແມ່ນບ່ອນທີ່ການຮັບຮູ້ຮູບພາບ AI ພິສູດຄຸນຄ່າຂອງມັນ. ຖ້າເທກໂນໂລຍີຖືກປ້ອນຊຸດຂໍ້ມູນທີ່ຖືກຕ້ອງ, AI ສາມາດກໍານົດຮູບພາບໂດຍບໍ່ມີການກ່າວເຖິງແທັກສະເພາະ. ຜົນໄດ້ຮັບແມ່ນບໍ່ມີຄ່າສໍາລັບຍີ່ຫໍ້ທີ່ຈະຕິດຕາມແລະຕິດຕາມການກ່າວເຖິງສັງຄົມຂອງພວກເຂົາ.
ການຮັບຮູ້ຮູບພາບເຮັດວຽກແນວໃດ?
ດັ່ງທີ່ພວກເຮົາຮູ້ວ່າ AI ສາມາດຄົ້ນຫາແພລະຕະຟອມສື່ສັງຄົມທີ່ຊອກຫາຮູບພາບແລະປຽບທຽບກັບຊຸດຂໍ້ມູນຢ່າງກວ້າງຂວາງ. ຫຼັງຈາກນັ້ນ, ມັນຕັດສິນໃຈກ່ຽວກັບຮູບພາບທີ່ກ່ຽວຂ້ອງທີ່ກົງກັນໃນອັດຕາໄວກວ່າທີ່ມະນຸດມີຄວາມສາມາດ. ຍີ່ຫໍ້ໃຊ້ການຮັບຮູ້ຮູບພາບເພື່ອຊອກຫາເນື້ອຫາທີ່ຄ້າຍຄືກັບຂອງຕົນເອງໃນສື່ສັງຄົມ. ນັ້ນຫມາຍຄວາມວ່າການກໍານົດໂລໂກ້ຂອງຍີ່ຫໍ້ຫຼືການຮັບຮູ້ການຈັດວາງຜະລິດຕະພັນທີ່ວາງໄວ້ທາງອິນຊີໃນບັນດາຜູ້ໃຊ້ສື່ສັງຄົມ. ການຂໍໃຫ້ມະນຸດຂ້າມຜ່ານຂໍ້ມູນຫຼາຍອັນນັ້ນເປັນເລື່ອງທີ່ໜ້າເບື່ອງ່າຍ. AI ບໍ່ໄດ້ກັງວົນກ່ຽວກັບຄວາມຜິດພາດຂອງມະນຸດ, ແລະໃຫ້ຜົນໄດ້ຮັບທີ່ຊັດເຈນໃນລະດັບທີ່ບໍ່ມີຕົວຕົນ. ການຮັບຮູ້ຮູບພາບ AI ຕິດຕາມສິ່ງທີ່ຄົນເວົ້າກ່ຽວກັບຍີ່ຫໍ້ໂດຍບໍ່ຈໍາເປັນຕ້ອງມີຂໍ້ຄວາມ. ຍີ່ຫໍ້ສາມາດຕິດຕາມການກ່າວເຖິງສັງຄົມຂອງພວກເຂົາໂດຍທີ່ຜູ້ໃຊ້ບໍ່ຈໍາເປັນຕ້ອງພິມຊື່ບໍລິສັດຈະເຫັນວ່າຕົນເອງຢູ່ໃນຕໍາແຫນ່ງທີ່ມີປະໂຫຍດ. ທ່າແຮງທີ່ຈະເຂົ້າໄປໃນການຄຸ້ມຄອງອອນໄລນ໌ຂອງຕົນເອງພຽງແຕ່ຜ່ານຕົວລະບຸທີ່ຮັບຮູ້ AI ແມ່ນໃຫຍ່ຫຼວງແລະສະຫນອງການຄຸ້ມຄອງທີ່ບໍ່ມີຕົວຕົນ.
ນີ້ແມ່ນບາງວຽກງານປົກກະຕິຂອງການຮັບຮູ້ຮູບພາບ: -
ທໍາອິດພວກເຮົາຕ້ອງກໍານົດວ່າຂໍ້ມູນຮູບພາບປະກອບດ້ວຍວັດຖຸ, ຄຸນນະສົມບັດ, ຫຼືກິດຈະກໍາສະເພາະໃດຫນຶ່ງ. ວຽກງານນີ້ສາມາດແກ້ໄຂໄດ້ຢ່າງແຂງແຮງແລະບໍ່ມີຄວາມພະຍາຍາມໂດຍມະນຸດ, ແຕ່ຍັງບໍ່ໄດ້ຮັບການແກ້ໄຂຢ່າງຫນ້າພໍໃຈໃນວິໄສທັດຄອມພິວເຕີສໍາລັບກໍລະນີທົ່ວໄປ: ວັດຖຸທີ່ມັກໃນສະຖານະການ arbitrary. ວິທີການທີ່ມີຢູ່ແລ້ວສໍາລັບການແກ້ໄຂບັນຫານີ້ສາມາດແກ້ໄຂໄດ້ດີທີ່ສຸດສໍາລັບວັດຖຸສະເພາະ, ເຊັ່ນ: ວັດຖຸເລຂາຄະນິດທີ່ງ່າຍດາຍ (ເຊັ່ນ: polyhedra), ໃບຫນ້າຂອງມະນຸດ, ຕົວອັກສອນທີ່ພິມຫຼືຂຽນດ້ວຍມື, ຫຼືຍານພາຫະນະ, ແລະໃນສະຖານະການສະເພາະ, ໂດຍທົ່ວໄປແລ້ວອະທິບາຍໃນຄໍາສັບຕ່າງໆ. ຄວາມສະຫວ່າງທີ່ຖືກກໍານົດໄວ້ດີ, ພື້ນຫລັງ, ແລະການສະແດງຂອງວັດຖຸທີ່ກ່ຽວຂ້ອງກັບກ້ອງຖ່າຍຮູບ. ແນວພັນທີ່ແຕກຕ່າງກັນຂອງບັນຫາການຮັບຮູ້ໄດ້ຖືກອະທິບາຍໄວ້ໃນວັນນະຄະດີ:
• ການຮັບຮູ້ວັດຖຸ
ສາມາດຮັບຮູ້ວັດຖຸ ຫຼື ຫ້ອງຮຽນວັດຖຸໜຶ່ງ ຫຼືຫຼາຍອັນທີ່ໄດ້ລະບຸໄວ້ລ່ວງໜ້າ ຫຼືຫຼາຍອັນສາມາດຮັບຮູ້ໄດ້, ໂດຍປົກກະຕິແລ້ວ ພ້ອມກັບຕຳແໜ່ງ 2 ມິຕິໃນຮູບ ຫຼື 3 ມິຕິໃນສາກ.
• ການລະບຸຕົວຕົນ
ຕົວຢ່າງສ່ວນບຸກຄົນຂອງວັດຖຸຖືກຮັບຮູ້. ຕົວຢ່າງແມ່ນການລະບຸໃບຫນ້າຂອງບຸກຄົນໃດຫນຶ່ງຫຼືລາຍນີ້ວມື, ຫຼືການກໍານົດຂອງຍານພາຫະນະສະເພາະໃດຫນຶ່ງ.
• ການກວດຫາ
ຂໍ້ມູນຮູບພາບໄດ້ຖືກສະແກນສໍາລັບເງື່ອນໄຂສະເພາະ. ຕົວຢ່າງແມ່ນການກວດຫາຈຸລັງ ຫຼືເນື້ອເຍື່ອທີ່ຜິດປົກກະຕິໃນຮູບພາບທາງການແພດ ຫຼືການກວດຫາລົດໃນລະບົບການເກັບຄ່າທາງອັດຕະໂນມັດ. ການກວດຫາໂດຍອີງໃສ່ການຄິດໄລ່ທີ່ຂ້ອນຂ້າງງ່າຍດາຍແລະໄວແມ່ນບາງຄັ້ງໃຊ້ສໍາລັບການຊອກຫາພື້ນທີ່ຂະຫນາດນ້ອຍຂອງຂໍ້ມູນຮູບພາບທີ່ຫນ້າສົນໃຈເຊິ່ງສາມາດວິເຄາະຕື່ມອີກໂດຍເຕັກນິກທີ່ຕ້ອງການຄອມພິວເຕີ້ຫຼາຍເພື່ອໃຫ້ການຕີຄວາມຫມາຍທີ່ຖືກຕ້ອງ.
ມີຫຼາຍໜ້າວຽກສະເພາະໂດຍອີງໃສ່ການຮັບຮູ້, ເຊັ່ນ:
• ການດຶງຮູບພາບທີ່ອີງໃສ່ເນື້ອຫາ
ທີ່ນີ້ຊອກຫາຮູບພາບທັງຫມົດໃນຊຸດຮູບພາບຂະຫນາດໃຫຍ່ທີ່ມີເນື້ອຫາສະເພາະ. ເນື້ອຫາສາມາດຖືກລະບຸໄວ້ໃນວິທີຕ່າງໆ, ຕົວຢ່າງເຊັ່ນໃນແງ່ຂອງຄວາມຄ້າຍຄືກັນກ່ຽວກັບຮູບພາບເປົ້າຫມາຍ (ໃຫ້ຮູບພາບທັງຫມົດທີ່ຄ້າຍຄືກັບຮູບພາບ X), ຫຼືໃນເງື່ອນໄຂການຊອກຫາລະດັບສູງທີ່ໃຫ້ໃສ່ຂໍ້ຄວາມ (ໃຫ້ຂ້ອຍທຸກຮູບພາບທີ່ມີ ເຮືອນຫຼາຍຫຼັງຖືກນຳເອົາໃນລະດູໜາວ, ແລະບໍ່ມີລົດຢູ່).
• ຄາດຄະເນການວາງແຜນ
ພວກເຮົາຕ້ອງຄາດຄະເນຕໍາແຫນ່ງຫຼືທິດທາງຂອງວັດຖຸສະເພາະໃດຫນຶ່ງທີ່ກ່ຽວຂ້ອງກັບກ້ອງຖ່າຍຮູບໄດ້. ຄໍາຮ້ອງສະຫມັກຕົວຢ່າງສໍາລັບເຕັກນິກນີ້ຈະຊ່ວຍໃຫ້ຫຸ່ນຍົນດຶງວັດຖຸຈາກສາຍແອວ conveyor ໃນສະຖານະການສາຍປະກອບ.
• ການຮັບຮູ້ຕົວລະຄອນແບບ Optical
ອຄ ເຊິ່ງເປັນການກໍານົດຕົວອັກສອນໃນຮູບພາບຂອງຂໍ້ຄວາມທີ່ພິມອອກຫຼືຂຽນດ້ວຍມື, ໂດຍປົກກະຕິເພື່ອແນໃສ່ການເຂົ້າລະຫັດຂໍ້ຄວາມໃນຮູບແບບຫຼາຍແລະເຮັດໃຫ້ການດັດແກ້ຫຼືດັດສະນີພະແນກວິທະຍາສາດຄອມພິວເຕີແລະວິສະວະກໍາ, ມະຫາວິທະຍາໄລລັດ Michigan. “ຄະນະວິຊາຫ້ອງທົດລອງການຮັບຮູ້ ແລະ ປະມວນຜົນຮູບພາບ (PRIP) ແລະ ນັກສຶກສາຄົ້ນຄວ້າການນຳໃຊ້ເຄື່ອງຈັກເພື່ອຮັບຮູ້ຮູບແບບ ຫຼື ວັດຖຸ. ວິທີການໄດ້ຖືກພັດທະນາເພື່ອຮັບຮູ້ວັດຖຸ, ຄົ້ນພົບລັກສະນະໃດທີ່ແຕກຕ່າງຈາກຄົນອື່ນ, ແລະການອອກແບບສູດການຄິດໄລ່ທີ່ສາມາດນໍາໃຊ້ໄດ້ໂດຍເຄື່ອງຈັກເພື່ອຈັດປະເພດ. ຄໍາຮ້ອງສະຫມັກທີ່ສໍາຄັນປະກອບມີການຮັບຮູ້ໃບຫນ້າ, ການລະບຸນິ້ວມື, ການວິເຄາະຮູບພາບເອກະສານ, ການກໍ່ສ້າງແບບຈໍາລອງວັດຖຸ 3D, ການນໍາທາງຫຸ່ນຍົນ, ແລະການເບິ່ງເຫັນ / ການສໍາຫຼວດຂໍ້ມູນ 3D volumetric. ບັນຫາການຄົ້ນຄວ້າໃນປະຈຸບັນປະກອບມີການກວດສອບຄວາມຖືກຕ້ອງທາງຊີວະມິຕິ, ການເຝົ້າລະວັງແລະການຕິດຕາມອັດຕະໂນມັດ, HCI ທີ່ບໍ່ມີມື, ການສ້າງແບບຈໍາລອງໃບຫນ້າ, watermarking ດິຈິຕອນແລະໂຄງສ້າງການວິເຄາະຂອງເອກະສານອອນໄລນ໌. ນັກສຶກສາທີ່ຮຽນຈົບຫ້ອງທົດລອງທີ່ຜ່ານມາໄດ້ເຮັດວຽກກ່ຽວກັບການຮັບຮູ້ການຂຽນດ້ວຍມື, ການກວດສອບລາຍເຊັນ, ການຮຽນຮູ້ສາຍຕາ, ແລະການດຶງຮູບພາບ."
⦁ ການຮັບຮູ້ໃບໜ້າ
ພວກເຮົາຮູ້ວ່າລະບົບການຮັບຮູ້ໃບຫນ້າໄດ້ຮັບຄວາມນິຍົມເປັນວິທີການຂອງການສະກັດຂໍ້ມູນ biometric. ການຮັບຮູ້ໃບໜ້າມີບົດບາດສຳຄັນໃນລະບົບຊີວະມິຕິ ແລະເປັນທີ່ໜ້າສົນໃຈສຳລັບແອັບພລິເຄຊັນຕ່າງໆ ລວມທັງການເຝົ້າລະວັງທາງສາຍຕາ ແລະຄວາມປອດໄພ. ເນື່ອງຈາກວ່າປະຊາຊົນທົ່ວໄປຍອມຮັບຮູບພາບໃບຫນ້າໃນເອກະສານຕ່າງໆ, ການຮັບຮູ້ໃບຫນ້າມີທ່າແຮງອັນໃຫຍ່ຫຼວງທີ່ຈະກາຍເປັນເຕັກໂນໂລຊີ biometric ລຸ້ນຕໍ່ໄປທາງເລືອກ.
ລະບົບການຮັບຮູ້ຮູບພາບ
⦁ ການວິເຄາະການເຄື່ອນໄຫວ
ວຽກງານຫຼາຍຢ່າງກ່ຽວຂ້ອງກັບການປະເມີນການເຄື່ອນໄຫວທີ່ລໍາດັບຮູບພາບຖືກປະມວນຜົນເພື່ອຜະລິດການປະເມີນຄວາມໄວໃນແຕ່ລະຈຸດໃນຮູບພາບ ຫຼືໃນສາກ 3 ມິຕິ, ຫຼືແມ່ນແຕ່ກ້ອງຖ່າຍຮູບທີ່ຜະລິດຮູບພາບ. ຕົວຢ່າງຂອງວຽກງານດັ່ງກ່າວແມ່ນ:
⦁ ການເຄື່ອນໄຫວຂອງຊີວິດ
ການກໍານົດການເຄື່ອນໄຫວແຂງ 3D (ການຫມຸນແລະການແປ) ຂອງກ້ອງຖ່າຍຮູບຈາກລໍາດັບຮູບພາບທີ່ຜະລິດໂດຍກ້ອງຖ່າຍຮູບ.
⦁ ການຕິດຕາມ
ການຕິດຕາມແມ່ນປະຕິບັດຕາມການເຄື່ອນໄຫວຂອງຈຸດສົນໃຈ ຫຼືວັດຖຸທີ່ນ້ອຍກວ່າ (ຕົວຢ່າງ: ພາຫະນະ ຫຼືມະນຸດ) ໃນລໍາດັບຮູບພາບ.
⦁ Optical flow
ນີ້ແມ່ນການກໍານົດ, ສໍາລັບແຕ່ລະຈຸດໃນຮູບພາບ, ວິທີການທີ່ຈຸດນັ້ນແມ່ນການເຄື່ອນຍ້າຍທຽບກັບຍົນຮູບພາບ, ເຊັ່ນ, ການເຄື່ອນໄຫວທີ່ປາກົດຂື້ນຂອງມັນ. ການເຄື່ອນໄຫວນີ້ແມ່ນເປັນຜົນມາຈາກທັງສອງວິທີການທີ່ຈຸດ 3D ທີ່ສອດຄ້ອງກັນກໍາລັງເຄື່ອນທີ່ຢູ່ໃນສາກ ແລະວິທີການທີ່ກ້ອງຖ່າຍຮູບກໍາລັງເຄື່ອນທີ່ທຽບກັບສາກ.
⦁ ການຟື້ນຟູສາກ
ໂດຍໃຫ້ໜຶ່ງ ຫຼື (ໂດຍປົກກະຕິແລ້ວ) ຮູບພາບຂອງສາກໜຶ່ງ ຫຼື ວິດີໂອ, ການສ້າງສາກຄືນໃໝ່ແມ່ນແນໃສ່ການຄິດໄລ່ຮູບແບບ 3 ມິຕິຂອງສາກ. ໃນກໍລະນີງ່າຍດາຍທີ່ສຸດ, ຮູບແບບສາມາດເປັນຊຸດຂອງຈຸດ 3D. ວິທີການທີ່ຊັບຊ້ອນຫຼາຍຜະລິດຮູບແບບ 3D ທີ່ສົມບູນ
⦁ ການຟື້ນຟູຮູບພາບ
ຈຸດປະສົງຂອງການຟື້ນຟູຮູບພາບແມ່ນການລົບສິ່ງລົບກວນ (ສິ່ງລົບກວນ sensor, ມົວການເຄື່ອນໄຫວ, ແລະອື່ນໆ) ຈາກຮູບພາບ. ວິທີທີ່ງ່າຍທີ່ສຸດທີ່ເປັນໄປໄດ້ສໍາລັບການກໍາຈັດສິ່ງລົບກວນແມ່ນປະເພດຕ່າງໆຂອງການກັ່ນຕອງເຊັ່ນ: ການກັ່ນຕອງຕ່ໍາຫຼືຕົວກອງປານກາງ. ວິທີການທີ່ຊັບຊ້ອນຫຼາຍສົມມຸດວ່າຕົວແບບຂອງໂຄງສ້າງຮູບພາບທ້ອງຖິ່ນມີລັກສະນະຄ້າຍຄື, ຮູບແບບທີ່ແຍກແຍະພວກມັນອອກຈາກສິ່ງລົບກວນ. ໂດຍທໍາອິດການວິເຄາະຂໍ້ມູນຮູບພາບໃນແງ່ຂອງໂຄງສ້າງຮູບພາບທ້ອງຖິ່ນເຊັ່ນ: ເສັ້ນຫຼືຂອບ, ແລະຫຼັງຈາກນັ້ນຄວບຄຸມການກັ່ນຕອງໂດຍອີງໃສ່ຂໍ້ມູນທ້ອງຖິ່ນຈາກຂັ້ນຕອນການວິເຄາະ, ລະດັບທີ່ດີກວ່າຂອງການກໍາຈັດສິ່ງລົບກວນແມ່ນໄດ້ຮັບເມື່ອປຽບທຽບກັບວິທີການທີ່ງ່າຍດາຍກວ່າ. ຕົວຢ່າງໃນພາກສະຫນາມນີ້ແມ່ນຮູບແຕ້ມຂອງພວກເຂົາ. ບາງລະບົບແມ່ນຄໍາຮ້ອງສະຫມັກແບບຢືນຢູ່ຄົນດຽວເພື່ອແກ້ໄຂບັນຫາການວັດແທກສະເພາະຫຼືການຊອກຄົ້ນຫາ, ໃນຂະນະທີ່ບາງລະບົບປະກອບເປັນລະບົບຍ່ອຍຂອງການອອກແບບທີ່ໃຫຍ່ກວ່າ, ສໍາລັບຕົວຢ່າງ, ຍັງມີລະບົບຍ່ອຍສໍາລັບການຄວບຄຸມເຄື່ອງກະຕຸ້ນກົນຈັກ, ການວາງແຜນ, ຖານຂໍ້ມູນຂໍ້ມູນ, ມະນຸດ. ການໂຕ້ຕອບຂອງເຄື່ອງຈັກ, ແລະອື່ນໆ. ການປະຕິບັດສະເພາະຂອງລະບົບວິໄສທັດຂອງຄອມພິວເຕີຍັງຂຶ້ນກັບວ່າຫນ້າທີ່ຂອງມັນໄດ້ຖືກລະບຸໄວ້ລ່ວງຫນ້າຫຼືບາງສ່ວນຂອງມັນສາມາດຮຽນຮູ້ຫຼືດັດແປງໃນລະຫວ່າງການປະຕິບັດງານ. ຢ່າງໃດກໍຕາມ, ມີຫນ້າທີ່ປົກກະຕິທີ່ພົບເຫັນຢູ່ໃນລະບົບວິໄສທັດຄອມພິວເຕີຈໍານວນຫຼາຍ.
ການຮຽນຮູ້ທີ່ເລິກເຊິ່ງດ້ວຍການຮັບຮູ້ຮູບພາບ
ການຮັບຮູ້ຮູບພາບແມ່ນປະມານກ່ອນ AI. ແຕ່ປັດໄຈການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນການປະຕິວັດວິທີການເພື່ອກໍານົດວັດຖຸຫຼືໃບຫນ້າຂອງຄົນ. ການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນມີປະສິດທິພາບພຽງແຕ່ເມື່ອມີຂໍ້ມູນເພື່ອປ້ອນມັນ, ແນວໃດກໍ່ຕາມ. ສໍາລັບການອັດຕະໂນມັດທັງຫມົດຂອງ AI, ມອບຫມາຍໃຫ້ມັນເພື່ອກໍານົດຮູບພາບບໍ່ແມ່ນການຮ້ອງຂໍງ່າຍດາຍ. ຄວາມເຂົ້າໃຈຂອງພວກເຮົາກ່ຽວກັບສາຍຕາແມ່ນລັກສະນະທີສອງ; ມັນເປັນສິ່ງທີ່ພວກເຮົາຕັ້ງໂຄງການໃຫ້ເຮັດຕັ້ງແຕ່ອາຍຸຍັງນ້ອຍ. ການຖາມເຄື່ອງດຽວກັນບໍ່ແມ່ນຂະບວນການທີ່ກົງໄປກົງມາ. ສໍາລັບເຫດຜົນນັ້ນ, ຫນຶ່ງໃນຮູບແບບທີ່ນິຍົມຫຼາຍຂອງການຮັບຮູ້ AI ແມ່ນເຄືອຂ່າຍ neural convolutional (CNN). CNN ແມ່ນວິທີການທີ່ສຸມໃສ່ pixels ທີ່ຢູ່ຂ້າງກັນ. ຮູບພາບທີ່ຕັ້ງໃກ້ຊິດມີແນວໂນ້ມທີ່ຈະມີຄວາມກ່ຽວຂ້ອງກັນຫຼາຍຂຶ້ນ, ຊຶ່ງຫມາຍຄວາມວ່າວັດຖຸຫຼືໃບຫນ້າຖືກຈັບຄູ່ກັບຮູບພາບທີ່ມີຄວາມໂປ່ງໃສຫຼາຍຂຶ້ນ.
ໃນຂະນະທີ່ຍີ່ຫໍ້ຊອກຫາສ້າງລາຍໄດ້ຈາກສື່ມວນຊົນສັງຄົມເຖິງແມ່ນວ່າການຮັບຮູ້ຮູບພາບ AI ມີຜົນປະໂຫຍດທີ່ຊັດເຈນ, ກໍລະນີການນໍາໃຊ້ຂອງມັນດໍາເນີນການເລິກກວ່າ. ລົດທີ່ຂັບລົດດ້ວຍຕົນເອງກໍາລັງຈະເປັນສິ່ງໃຫຍ່ຕໍ່ໄປໃນໂລກລົດໃຫຍ່, ແລະເຕັກໂນໂລຢີການຮັບຮູ້ຮູບພາບ AI ກໍາລັງຊ່ວຍສ້າງພະລັງງານໃຫ້ເຂົາເຈົ້າ. ລົດທີ່ຂັບລົດດ້ວຍຕົນເອງທີ່ສາມາດກວດຫາວັດຖຸ ແລະຄົນຢູ່ຖະໜົນເພື່ອບໍ່ໃຫ້ມັນຕຳພວກມັນຈະບໍ່ເກີດຂຶ້ນໂດຍອັດຕະໂນມັດ. ມັນຈໍາເປັນຕ້ອງຮັບຮູ້ຮູບພາບຕ່າງໆເພື່ອຕັດສິນໃຈຢ່າງມີຂໍ້ມູນ. ລົດທີ່ຂັບລົດດ້ວຍຕົນເອງແຕ່ລະຄັນແມ່ນຕິດຕັ້ງດ້ວຍເຊັນເຊີຫຼາຍອັນເພື່ອໃຫ້ມັນສາມາດລະບຸຍານພາຫະນະເຄື່ອນທີ່ອື່ນໆ, ຄົນຂີ່ລົດຖີບ, ຄົນ – ໂດຍພື້ນຖານແລ້ວແມ່ນສິ່ງໃດແດ່ທີ່ສາມາດເຮັດໃຫ້ເກີດອັນຕະລາຍໄດ້. ລົດອັດຕະໂນມັດຕ້ອງປະມວນຜົນອັນຕະລາຍຂອງຖະໜົນ ຄືກັນກັບຄົນຂັບລົດທີ່ມີລະດູການເຮັດ. ຍັງມີບາງແງ່ມຸມທີ່ຕ້ອງໃຊ້ໄຟກ່ອນທີ່ລົດທີ່ຂັບລົດຕົນເອງຈະແລ່ນມາສູ່ທ້ອງຖະໜົນໃນປີ 2020. ແຕ່ເມື່ອລະບົບອັດຕະໂນມັດຂອງຍານພາຫະນະເລີ່ມຂຶ້ນ, ການຮັບຮູ້ຮູບພາບ AI ຈະເປັນຫນຶ່ງໃນຕົວຂັບເຄື່ອນທີ່ສໍາຄັນທີ່ຢູ່ເບື້ອງຫຼັງການເຮັດວຽກຢ່າງປອດໄພ.
⦁ ການຊື້ຮູບພາບ
ຮູບພາບດິຈິຕອນແມ່ນຜະລິດໂດຍຫນຶ່ງຫຼືຫຼາຍເຊັນເຊີຮູບພາບ, ຊຶ່ງນອກຈາກປະເພດຕ່າງໆຂອງກ້ອງຖ່າຍຮູບທີ່ລະອຽດອ່ອນແສງ, ລວມທັງເຊັນເຊີໄລຍະ, ອຸປະກອນ tomography , radar, ກ້ອງຖ່າຍຮູບ ultra-sonic, ແລະອື່ນໆ, ຂຶ້ນກັບປະເພດຂອງເຊັນເຊີ, ຂໍ້ມູນຮູບພາບທີ່ໄດ້ຮັບ. ເປັນຮູບ 2D ທຳມະດາ, ລະດັບສຽງ 3D, ຫຼື ລຳດັບຮູບພາບ. ຄ່າຂອງ pixels ລວງໂດຍປົກກະຕິຈະກົງກັບຄວາມເຂັ້ມຂອງແສງຢູ່ໃນແຖບຫນຶ່ງຫຼືຫຼາຍ spectral (ຮູບພາບສີຂີ້ເຖົ່າຫຼືຮູບພາບສີ), ແຕ່ຍັງສາມາດກ່ຽວຂ້ອງກັບມາດຕະການທາງດ້ານຮ່າງກາຍຕ່າງໆ, ເຊັ່ນ: ຄວາມເລິກ, ການດູດຊຶມຫຼືການສະທ້ອນຂອງຄື້ນຟອງສຽງ, ຫຼືຄື້ນແມ່ເຫຼັກໄຟຟ້າ, ຫຼື nuclear magnetic resonance.
⦁ ການປຸງແຕ່ງກ່ອນ:
ກ່ອນທີ່ວິທີການວິໄສທັດຂອງຄອມພິວເຕີສາມາດຖືກນໍາໃຊ້ກັບຂໍ້ມູນຮູບພາບເພື່ອສະກັດຂໍ້ມູນບາງສ່ວນ, ປົກກະຕິແລ້ວມັນຈໍາເປັນຕ້ອງປະມວນຜົນຂໍ້ມູນເພື່ອຮັບປະກັນວ່າມັນພໍໃຈກັບສົມມຸດຕິຖານທີ່ແນ່ນອນໂດຍວິທີການ. ຕົວຢ່າງແມ່ນ
1. Re-sampling ເພື່ອໃຫ້ແນ່ໃຈວ່າລະບົບການປະສານງານຮູບພາບຖືກຕ້ອງ.
2. ການຫຼຸດຜ່ອນສິ່ງລົບກວນເພື່ອໃຫ້ແນ່ໃຈວ່າສິ່ງລົບກວນຂອງເຊັນເຊີບໍ່ໄດ້ແນະນໍາຂໍ້ມູນທີ່ບໍ່ຖືກຕ້ອງ.
3. ການປັບປຸງຄວາມຄົມຊັດເພື່ອໃຫ້ແນ່ໃຈວ່າຂໍ້ມູນທີ່ກ່ຽວຂ້ອງສາມາດກວດພົບໄດ້.
4. ການສະແດງຂະຫນາດພື້ນທີ່ເພື່ອເສີມສ້າງໂຄງສ້າງຮູບພາບໃນລະດັບທີ່ເຫມາະສົມໃນທ້ອງຖິ່ນ.
⦁ການສະກັດເອົາຄຸນສົມບັດ:
ລັກສະນະຮູບພາບໃນລະດັບຕ່າງໆຂອງຄວາມສັບສົນແມ່ນສະກັດຈາກຂໍ້ມູນຮູບພາບ. ຕົວຢ່າງທົ່ວໄປຂອງລັກສະນະດັ່ງກ່າວແມ່ນເສັ້ນ, ແຄມແລະສັນຕາມລວງຍາວ
ຈຸດສົນໃຈໃນທ້ອງຖິ່ນເຊັ່ນ: ມຸມ, blobs ຫຼືຈຸດ. ລັກສະນະສະລັບສັບຊ້ອນຫຼາຍອາດຈະກ່ຽວຂ້ອງກັບໂຄງສ້າງ, ຮູບຮ່າງຫຼືການເຄື່ອນໄຫວ.
⦁ ການກວດຫາ/ການແບ່ງສ່ວນ:
ໃນບາງຈຸດຂອງການປະມວນຜົນແມ່ນການຕັດສິນໃຈກ່ຽວກັບວ່າຈຸດໃດ ຫຼື ພາກພື້ນຂອງຮູບພາບມີຄວາມກ່ຽວຂ້ອງເພື່ອປະມວນຜົນຕໍ່ໄປ. ຕົວຢ່າງແມ່ນ
1. ການເລືອກຊຸດສະເພາະຂອງຈຸດສົນໃຈ
2. ການແບ່ງສ່ວນຂອງໜຶ່ງ ຫຼືຫຼາຍຂົງເຂດຮູບພາບທີ່ມີວັດຖຸທີ່ໜ້າສົນໃຈ.
⦁ ການປຸງແຕ່ງລະດັບສູງ:
ໃນຂັ້ນຕອນນີ້, ການປ້ອນຂໍ້ມູນແມ່ນປົກກະຕິແລ້ວຊຸດຂໍ້ມູນຂະຫນາດນ້ອຍ, ຕົວຢ່າງເຊັ່ນຊຸດຂອງຈຸດຫຼືພື້ນທີ່ຂອງສັດທີ່ສົມມຸດວ່າມີວັດຖຸສະເພາະ. ການປະມວນຜົນທີ່ຍັງເຫຼືອຈັດການກັບ, ສໍາລັບການຍົກຕົວຢ່າງ:
1. ການກວດສອບວ່າຂໍ້ມູນຕອບສະໜອງຕາມການສົມມຸດຕິຖານແບບຈຳລອງ ແລະ ການນຳໃຊ້ສະເພາະ.
2. ການຄາດຄະເນຕົວກໍານົດການສະເພາະຂອງຄໍາຮ້ອງສະຫມັກ, ເຊັ່ນ: ຈຸດປະສົງຫຼື objectsize.
3. ການຈັດປະເພດວັດຖຸທີ່ກວດພົບອອກເປັນປະເພດຕ່າງໆ. ດັ່ງນັ້ນ, ການປະມວນຜົນຮູບພາບຊ່ວຍໃຫ້ AI ສາມາດລະບຸຮູບພາບ ແລະຕອບສະໜອງຕາມການກໍານົດຮູບພາບ.
ອະນາຄົດທີ່ບໍ່ມີຮອຍຕໍ່ຂອງຮູບພາບ
ເມື່ອເທັກໂນໂລຍີປັບປຸງ, ການຮັບຮູ້ຮູບພາບຈະກັບຄືນມາຜົນໄດ້ຮັບທີ່ໃຫຍ່ກວ່າ. ຫົວຫນ້າຂອງການຮຽນຮູ້ເຄື່ອງຈັກຢູ່ Lobster, Vladimir Pavlov ເວົ້າວ່າ, "ພື້ນຖານທາງຄະນິດສາດສໍາລັບການຮັບຮູ້ວັດຖຸມີມາດົນນານ, ແຕ່ຄວາມເປັນໄປໄດ້ທາງດ້ານເຕັກໂນໂລຢີຂອງການນໍາໃຊ້ລະບົບວິໄສທັດຄອມພິວເຕີປະກົດວ່າບໍ່ດົນມານີ້. ແລ້ວ, ເຄືອຂ່າຍ neural ອະນຸຍາດໃຫ້ສ້າງເຄື່ອງກວດຈັບທີ່ສົມບູນແບບທີ່ມີຄວາມສາມາດເຮັດວຽກໄດ້ດີກວ່າມະນຸດ. A jerk ໃຫຍ່ຖືກັບຄືນໄປບ່ອນມີຊຸດຂໍ້ມູນຮູບພາບທີ່ຫມາຍສໍາລັບການຝຶກອົບຮົມ, ແຕ່ໃນອະນາຄົດອັນໃກ້ນີ້, ນີ້ຈະບໍ່ເປັນບັນຫາ. ວິສະວະກອນວິໄສທັດຄອມພິວເຕີກໍາລັງເຮັດວຽກຢ່າງຫ້າວຫັນກ່ຽວກັບວິທີການຮຽນຮູ້ດ້ວຍຕົນເອງ”. ໃນອະນາຄົດໄດ້ຮັບອິດທິພົນຢ່າງຫຼວງຫຼາຍຈາກການສື່ສານທາງສາຍຕາ, ການຮັບຮູ້ຮູບພາບຈະເປັນປັດໃຈສໍາຄັນທີ່ຢູ່ເບື້ອງຫຼັງຫຼາຍຮູບທີ່ພວກເຮົາເຫັນ. ທັງໃນຊີວິດຈິງແລະອອນໄລນ໌.