لماذا التعرف على الصور مهم؟

حوالي 80 بالمائة من المحتوى الموجود على الإنترنت مرئي. يمكنك بالفعل البدء في معرفة سبب احتلال علامات الصور مكانها كملك لجدول المحتوى. سواء أكان الأمر يتعلق بأفراد أو شركات، فقد أتاح التعرف على الصور بواسطة الذكاء الاصطناعي التعرف على العناصر المرئية عبر الإنترنت بأقل قدر من الضجة. يتم نشر حوالي 657 مليار صورة رقميًا كل عام، وتظهر معظمها على وسائل التواصل الاجتماعي. جزء كبير من هذه الصور هو أشخاص يروجون للمنتجات، حتى لو كانوا يفعلون ذلك عن غير قصد. يعد المحتوى الذي ينشئه المستخدم (UGC) في أنقى صوره عامل تمكين ممتاز للعلامات التجارية لأنه يوفر أفضل نوع من الترويج.
هناك أدوات تسويقية لتنبيه الشركات عندما يكون هناك إشارة إلى المستهلك على وسائل التواصل الاجتماعي، ولكن ماذا عن الحالات التي يتم فيها الترويج للعلامات التجارية دون أن يقوم أي شخص بوضع علامة باسمه في المنشور الاجتماعي؟ هذا هو المكان الذي يثبت فيه التعرف على الصور بتقنية الذكاء الاصطناعي قيمته. إذا تم تغذية التقنية بمجموعات البيانات الصحيحة، فيمكن للذكاء الاصطناعي التعرف على الصورة دون الإشارة إلى علامة محددة. النتائج لا تقدر بثمن بالنسبة للعلامات التجارية لتتبع وتتبع الإشارات الاجتماعية الخاصة بهم.

كيف يعمل التعرف على الصور؟

كما نعلم، يمكن للذكاء الاصطناعي البحث في منصات التواصل الاجتماعي بحثًا عن الصور ومقارنتها بمجموعات بيانات واسعة النطاق. ثم يقرر بعد ذلك الصورة ذات الصلة التي تتطابق بمعدل أسرع بكثير مما يستطيع البشر القيام به. تستخدم العلامات التجارية التعرف على الصور للعثور على محتوى مشابه لمحتوى خاص بها على وسائل التواصل الاجتماعي. وهذا يعني تحديد شعار العلامة التجارية أو التعرف على وضع المنتج بشكل عضوي بين مستخدمي وسائل التواصل الاجتماعي. إن مطالبة البشر بالبحث في هذا القدر الكبير من المعلومات يصبح أمرًا متعبًا بسهولة. لا يقلق الذكاء الاصطناعي بشأن الخطأ البشري، ويعرض نتائج دقيقة بمستويات لا مثيل لها. يراقب التعرف على الصور بتقنية الذكاء الاصطناعي ما يقوله الأشخاص حول العلامة التجارية دون الحاجة إلى نص. العلامات التجارية القادرة على تتبع الإشارات الاجتماعية الخاصة بها دون أن يحتاج المستخدمون إلى كتابة اسم الشركة سوف تجد نفسها في وضع متميز. تعد إمكانية الاستفادة من التغطية الخاصة بهم عبر الإنترنت فقط من خلال المعرفات المعترف بها بواسطة الذكاء الاصطناعي هائلة وتوفر تغطية لا مثيل لها.

فيما يلي بعض المهام النموذجية للتعرف على الصور: -

في البداية يتعين علينا تحديد ما إذا كانت بيانات الصورة تحتوي على كائن أو ميزة أو نشاط محدد أم لا. يمكن عادةً حل هذه المهمة بقوة ودون جهد من قبل الإنسان، ولكنها لا تزال غير مُحلّة بشكل مُرضٍ في الرؤية الحاسوبية للحالة العامة: كائنات عشوائية في مواقف عشوائية. يمكن حل الطرق الحالية للتعامل مع هذه المشكلة بشكل أفضل فقط لكائنات محددة، مثل الكائنات الهندسية البسيطة (على سبيل المثال، متعددات الوجوه)، أو الوجوه البشرية، أو الأحرف المطبوعة أو المكتوبة بخط اليد، أو المركبات، وفي مواقف محددة، يتم وصفها عادةً بمصطلحات للإضاءة والخلفية ووضعية الجسم المحددة جيدًا بالنسبة للكاميرا. تم وصف أنواع مختلفة من مشكلة الاعتراف في الأدبيات:

• التعرف على الأشياء

يمكن التعرف على واحد أو عدة كائنات أو فئات كائنات محددة مسبقًا أو متعلمة، عادةً مع مواضعها ثنائية الأبعاد في الصورة أو أوضاعها ثلاثية الأبعاد في المشهد.

• هوية
يتم التعرف على مثيل فردي للكائن. ومن الأمثلة على ذلك التعرف على وجه شخص معين أو بصمة إصبعه، أو التعرف على مركبة معينة.

• كشف
يتم فحص بيانات الصورة بحثًا عن حالة معينة. ومن الأمثلة على ذلك الكشف عن الخلايا أو الأنسجة غير الطبيعية المحتملة في الصور الطبية أو اكتشاف مركبة في النظام الآلي لرسوم الطرق. يتم أحيانًا استخدام الاكتشاف المستند إلى حسابات بسيطة وسريعة نسبيًا للعثور على مناطق أصغر من بيانات الصور المثيرة للاهتمام والتي يمكن تحليلها بشكل أكبر من خلال تقنيات أكثر تطلبًا حسابيًا لإنتاج تفسير صحيح.

توجد عدة مهام متخصصة تعتمد على الاعتراف، مثل:

• استرجاع الصور على أساس المحتوى
تجد هنا جميع الصور في مجموعة أكبر من الصور التي تحتوي على محتوى محدد. يمكن تحديد المحتوى بطرق مختلفة، على سبيل المثال من حيث التشابه بالنسبة لصورة مستهدفة (أعطني جميع الصور المشابهة للصورة X)، أو من حيث معايير البحث عالية المستوى المقدمة كمدخل نص (أعطني جميع الصور التي تحتوي على يتم الاستيلاء على العديد من المنازل خلال فصل الشتاء، ولا يوجد بها سيارات).

• تشكل التقدير
علينا أن نقدر موضع أو اتجاه كائن معين بالنسبة للكاميرا. أحد الأمثلة على تطبيق هذه التقنية هو مساعدة الروبوت في استرداد الأشياء من الحزام الناقل في موقف خط التجميع.

• التعرف الضوئي على الحروف
التعرف الضوئي على الحروف وهو تحديد الأحرف في صور النص المطبوع أو المكتوب بخط اليد، وعادةً ما يكون ذلك بهدف ترميز النص بتنسيق أكثر والتمكين من تحريره أو فهرسته بقسم علوم وهندسة الكمبيوتر بجامعة ولاية ميشيغان. "يقوم أعضاء هيئة التدريس والطلاب في مختبر التعرف على الأنماط ومعالجة الصور (PRIP) بالتحقيق في استخدام الآلات للتعرف على الأنماط أو الأشياء. يتم تطوير الأساليب لاستشعار الأشياء، لاكتشاف أي من ميزاتها تميزها عن غيرها، وتصميم الخوارزميات التي يمكن أن تستخدمها الآلة للقيام بالتصنيف. تشمل التطبيقات المهمة التعرف على الوجه، وتحديد بصمات الأصابع، وتحليل صور المستندات، وإنشاء نماذج الكائنات ثلاثية الأبعاد، والملاحة الآلية، وتصور/استكشاف البيانات الحجمية ثلاثية الأبعاد. تشمل مشاكل البحث الحالية المصادقة البيومترية، والمراقبة والتتبع التلقائي، وتفاعل التفاعل بين الأجهزة بدون استخدام اليدين، ونمذجة الوجه، والعلامات المائية الرقمية، وتحليل بنية المستندات عبر الإنترنت. لقد عمل خريجو المختبر الجدد على التعرف على خط اليد، والتحقق من التوقيع، والتعلم البصري، واسترجاع الصور.

⦁ التعرف على الوجه
نحن نعلم أن أنظمة التعرف على الوجوه أصبحت شائعة بشكل تدريجي كوسيلة لاستخراج المعلومات البيومترية. يلعب التعرف على الوجه دورًا حاسمًا في أنظمة القياسات الحيوية وهو جذاب للعديد من التطبيقات بما في ذلك المراقبة البصرية والأمن. نظرًا لقبول الجمهور العام لصور الوجه في المستندات المختلفة، فإن التعرف على الوجوه لديه إمكانات كبيرة ليصبح الجيل التالي من تكنولوجيا القياسات الحيوية المفضلة.

أنظمة التعرف على الصور

⦁ تحليل الحركة
تتعلق العديد من المهام بتقدير الحركة حيث تتم معالجة تسلسل الصور لإنتاج تقدير للسرعة إما عند كل نقطة في الصورة أو في المشهد ثلاثي الأبعاد، أو حتى الكاميرا التي تنتج الصور. ومن أمثلة هذه المهام:

⦁  حركة الأنا
تحديد الحركة الصلبة ثلاثية الأبعاد (الدوران والترجمة) للكاميرا من تسلسل الصور الذي تنتجه الكاميرا.

⦁ التتبع
التتبع هو متابعة تحركات مجموعة أصغر (عادةً) من نقاط الاهتمام أو الكائنات (على سبيل المثال، المركبات أو البشر) في تسلسل الصور.

⦁ التدفق البصري
وذلك لتحديد كيفية تحرك تلك النقطة بالنسبة لمستوى الصورة، أي حركتها الظاهرية، بالنسبة لكل نقطة في الصورة. هذه الحركة هي نتيجة لكيفية تحرك النقطة ثلاثية الأبعاد المقابلة في المشهد وكيفية تحرك الكاميرا بالنسبة للمشهد.

⦁ إعادة بناء المشهد
بالنظر إلى صورة واحدة أو (عادة) أكثر لمشهد ما، أو مقطع فيديو، تهدف إعادة بناء المشهد إلى حساب نموذج ثلاثي الأبعاد للمشهد. في أبسط الحالات يمكن أن يكون النموذج عبارة عن مجموعة من النقاط ثلاثية الأبعاد. تنتج الطرق الأكثر تطورًا نموذجًا سطحيًا ثلاثي الأبعاد كاملاً

⦁ استعادة الصورة
الهدف من استعادة الصورة هو إزالة الضوضاء (ضوضاء المستشعر، ضبابية الحركة، وما إلى ذلك) من الصور. إن أبسط طريقة ممكنة لإزالة الضوضاء هي أنواع مختلفة من المرشحات مثل مرشحات التردد المنخفض أو المرشحات المتوسطة. تفترض الأساليب الأكثر تطورًا نموذجًا لكيفية ظهور هياكل الصورة المحلية، وهو نموذج يميزها عن الضوضاء. من خلال تحليل بيانات الصورة أولاً من حيث بنيات الصورة المحلية، مثل الخطوط أو الحواف، ثم التحكم في التصفية بناءً على المعلومات المحلية من خطوة التحليل، يتم عادةً الحصول على مستوى أفضل من إزالة الضوضاء مقارنة بالطرق الأبسط. مثال في هذا المجال هو لوحاتهم. بعض الأنظمة عبارة عن تطبيقات قائمة بذاتها تحل مشكلة قياس أو اكتشاف محددة، بينما يشكل البعض الآخر نظامًا فرعيًا لتصميم أكبر والذي، على سبيل المثال، يحتوي أيضًا على أنظمة فرعية للتحكم في المحركات الميكانيكية والتخطيط وقواعد بيانات المعلومات وإدارة العمليات. واجهات الآلة، وما إلى ذلك. ويعتمد التنفيذ المحدد لنظام رؤية الكمبيوتر أيضًا على ما إذا كانت وظائفه محددة مسبقًا أو إذا كان من الممكن تعلم جزء منها أو تعديله أثناء التشغيل. ومع ذلك، هناك وظائف نموذجية توجد في العديد من أنظمة الرؤية الحاسوبية.

 

التعلم الأعمق مع التعرف على الصور

كان التعرف على الصور موجودًا قبل الذكاء الاصطناعي. ومع ذلك، فإن عامل التعلم الآلي يُحدث ثورة في طرق التعرف على كائن أو وجه شخص. ومع ذلك، فإن التعلم الآلي لا يكون فعالاً إلا عندما تكون هناك بيانات لتغذيته. بالنسبة لجميع عمليات التشغيل الآلي للذكاء الاصطناعي، فإن تكليفه بتحديد الصور ليس طلبًا بسيطًا. إن فهمنا للمرئيات هو طبيعة ثانية؛ إنه شيء تمت برمجتنا للقيام به منذ الصغر. إن طلب نفس الشيء من الآلة ليس عملية مباشرة. لهذا السبب، فإن أحد الأشكال الأكثر شيوعًا للتعرف على الذكاء الاصطناعي هي الشبكات العصبية التلافيفية (CNN). CNN هي طريقة تركز على وحدات البكسل الموجودة بجانب بعضها البعض. من المرجح أن تكون الصور ذات المواقع القريبة ذات صلة، مما يعني أن الكائن أو الوجه يتطابق مع صورة ذات شفافية أكبر.
في حين أن العلامات التجارية التي تتطلع إلى تحقيق الدخل من وسائل التواصل الاجتماعي من خلال التعرف على الصور باستخدام الذكاء الاصطناعي تحمل فوائد واضحة، فإن حالات استخدامها أعمق بكثير. السيارات ذاتية القيادة على وشك أن تصبح الشيء الكبير التالي في عالم السيارات، وتساعد تقنية التعرف على الصور المدعومة بالذكاء الاصطناعي في تشغيلها. إن السيارة ذاتية القيادة التي يمكنها اكتشاف الأشياء والأشخاص على الطريق حتى لا تصطدم بهم لا تحدث تلقائيًا. يحتاج إلى التعرف على الصور لاتخاذ قرارات مستنيرة. تم تجهيز كل سيارة ذاتية القيادة بالعديد من أجهزة الاستشعار حتى تتمكن من التعرف على المركبات المتحركة الأخرى وراكبي الدراجات والأشخاص - أي شيء يمكن أن يشكل خطراً. تحتاج السيارة الآلية إلى التعامل مع مخاطر الطريق بنفس الطريقة التي يتعامل بها السائق المتمرس. لا تزال هناك بعض الجوانب التي يجب حلها قبل أن تصل السيارات ذاتية القيادة إلى الطريق في عام 2020. ولكن عندما تبدأ أتمتة المركبات، سيكون التعرف على الصور باستخدام الذكاء الاصطناعي أحد المحركات الرئيسية وراء عملها بأمان.
⦁ الحصول على الصور
يتم إنتاج الصورة الرقمية بواسطة واحد أو أكثر من أجهزة استشعار الصور، والتي تشمل، إلى جانب الأنواع المختلفة من الكاميرات الحساسة للضوء، أجهزة استشعار المدى، وأجهزة التصوير المقطعي، والرادار، والكاميرات فوق الصوتية، وما إلى ذلك. اعتمادًا على نوع المستشعر، يتم تجميع بيانات الصورة الناتجة هي صورة عادية ثنائية الأبعاد، أو حجم ثلاثي الأبعاد، أو تسلسل صور. تتوافق قيم البكسل عادةً مع شدة الضوء في واحد أو أكثر من النطاقات الطيفية (الصور الرمادية أو الصور الملونة)، ولكن يمكن أيضًا أن تكون مرتبطة بمقاييس فيزيائية مختلفة، مثل عمق أو امتصاص أو انعكاس الموجات الصوتية أو الكهرومغناطيسية، أو الرنين المغناطيسي النووي.
⦁ المعالجة المسبقة:
قبل أن يتم تطبيق طريقة الرؤية الحاسوبية على بيانات الصورة من أجل استخراج بعض المعلومات المحددة، يكون من الضروري عادةً معالجة البيانات للتأكد من أنها تلبي بعض الافتراضات التي تتضمنها الطريقة. الأمثلة هي
1. إعادة أخذ العينات للتأكد من صحة النظام الإحداثي للصورة.
2. تقليل الضوضاء للتأكد من أن ضوضاء المستشعر لا تقدم معلومات خاطئة.
3. تحسين التباين لضمان إمكانية اكتشاف المعلومات ذات الصلة.
4. تمثيل مساحة النطاق لتعزيز هياكل الصور بالمقاييس المناسبة محليًا.
⦁ استخراج الميزة:
يتم استخراج ميزات الصورة بمستويات مختلفة من التعقيد من بيانات الصورة. ومن الأمثلة النموذجية لهذه الميزات الخطوط والحواف والتلال
نقاط الاهتمام المحلية مثل الزوايا أو النقط أو النقاط. قد تكون الميزات الأكثر تعقيدًا مرتبطة بالملمس أو الشكل أو الحركة.
⦁ الكشف/التجزئة:
في مرحلة ما من المعالجة، يتم اتخاذ قرار بشأن نقاط الصورة أو مناطق الصورة ذات الصلة لمزيد من المعالجة. الأمثلة هي
1. اختيار مجموعة محددة من نقاط الاهتمام
2. تجزئة منطقة واحدة أو عدة مناطق من الصورة تحتوي على كائن محدد محل الاهتمام.
⦁ معالجة عالية المستوى:
في هذه الخطوة، يكون الإدخال عادةً عبارة عن مجموعة صغيرة من البيانات، على سبيل المثال مجموعة من النقاط أو منطقة صورة يفترض أنها تحتوي على كائن معين. وتتعامل المعالجة المتبقية مع، على سبيل المثال:
1. التحقق من أن البيانات تلبي الافتراضات القائمة على النموذج والافتراضات الخاصة بالتطبيق.
2. تقدير المعلمات الخاصة بالتطبيق، مثل وضعية الكائن أو حجمه.
3. تصنيف الكائن المكتشف إلى فئات مختلفة. لذلك، تساعد معالجة الصور الذكاء الاصطناعي على التعرف على الصورة والاستجابة وفقًا لتحديد الصورة.

مستقبل سلس للصور

مع تحسن التكنولوجيا، سيعود التعرف على الصور بنتائج أكبر. ويقول فلاديمير بافلوف، رئيس قسم التعلم الآلي في شركة لوبستر: “إن الأساس الرياضي للتعرف على الأشياء موجود منذ فترة طويلة، ولكن الإمكانيات التكنولوجية لاستخدام خوارزميات الرؤية الحاسوبية ظهرت مؤخرًا. بالفعل، تسمح الشبكات العصبية بصنع أجهزة كشف مثالية قادرة على العمل بشكل أفضل من البشر. هناك رعشة كبيرة تعيق وجود مجموعات بيانات الصور المميزة للتدريب، ولكن في المستقبل القريب، لن تكون هذه مشكلة. يعمل مهندسو الرؤية الحاسوبية بنشاط على خوارزميات التعلم الذاتي. ومع تأثر المستقبل بشدة بالاتصالات المرئية، سيكون التعرف على الصور هو العامل الرئيسي وراء العديد من الصور التي نراها. سواء في الحياة الحقيقية أو عبر الإنترنت.