מדריך לזיהוי תמונות בינה מלאכותית

למה זיהוי תמונה חשוב?

כ-80 אחוז מהתוכן באינטרנט הוא ויזואלי. אתה כבר יכול להתחיל להבין מדוע תיוג תמונות עשוי להחזיק את מקומו כמלך טבלת התוכן. בין אם מדובר ביחידים ובין אם מדובר בחברות, זיהוי תמונות בינה מלאכותית איפשר לזהות חזותיים באינטרנט במינימום מהומה. שם כ-657 מיליארד תמונות מתפרסמות מדי שנה באופן דיגיטלי, כאשר רובן מופיעות במדיה החברתית. חלק ניכר מהתמונות הללו הם אנשים המקדמים מוצרים, גם אם הם עושים זאת מבלי משים. תוכן שנוצר על ידי משתמשים (UGC) בצורתו הטהורה ביותר הוא גורם מצוין למותגים מכיוון שהוא מספק את סוג הקידום הטוב ביותר.
ישנם כלים שיווקיים להתריע לחברות כאשר יש אזכור צרכני ברשתות החברתיות, אבל מה קורה כאשר קידום מותגים מתרחש מבלי שאף אחד מתייג את שמם בפוסט החברתי? זה המקום שבו זיהוי תמונות AI מוכיח את ערכו. אם הטכנולוגיה מקבלת את מערכי הנתונים הנכונים, בינה מלאכותית יכולה לזהות תמונה ללא אזכור ספציפי של תגים. התוצאות חשובות לאין ערוך עבור מותגים לעקוב אחר האזכורים החברתיים שלהם.

איך עובד זיהוי תמונה?

כפי שאנו יודעים AI יכול לחפש בפלטפורמות מדיה חברתית בחיפוש אחר תמונות ולהשוות אותן למערכות נתונים נרחבות. לאחר מכן הוא מחליט על תמונה רלוונטית שתואמת בקצב הרבה יותר מהיר ממה שבני אדם מסוגלים. מותגים משתמשים בזיהוי תמונה כדי למצוא תוכן דומה לשלהם במדיה החברתית. המשמעות היא זיהוי הלוגו של המותג או זיהוי מיקום מוצר אורגנית בקרב משתמשי מדיה חברתית. לבקש מבני אדם לסלול דרך כל כך הרבה מידע הופך בקלות לעייף. AI לא דואגת מהטעות האנושית, ומחזירה תוצאות מדויקות ברמות שאין שני להן. זיהוי תמונות בינה מלאכותית עוקב אחר מה שאנשים אומרים על מותג ללא צורך בטקסט. מותגים המסוגלים לעקוב אחר האזכורים החברתיים שלהם מבלי שמשתמשים יצטרכו להקליד את שם החברה ימצאו את עצמם בעמדה מועילה. הפוטנציאל לנצל את הכיסוי המקוון שלהם אך ורק באמצעות מזהים מוכרים בינה מלאכותית הוא עצום ומציע כיסוי שאין שני לו.

הנה כמה משימות טיפוסיות של זיהוי תמונות:

בתחילה עלינו לקבוע אם נתוני התמונה מכילים אובייקט, תכונה או פעילות ספציפיים או לא. משימה זו יכולה להיפתר בדרך כלל בצורה איתנה וללא מאמץ על ידי אדם, אך עדיין אינה נפתרת בצורה משביעת רצון בראיית מחשב עבור המקרה הכללי: אובייקטים שרירותיים במצבים שרירותיים. השיטות הקיימות להתמודדות עם בעיה זו ניתנות לפתרון הטוב ביותר רק עבור אובייקטים ספציפיים, כגון אובייקטים גיאומטריים פשוטים (למשל, פולי-הדרה), פנים אנושיות, תווים מודפסים או בכתב יד, או כלי רכב, ובמצבים ספציפיים, המתוארים בדרך כלל במונחים של תאורה, רקע ותנוחה מוגדרים היטב של האובייקט ביחס למצלמה. זנים שונים של בעיית הזיהוי מתוארים בספרות:

• זיהוי אובייקט

ניתן לזהות אובייקט אחד או כמה אובייקטים או מחלקות אובייקטים שצוינו מראש או שנלמדו, בדרך כלל יחד עם מיקומי הדו-ממד שלהם בתמונה או התנוחות התלת-ממדיות בסצנה.

• זיהוי
מופע בודד של אובייקט מזוהה. דוגמאות לכך הן זיהוי פנים או טביעת אצבע של אדם ספציפי, או זיהוי של רכב ספציפי.

• איתור
נתוני התמונה נסרקים עבור מצב מסוים. דוגמאות לכך הן זיהוי של תאים או רקמות חריגים אפשריים בתמונות רפואיות או זיהוי של רכב במערכת אגרה אוטומטית. זיהוי המבוסס על חישובים פשוטים ומהירים יחסית משמש לעתים למציאת אזורים קטנים יותר של נתוני תמונה מעניינים אשר ניתנים לניתוח נוסף על ידי טכניקות תובעניות יותר מבחינה חישובית כדי לייצר פרשנות נכונה.

קיימות מספר משימות מיוחדות המבוססות על הכרה, כגון:

• אחזור תמונות מבוסס תוכן
כאן מציאת כל התמונות בקבוצה גדולה יותר של תמונות שיש להן תוכן ספציפי. ניתן לציין את התוכן בדרכים שונות, למשל במונחים של דמיון ביחס לתמונת יעד (תנו לי את כל התמונות הדומות לתמונה X), או במונחים של קריטריוני חיפוש ברמה גבוהה שניתנו כקלט טקסט (תנו לי את כל התמונות המכילות בתים רבים, נלקחים במהלך החורף, ואין בהם מכוניות).

• הערכת תנוחה
עלינו להעריך את המיקום או הכיוון של אובייקט ספציפי ביחס למצלמה. יישום דוגמה לטכניקה זו יהיה סיוע לרובוט בשליפת חפצים מסוע במצב של פס ייצור.

• זיהוי תווים אופטי
OCR שהוא זיהוי תווים בתמונות של טקסט מודפס או כתוב ביד, בדרך כלל במטרה לקודד את הטקסט בפורמט יותר ולאפשר עריכה או אינדקס של המחלקה למדעי המחשב והנדסת המחשב, אוניברסיטת מישיגן סטייט. "פקולטת המעבדה לזיהוי תבניות ועיבוד תמונה (PRIP) וסטודנטים חוקרים את השימוש במכונות לזיהוי תבניות או אובייקטים. פותחו שיטות כדי לחוש אובייקטים, לגלות אילו מהתכונות שלהם מבדילות אותם מאחרים, ולתכנן אלגוריתמים שיכולים לשמש את המכונה כדי לבצע את הסיווג. יישומים חשובים כוללים זיהוי פנים, זיהוי טביעת אצבע, ניתוח תמונת מסמכים, בניית מודל אובייקט תלת-ממדי, ניווט רובוט, והדמיה/חקירה של נתונים נפחיים תלת-ממדיים. בעיות מחקר נוכחיות כוללות אימות ביומטרי, מעקב ומעקב אוטומטיים, HCI ללא ידיות, דוגמנות פנים, סימון מים דיגיטלי וניתוח מבנה של מסמכים מקוונים. בוגרי המעבדה האחרונים עבדו על זיהוי כתב יד, אימות חתימה, למידה ויזואלית ואחזור תמונות".

⦁ זיהוי פנים
אנו יודעים שמערכות זיהוי פנים הופכות פופולריות בהדרגה כאמצעי לחילוץ מידע ביומטרי. לזיהוי פנים יש תפקיד קריטי במערכות ביומטריות והוא אטרקטיבי עבור יישומים רבים, כולל מעקב ויזואלי ואבטחה. בגלל ההסכמה הציבורית לתמונות פנים במסמכים שונים, לזיהוי פנים יש פוטנציאל גדול להפוך לטכנולוגיה הביומטרית של הדור הבא המועדפת.

מערכות זיהוי תמונות

⦁ ניתוח תנועה
מספר משימות נוגעות להערכת תנועה שבה רצף תמונה מעובד כדי לייצר אומדן של המהירות בכל נקודה בתמונה או בסצנה התלת-ממדית, או אפילו של המצלמה המפיקה את התמונות. דוגמאות למשימות כאלה הן:

⦁ תנועת אגו
קביעת התנועה הקשיחה התלת מימדית (סיבוב ותרגום) של המצלמה מתוך רצף תמונות שהופק על ידי המצלמה.

⦁ מעקב
מעקב הוא מעקב אחר תנועות של (בדרך כלל) קבוצה קטנה יותר של נקודות עניין או עצמים (למשל, כלי רכב או בני אדם) ברצף התמונות.

⦁ זרימה אופטית
זאת כדי לקבוע, עבור כל נקודה בתמונה, כיצד הנקודה הזו נעה ביחס למישור התמונה, כלומר התנועה הנראית שלה. תנועה זו היא תוצאה הן מהאופן שבו נקודת התלת-ממד המתאימה נעה בסצנה והן מהאופן שבו המצלמה נעה ביחס לסצינה.

⦁ שחזור סצינה
בהינתן תמונה אחת או (בדרך כלל) יותר של סצנה, או סרטון, שחזור סצנה מכוון למחשב מודל תלת מימד של הסצנה. במקרה הפשוט ביותר המודל יכול להיות קבוצה של נקודות תלת ממדיות. שיטות מתוחכמות יותר מייצרות מודל משטח 3D שלם

⦁ שחזור תמונה
מטרת שחזור התמונה היא הסרת רעש (רעש חיישן, טשטוש תנועה וכו') מהתמונות. הגישה הפשוטה ביותר להסרת רעשים היא סוגים שונים של מסננים כגון מסננים במעבר נמוך או מסננים חציוניים. שיטות מתוחכמות יותר מניחות מודל של איך נראים מבני התמונה המקומיים, מודל שמבדיל אותם מהרעש. על ידי ניתוח תחילה של נתוני התמונה במונחים של מבני התמונה המקומיים, כגון קווים או קצוות, ולאחר מכן שליטה על הסינון על סמך מידע מקומי משלב הניתוח, בדרך כלל מתקבלת רמה טובה יותר של הסרת רעשים בהשוואה לגישות הפשוטות יותר. דוגמה בתחום זה היא הציור שלהם. חלק מהמערכות הן יישומים עצמאיים הפותרים בעיית מדידה או זיהוי ספציפית, בעוד שאחרות מהוות תת-מערכת בעיצוב גדול יותר, המכילה, למשל, גם תת-מערכות לבקרת מפעילים מכניים, תכנון, מאגרי מידע, מערכות מידע. ממשקי מכונות וכו'. היישום הספציפי של מערכת ראייה ממוחשבת תלוי גם אם הפונקציונליות שלה מוגדרת מראש או אם ניתן ללמוד או לשנות חלק ממנה במהלך הפעולה. עם זאת, ישנן פונקציות אופייניות שנמצאות במערכות ראייה ממוחשבת רבות.

למידה עמוקה יותר עם זיהוי תמונה

זיהוי תמונה היה בסביבה לפני AI. אולם גורם למידת המכונה מחולל מהפכה בשיטות לזיהוי אובייקט או פנים של אדם. אולם למידת מכונה יעילה רק כאשר יש נתונים להזין אותה. עבור כל האוטומציה של AI, המשימה לזהות תמונות אינה בקשה פשוטה. ההבנה שלנו בוויזואליה היא טבע שני; זה משהו שאנחנו מתוכנתים לעשות מגיל צעיר. לבקש אותו דבר ממכונה זה לא תהליך פשוט. מסיבה זו, אחת הצורות הפופולריות יותר של זיהוי בינה מלאכותית היא רשתות עצביות קונבולוציוניות (CNN). CNN היא שיטה המתמקדת בפיקסלים הממוקמים זה ליד זה. יש סיכוי גבוה יותר שתמונות הממוקמות קרוב יהיו קשורות, מה שאומר שאובייקט או פנים מתאימים לתמונה עם שקיפות רבה יותר.
בעוד שלמותגים המעוניינים לייצר רווחים ממדיה חברתית למרות זיהוי תמונות בינה מלאכותית יש יתרונות ברורים, מקרי השימוש שלה עמוקים הרבה יותר. מכוניות בנהיגה עצמית עומדות להיות הדבר הגדול הבא בעולם הרכב, וטכנולוגיית זיהוי תמונות בינה מלאכותית עוזרת להניע אותן. מכונית לנהיגה עצמית שיכולה לזהות חפצים ואנשים על הכביש כדי שלא תתנגש בהם לא מתרחשת אוטומטית. הוא צריך לזהות את התמונות כדי לקבל החלטות מושכלות. כל מכונית בנהיגה עצמית מצוידת במספר חיישנים כך שהיא יכולה לזהות כלי רכב אחרים בתנועה, רוכבי אופניים, אנשים - בעצם כל דבר שעלול להוות סכנה. מכונית אוטומטית צריכה לעבד את מפגעי הדרך כמו שנהג ותיק. יש עדיין כמה היבטים שצריך לגהץ לפני שמכוניות בנהיגה עצמית יוצאות לכביש בשנת 2020. אבל כאשר אוטומציה של כלי רכב מתחילה, זיהוי תמונה בינה מלאכותית יהיה אחד המניעים העיקריים מאחוריהם בעבודה בטוחה.
⦁ רכישת תמונה
תמונה דיגיטלית מופקת על ידי חיישני תמונה אחד או כמה, אשר מלבד סוגים שונים של מצלמות רגישות לאור, כוללים חיישני טווח, מכשירי טומוגרפיה, מכ"ם, מצלמות אולטרה-קוליות וכו'. בהתאם לסוג החיישן, נתוני התמונה המתקבלים. הוא תמונה דו-ממדית רגילה, אמצעי אחסון תלת-ממדיים או רצף תמונות. ערכי הפיקסלים תואמים בדרך כלל לעוצמת האור ברצועה ספקטרלית אחת או כמה (תמונות אפורות או תמונות צבע), אך יכולים להיות קשורים גם למדדים פיזיקליים שונים, כגון עומק, בליעה או החזרה של גלים קוליים או אלקטרומגנטיים, או תהודה מגנטית גרעינית.
⦁ עיבוד מקדים:
לפני שניתן ליישם שיטת ראייה ממוחשבת על נתוני תמונה על מנת לחלץ פיסת מידע ספציפית, בדרך כלל יש צורך לעבד את הנתונים על מנת להבטיח שהם עומדים בהנחות מסוימות המשתמעות מהשיטה. דוגמאות הן
1. דגימה מחדש על מנת להבטיח שמערכת הקואורדינטות של התמונה נכונה.
2. הפחתת רעש על מנת להבטיח שרעש חיישן אינו מציג מידע שקרי.
3. שיפור ניגודיות כדי להבטיח שניתן לזהות מידע רלוונטי.
4. ייצוג קנה מידה-מרחב לשיפור מבני תמונה בקנה מידה מתאים מקומי.
⦁ חילוץ תכונה:
תכונות תמונה ברמות שונות של מורכבות מופקות מנתוני התמונה. דוגמאות אופייניות לתכונות כאלה הן קווים, קצוות ורכסים
נקודות עניין מקומיות כגון פינות, כתמים או נקודות. תכונות מורכבות יותר עשויות להיות קשורות למרקם, צורה או תנועה.
⦁ זיהוי/פילוח:
בשלב מסוים של העיבוד מתקבלת החלטה אילו נקודות תמונה או אזורים בתמונה רלוונטיים לעיבוד נוסף. דוגמאות הן
1. בחירת סט ספציפי של נקודות עניין
2. פילוח של אזורי תמונה אחד או מרובים המכילים אובייקט ספציפי של עניין.
⦁ עיבוד ברמה גבוהה:
בשלב זה הקלט הוא בדרך כלל קבוצה קטנה של נתונים, למשל קבוצת נקודות או אזור תמונה אשר מניחים שמכילים אובייקט ספציפי. העיבוד שנותר עוסק, למשל:
1. אימות שהנתונים עומדים בהנחות המבוססות על מודלים ויישום ספציפיים.
2. הערכה של פרמטרים ספציפיים ליישום, כגון תנוחת אובייקט או גודל אובייקט.
3. סיווג אובייקט שזוהה לקטגוריות שונות. לכן, עיבוד תמונה עוזר לבינה מלאכותית לזהות את התמונה ולהגיב בהתאם לזיהוי התמונה.

עתיד חלק של דימויים

ככל שהטכנולוגיה משתפרת, זיהוי תמונות יחזיר תוצאות טובות עוד יותר. ראש תחום למידת מכונה בלובסטר, ולדימיר פבלוב אומר, "הבסיס המתמטי לזיהוי עצמים קיים כבר זמן רב, אך לאחרונה הופיעו אפשרויות טכנולוגיות של שימוש באלגוריתמי ראייה ממוחשבת. כבר עכשיו, רשתות עצביות מאפשרות לייצר גלאים מושלמים שמסוגלים לעבוד טוב יותר מבני אדם. טמבל גדול מעכב את נוכחותם של מערכי נתונים מסומנים של תמונות לאימון, אבל בעתיד הקרוב, זו לא תהיה בעיה. מהנדסי ראייה ממוחשבת עובדים באופן פעיל על אלגוריתמים ללמידה עצמית". עם עתיד המושפע כל כך מתקשורת חזותית, זיהוי תמונה הולך להיות הגורם המרכזי מאחורי רבות מהתמונות שאנו רואים. גם בחיים האמיתיים וגם באינטרנט.