מדריך לבחירת מעבדי NVIDIA GPU
מבוא
חלפו הימים בהם מנהלי מתקנים ואנשי אבטחה נדרשו להיות בחדר הבקרה צמודים למסכי וידאו כדי לדעת מה קורה עם התשתיות שלהם.
פיתוח מצלמות וידאו זולות וטובות יותר, פלטפורמות מחשוב חזקות יותר למדעי הנתונים והצורך בצמצום התקורה התפעולית - כל אלו גרמו לפריסת מערכות ניהול וידאו (VMS) ואפליקציות ניתוח ראייה ממוחשבת, לשגשג בעשור האחרון בכל מגזרי הכלכלה. יישומי ראייה ממוחשבת מודרניים יכולים לזהות מגוון אירועים רחב ללא פיקוח אנושי מתמיד, כולל צפיפות יתר, גישה לא מורשית, זיהוי עשן, עבירות תפעוליות של כלי רכב ועוד. חיבור טוב יותר בין הארגון למצב הסביבה מסייע לארגונים בהשגת תוצאות טובות יותר עבור כל המעורבים.
מצב situational awareness מביא לתוצאות טובות יותר
- שיפור ביעילות התפעולית – מינוף כל הנתונים שאתם אוספים על מנת לספק שירותים איכותיים ולשפר הקצאת משאבים.
- אופטימיזציה לבטיחות ואבטחה – אפשרו סביבה בטוחה יותר, עם מודעות בזמן אמת.
- חוויה משופרת – הציעו חוויה חיובית, מותאמת אישית ומרתקת יותר ללקוחות ולעובדים כאחד.
- קיימות משופרת – מדדו והפחיתו את ההשפעה הסביבתית שלכם.
- הזדמנויות הכנסה חדשות – פתחו אפשרויות מוניטיזציה מהנתונים שלכם עם תובנות שימושיות יותר.
האתגר הטכני
ניתוחי ראייה ממוחשבת דורשים טכניקות ואלגוריתמים שונים, כולל זיהוי אובייקטים, סיווג, חילוץ מאפיינים ועוד. משאבי החישוב הנדרשים למשימות תלויים ברזולוצית המקור, קצבי הפריימים (frame rates), מורכבות הסצנה וסוגי האנליטיקה המעובדים. הדיאגרמה מטה מציגה סט צעדים פשוט (צינור עיבוד - pipeline) המיושם לעתים קרובות באפליקציות ראייה ממוחשבת.
Logical processing pipeline לראיה ממוחשבת
הסקה (Inference) היא השלב המוכר לרוב האנשים. אלגוריתם מאומן יכול להבחין בין רכב נוסעים לרכב מסחרי , בדומה לדוגמה הקלאסית של כלבים מול חתולים המשמשת לעתים קרובות להסבר על ראייה ממוחשבת. בעוד שהשלבים האחרים פחות מוכרים למשתמש הטיפוסי ביישומי ראייה ממוחשבת, הם קריטיים להשגת תוצאות טובות ומחייבים שימוש במעבדים גרפיים ייעודיים (GPUs). למשל, שלבי הקידוד/פענוח (Decode/Encode) מכוונים למינוף חומרה הנמצאת על ה-GPU ואספקת ביצועים אופטימליים.
בהתחשב בהיצע המעבדים הגרפיים הנרחב מבית NVIDIA הזמין כיום, ארגונים שמתחילים להשתמש ביישומי ראייה ממוחשבת זקוקים לעתים קרובות לעזרה בהבנת האפשרויות שלהם. בדקנו את ביצועי היישומים האנליטיים לראייה ממוחשבת עם דגמי מעבדים גרפיים שונים של NVIDIA ואספנו את התוצאות. בהמשך תוכלו למצוא רקע על תוצאות הבדיקה והבחירה שלנו במודל הספציפי.
בחירת GPU
שוק המעבדים הגרפיים (GPUs) מחולק באופן כללי לפתרונות עבור מרכזי נתונים (Data Centers), מחשבים שולחניים, ומוצרים ניידים. עומס העבודה על מעבד גרפי בעת אימון מודלים גדולים של סיווג וזיהוי תמונות מתבצע כמעט בלעדית על מעבדים גרפיים המיועדים למרכזי נתונים. ברגע שהמודלים הללו מאומנים ונמסרים כחלק מיישום ראייה ממוחשבת, אפשרויות רבות יכולות להיות זמינות בזמן הריצה, הן מבחינת מעבד מרכזי (CPU) והן מבחינת מעבד גרפי. מתקנים קטנים, כמו במקרה של קמעונאים עם מספר מצלמות בלבד, יכולים לפרוס רק מחשב שולחני עם GPU בעל הספק נמוך עבור אנליטיקת וידאו כמעט בזמן אמת. לעומת זאת, ארגונים גדולים עם מאות עד אלפי מצלמות זקוקים לעוצמת עיבוד גרפית המיועדת למרכזי נתונים.
עם זאת, לא כל המעבדים הגרפיים למרכזי נתונים נוצרו שווים. הטבלה שלפניכם משווה בין מאפיינים נבחרים במדגם מייצג של מעבדים גרפיים מבית NVIDIA המיועדים למרכזי נתונים. מדד חישובי נקודת ההצפה FP32 לשנייה מציין את הביצועים היחסיים שמפתח יכול לצפות להם, בין אם בשלב אימון המודל או בשלב ההסקה (inference) בעיבוד האופייני המשמש ביישום ראייה ממוחשבת, כפי שציינו קודם.
יכולת ה-GPU לבצע אלמנטים אחרים בעיבוד הנדרש למשימות ראייה ממוחשבת בביצועים גבוהים, כולל קידוד ופענוח, משתקפת בצורה הטובה ביותר בפרטי ה-Media Engines.
ראשית, שימו לב ל-Media Engines בעמודת ה- A30 GPU. ישנו מפענח JPEG אחד ו-4 מפענחי וידאו, אך אין מקודדי וידאו. תצורה זו הופכת את ה-A30 ללא תואם לצרכי מוצרים רבים של ספקי יישומי ראייה ממוחשבת מובילים בשוק, על אף היותו GPU ייעודי למרכזי נתונים.
מאפייני מעבד גרפי עם ארכיטקטורת NVIDIA Ampere
השוואת ה-FP32 TFLOPS בין ה-A30 וה-A40 מראה שה-A40 הוא מעבד גרפי (GPU) המסוגל יותר לאימון ומשימות הסקה (Inference) טהורות. במהלך הבדיקות שלנו, יישומי ראייה ממוחשבת מיצו במהירות את מנועי המדיה (Media Engines) הזמינים על ה-A40. בחירת GPU עבור ראייה ממוחשבת מצריכה התאמת המשאבים הזמינים הדרושים לראייה ממוחשבת, כולל מנועי מדיה, זיכרון זמין ויכולות מחשוב אחרות המשתנות במקרי שימוש שונים.
בהמשך, בחינת תיאור מנועי המדיה לעמודת ה-A2 GPU מאשרת שהמוצר מכיל מקודד וידאו אחד ושני מפענחי וידאו. כרטיס זה יענה על צרכי רוב יישומי הראייה הממוחשבת ונתמך לשימוש במרכזי נתונים; עם זאת, המספר הנמוך של מקודדים ומפענחים, זיכרון ויכולות עיבוד של נקודת ההצפה יגבילו את מספר הזרמים המקבילים הניתנים לעיבוד. צריכת האנרגיה הנמוכה של ה-A2 מרחיבה את הגמישות בבחירת פריסת השרת, מה שחשוב לתסריטי "קצה" ו"קצה-קרוב" (edge ,near-edge).
עדיין במיקוד על הטבלה מעלה, השוו את כל מאפייני עמודת A2 GPU לעמודת A16 GPU. שימו לב שיש פי ארבע מהמשאבים ב-A16 לעומת ה-A2. ניתן להסביר זאת באמצעות התרשים מטה. ה-A16 נבנה על הצבת ארבעה "מנועי" A2 על כרטיס PCI יחיד. כל אחת מהתיבות המסומנות GPU0-GPU3 מכילה את כל הזיכרון, מנועי המדיה ויכולות העיבוד האחרות שהיו זמינות לשרת שהותקן בו כרטיס A2 GPU סטנדרטי. שימו לב גם שה-A16 דורש בערך פי 4 מההספק של A2.
הטבלה הבאה מציגה את אותה השוואת מדדים מהדיון למעלה, הפעם עבור מוצרי NVIDIA החדשים ביותר מבוססי ארכיטקטורת Ada Lovelace. מעבד ה-L4 מציע 2 מקודדים ו- 4 מפענחים לכרטיס הצורך רק 72 וואט. בהשוואה לקונפיגורצית מקודד אחד ו-2 מפענחים ב-A2 עם צריכה של 40 עד 60 וואט, ה-L4 מסוגל לעבד זרמי וידאו רבים יותר בפחות עלות הספק לעומת שני כרטיסי A2. ה-L40 עם 3 מקודדים ו-3 מפענחים צפוי להיות סוס העבודה החדש של יישומי ראייה ממוחשבת עבור ארגונים עם מאות עד אלפי זרמי וידאו. בעוד של-L40S יש את אותו מספר מנועי מדיה וזיכרון כמו ה-L40, הוא תוכנן להוות כשדרוג/תחליף ל-A100 - המעבד המוביל של ארכיטקטורת Ampere לאימון ו/או הסקה.
מסקנות לסיכום
בסך הכל, בחנו שבעה כרטיסי מעבד שונים של NVIDIA השימושיים לעומסי עבודה של ראייה ממוחשבת (CV). ממשפחת הכרטיסים Ampere, מצאנו כי ה-A16 סיפק ביצועים טובים במגוון רחב של עומסי עבודה הקשורים להסקה בראייה ממוחשבת. ה-A16 מספק איזון טוב של פענוח/קידוד וידאו, ליבות CUDA וזיכרון לעומסי עבודה ראייה ממוחשבת.
לגבי משפחת הכרטיסים החדשה יותר, Ada Lovelace, ה-L40 נראה כמו כרטיס מאוזן היטב עם פוטנציאל תפוקה מצוין. אנחנו כרגע בוחנים את הכרטיס הזה במעבדה שלנו ונספק עדכון עתידי על הביצועים שלו בעומסי עבודה ראייה ממוחשבת.
מקורות מידע נוספים:
- A2 - https://www.nvidia.com/content/dam/en-zz/solutions/data-center/a2/pdf/a2-datasheet.pdf
- A16 - https://images.nvidia.com/content/Solutions/data-center/vgpu-a16-datasheet.pdf
- A30 - https://www.nvidia.com/en-us/data-center/products/a30-gpu/
- A40 - https://images.nvidia.com/content/Solutions/data-center/a40/nvidia-a40-datasheet.pdf
- L4 - https://www.nvidia.com/en-us/data-center/l4/
- L40 - https://www.nvidia.com/en-us/data-center/l40/
- L40S - https://www.nvidia.com/en-us/data-center/l40s/