מידעהצהרת נגישות
תצוגת צבעים באתר(* פועל בדפדפנים מתקדמים מסוג Chrome ו- Firefox)תצוגה רגילהמותאם לעיוורי צבעיםמותאם לכבדי ראייה
סגירה
sponsored by 

האם אפשר לעשות את ה-AI הזה ב-Dell PowerFlex?

27/03/2024

 

האם אפשר לעשות את ה-AI הזה ב-Dell PowerFlex?

התשובה הפשוטה היא כן, אתם יכולים לעשות את הדבר הזה שנקרא בינה מלאכותית עם Dell PowerFlex. למי שאולי היה עסוק בדברים אחרים, AI מייצג בינה מלאכותית ומבוסס מודלים מאומנים המאפשרים למחשב "לחשוב" בדרכים שמכונות לא היו מסוגלות לעשות בעבר. המודלים האלה (neural networks) הם בעצם קבוצה ארוכה של הצהרות IF (שכבות) מוערמות אחת על השנייה, ולכל IF יש 'משקל'. ברגע שמשהו עבד דרך רשת עצבית, המשקולות מספקות הסתברות לגבי האובייקט. אז מערכת הבינה המלאכותית יכולה להיות בטוחה ב-95% שהיא מסתכלת על קערת מרק או אירוע ספורט גדול. זה, לפחות, התיאור הפשטני של איך AI עובד. המונח נושא הרבה מטען כפי שהוא קיים כבר יותר מ-70 שנה, וההגדרה השתנתה מעת לעת. (קראו כאן על ההיסטוריה של בינה מלאכותית.)

לאחרונה, AI התפרסם על ידי מודלי שפות (LLMs) עבור יישומי AI כמו ChatGPT. למרות שהיישומים עוררו את החשש שבינה מלאכותית תשתלט על העולם ותחריב את האנושות, זה לא קרה. מחשבים עדיין יכולים לעשות רק את מה שאנחנו בני האדם אומרים להם לעשות, אפילו לימודי תואר שני, וזה אומר שאם משהו משתבש, אנחנו, היוצרים שלהם אשמים בסופו של דבר.

המציאות היא שרוב הארגונים לא בונים LLMs להרס עולמי, הם בונים מערכות שיבטיחו שלכל פיצה המיוצרת במפעל שלהם יש בדיוק 12 פרוסות גבינה המפוזרות באופן שווה על גבי הפיצה. או אולי הם מסתכלים על מניעת אובדן, או אפילו על תזמון טוב יותר של רמזורים, או שהם פשוט רוצים מענה טלפוני לתמיכה טכנית טובה יותר. כל אלו הם שימושי AI וכל אחד מהם בנוי בצורה שונה (משתמשים בסוגים שונים של רשתות עצביות).

לא נעמיק במקרי השימוש במאמר הזה כי אנחנו צריכים להתחיל עם התשתית הבסיסית שהופכת את כל הרעיונות האלה ל"אפשרויות AI". נתחיל עם התשתית ומה שרבים רואים כעת כמסווג תמונות בסיסי (בסטנדרטים של היום) המכונה ResNet-50 v1.5. 

זה גם מה שצוות הנדסת פתרונות PowerFlex עשה ב-validated design שפרסמנו לאחרונה. עיצוב המפרט את השימוש ב-ResNet-50 v1.5 בסביבת VMware vSphere וב-NVIDIA AI Enterprise כחלק מסביבת PowerFlex. הם התחילו עם הבסיס של איך NVIDIA GPU וירטואלי עובד היטב בסביבת PowerFlex. זה מה שנחקור במאמר - תחילת עבודה עם עומסי עבודה AI, ולא איך בונים את מחשב העל הבא ב-AI (אם כי אתם יכולים לעשות גם את זה עם PowerFlex).

בעיצוב המאומת, משתמשים ב-NVIDIA A100 (PCIe) GPU ב-VMware vSphere כ-GPU וירטואלי או vGPU. עם התשתית במקום, נבנו מחשבי Linux VM שיכילו את עומסי העבודה של ResNet-50 v1.5 ו-vGPUs. מעבר לעבודה עם מעבדי vGPU מסורתיים שרבים אולי מכירים, הם עבדו גם עם טכנולוגיית Multi-Instance GPU MIG של NVIDIA.

טכנולוגיית ה-MIG של NVIDIA מאפשרת למנהלי מערכת לחלק GPU לשבעה מופעי GPU לכל היותר. יכולת המספקת שליטה רבה יותר במשאבי GPU, ומבטיחה שעומסי עבודה גדולים וקטנים יקבלו את הכמות המתאימה של משאבי GPU שהם צריכים.

PowerFlex תומך במגוון גדול של NVIDIA GPUs עבור עומסי עבודה, מ-VDI (מחשבים וירטואליים) ועד לעומסי עבודה וירטואליים ברמה גבוהה כמו AI. אתם יכולים לראות בתרשים הבא פתרונות לסביבות "מוגבלות באילוצי שטח" ו"קצה", עד למעבדי GPU המשמשים למודלים גדולים של הסקת מסקנות. בטבלה מתחת לתרשים, תוכלו לראות אילו GPUs נתמכים בכל סוג צומת PowerFlex. פתרון המספק גמישות עצומה בהסתמכות על עומסי העבודה שלכם.

ה-validated design מתאר את שלבי הגדרת הארכיטקטורה ומספק קישורים מפורטים לתיעוד NVIDIA ו-VMware לקביעת תצורת ה-vGPUs, ותהליך הרישוי עבור NVIDIA AI Enterprise.

אלו הם שלבי מפתח בבניית סביבת AI. אנחנו יודעים מניסיון העבודה עם ארגונים שונים, שרבים לא רגילים לעבוד עם vGPUs בלינוקס. זה משתנה לאט בתעשייה. אם לא השקעתם זמן רב בעבודה עם vGPUs בלינוקס, הקפידו לשים לב לפירוט במדריך. זה חשוב ויכול לעשות הבדל גדול בביצועים שלכם.

התרשים הבא מציג ארכיטקטורה לוגית ל-validated design. בחלק העליון תוכלו לראות ארבעה מכשירי אובונטו 22.04 Linux VMs עם מנהל ההתקן של NVIDIA vGPU טעון. פועלים על מארחי PowerFlex עם VMware ESXi פרוסים. כל VM מכיל GPU אחד של NVIDIA A100 המוגדר לפעולות MIG. תצורה הממנפת ארכיטקטורה דו-שכבתית בה האחסון מסופק באמצעות צמתי אחסון נפרדים בהגדרת תוכנת PowerFlex SDS.

מאפשר מדרגיות עצמאית לעומסי העבודה שלכם. בשלב הכשרת מודל, ייתכן שיידרש אחסון משמעותי לנתוני ההדרכה, אבל ברגע שהמודל אומת וייכנס לייצור, דרישות האחסון עשויות להיות שונות באופן דרסטי. עם PowerFlex יש לכם את הגמישות לספק קיבולת אחסון וביצועים בהתאם לצרכים שלכם ולדרישות שלכם בכל שלב.

מה שמביא אותנו לבדיקת הסביבה. צוות ההנדסה אימת באמצעות ResNet-50 v1.5 וערכת הנתונים ImageNet 1K. לצורך האימות אפשרו מספר תכונות ResNet-50 v1.5 TensorFlow. כולל אימון Multi-GPU עם Horovod, NVIDIA DALI ו-Automatic Mixed Precision AMP. המסייעים לאפשר יכולות שונות בדגם ResNet-50 v1.5. בהמשך, נתאר כיצד להגדיר את ResNet-50 v1.5, את התכונות שהוזכרו, ופרטים על הורדת נתוני ImageNet.

 

בשלב זה הצליחו לאמן פריסת ResNet-50 v1.5. האיטרציה הראשונה של האימון השתמשה בפרופיל NVIDIA A100-7-40C vGPU. לאחר מכן חזרו על הבדיקות עם פרופיל A100-4-20C vGPU ופרופיל A100-3-20C vGPU. אולי אתם תוהים לגבי פרופיל A100-2-10C vGPU ופרופיל A100-1-5C. למרות שפרופילי vGPU אלה זמינים, הם מתאימים יותר להסקת מסקנות, ולכן לא נבדקו.

תוצאות אימות עומסי האימון עבור כל פרופיל vGPU מוצגות בגרף הבא. ה-vGPUs פעלו קרוב ל-98% קיבולת לפי nvitop במהלך כל בדיקה. ניצול המעבד היה 14% ולא היה צוואר בקבוק עם האחסון במהלך הבדיקות.

עם הכשרת המודלים, המדריך בוחן את איכות פעילות ההסקה על פרופילי MIG. הגרף הבא מציג מסקנות images per second של פרופילי MIG שונים עם ResNet-50 v1.5.

ראוי לציין ששתי העמודות האחרונות מציגות הסקה הפועלת על פני מספר VMs, על אותו מארח ESXi, הממנפים פרופילי MIG. מראה כי משאבי GPU נחלקים עם MIG ושניתן לשלוט במשאבים במדויק, מה שמאפשר למספר סוגי משימות לפעול על אותו GPU מבלי להשפיע על עבודות אחרות.

פותח הזדמנות לארגונים להתאים את צריכת משאבי vGPU בסביבות וירטואליות. נאמר בדרך אחרת, זה מאפשר ל-IT לספק "show back" לשימוש בתשתית הארגונית. אם מחלקה צריכה רק פרופיל vGPU מסיק, זה בדיוק מה שהם יקבלו, לא יותר ולא פחות.

ראוי לציין כי תוצאות ניצול ה-vGPU היו 88% וניצול המעבד היה 11% במהלך בדיקת ההסקה.

האימותים מראים שסביבת Dell PowerFlex יכולה לתמוך במרכיבי AI מודרניים בסיסיים. בנוסף מראים את ערך טכנולוגיית MIG של NVIDIA לארגונים בכל סדר גודל: מאפשר להשיג יעילות תפעולית במרכז הנתונים וגישה ל-AI.

מה ששוב עונה על שאלת כותרת המאמר, האם אתם יכולים ליישם את ה-AI הזה עם ה-Dell PowerFlex?... כן, אתם יכולים! 

למידע נוסף פנו אל המומחים שלנו