נגישות       נגישות
שינוי גודל טקסט:
א א א
שינוי צבעי האתר:
? מקשי קיצור:

לחיצה חוזרת ונשנית על המקש Tab תעביר אתכם בין הקישורים והאזורים השונים בעמוד.

הפעלת מקשי הקיצור תלויה בדפדפן שבו אתם משתמשים.

Internet Explorer, Chrome ובגרסאות ישנות של Firefox: לחצו על מקש Alt ועל מקש המספר או האות על-פי הרשימה. ב Firefox 3 ומעלה: לחצו על המקשים Alt + Shift + המספר או האות.

S - עבור לתוכן הדף
L - חיפוש
1- עמוד הבית
2 - פרוייקטים
3 - מדריכים
4 - אודות
5 - צרו קשר
6 - הצהרת נגישות
 

תכנות אתרים ומדריכים

בחירת התכונות (feature selection) עבור מודל למידת מכונה

22.10.2021 | מדריך למידת מכונה | יוסי בן הרוש

כשאתה עובד על מודלים של למידת מכונה אתה כל הזמן מחפש דרכים לסחוט מהמודל תוצאות טובות יותר בכל מיני דרכים. לדוגמה, על ידי מציאת מודל מוצלח יותר. הרבה פעמים הכנת הנתונים ללמידה משפיעה יותר מהמודל. בפרט בחירת התכונות שמהם המודל לומד. יש גישות רבות לבחירת התכונות feature selection ללמידת מכונה. במדריך זה נסביר כיצד לשפר תוצאות של מודלים מסוג XGBoost תוך הסתמכות על המדד feature importance שנותן ניקוד לתכונות לפי מידת התרומה שלהם לתוצאות, ושימוש רק באותם התכונות שקיבלו ניקוד גבוה. למה כדאי להשתמש בתכונות הרלוונטיות ביותר לביצועי המודל? כי נתונים רלוונטיים מפחיתים את הרעש ומגבירים את הסיגנל דבר המביא להפחתה בצריכת משאבי מחשוב ולעלייה בדיוק התוצאות. במדריך קודם על סיווג באמצעות מודל למידת מכונה XGBoost השתמשנו באותה דוגמה בה נעשה שימוש במדריך כדי לחזות מי מנוסעי הטיטאניק ישרוד את טביעת הספינה. במדריך זה אנסה לשפר את התוצאות באמצעות בחירת התכונות המשמשות ללמידת מכונה feature selection.

בחירת התכונות (feature selection) עבור מודל למידת מכונה

למידת מכונה בלתי מפוקחת באמצעות PCA

01.10.2021 | מדריך למידת מכונה | יוסי בן הרוש

ניתוח גורמים ראשיים (Principal Component Analysis, PCA) היא טכניקה בה אנו משתמשים כדי להפחית את הממדיות (= מספר הפיצ'רים) של מערכי נתונים גדולים תוך שמירה על רוב השונות. כאשר, נא לזכור, השונות היא מה שמעניין אותנו במערך הנתונים. הפחתת מימדיות מקריבה דיוק ומעניקה פשטות. התוצאה היא נתונים פחות מדויקים, אבל כאלה שאנחנו יכולים בקלות לצייר מהם תרשים או להשתמש בהם כדי לאמן את המודלים שלנו בזמן קצר יותר. חשוב להבין, שהטכניקה לא משתמשת בממדים הקיימים אלא מארגנת את המידע באופן שיוצר ממדים חדשים קומפקטיים שמצליחים להכיל את המידע במספר מצומצם של ממדים דחוסים. PCA הוא אחד האלגוריתמים הנפוצים ביותר עבור למידה לא מפוקחת במסגרתה המחשב מסווג את הנתונים לקבוצות בלי ידע מוקדם לגבי הקבוצות. למידה בלתי מפוקחת יכולה לספק תובנות מפתיעות על הנתונים. לדוגמה, מחקר רפואי שהתבסס על מספר גדול של מדדים מצא שהמדד שמצליח לחזות באופן הטוב ביותר את הסיכוי ללקות בהתקף לב הוא ירידה בעוצמה של לחיצת היד. במדריך נעשה PCA באמצעות ספריית sklearn

למידת מכונה בלתי מפוקחת באמצעות PCA