חשיבה בייסיאנית Bayesian: אינטואיציה והבנה בסיסית
נתחיל עם דוגמה פשוטה כדי לבנות אינטואיציה.
מניחים לפניך 2 שקיות אטומות המכילות גולות שחורות ולבנות:
- שקית 1: 3 גולות שחורות ו-2 לבנות (סה"כ 5 גולות).
- שקית 2: 2 גולות שחורות ו-2 לבנות (סה"כ 4 גולות).
אתה בוחר באקראי אחת מהשקיות (בסיכוי שווה), שולף ממנה גולה אחת, ורואה שהיא שחורה.
השאלה: מה ההסתברות שהגולה הגיעה משקית 1? ומה ההסתברות שהגיעה משקית 2?
אתה לא יודע מאיזו שקית שלפת, אבל אתה כן יודע שראית גולה שחורה. איך תעדכן את מידת האמונה שלך באיזו שקית מדובר?
חישוב הסתברויות באמצעות דיאגרמת עץ
תיכף נגיע לנוסחת בייס הרשמית, אבל ראשית נפתור את הבעיה באופן ויזואלי ואינטואיטיבי באמצעות דיאגרמת עץ.
לפני ששלפת את הגולה, היה סיכוי של 50% שבחרת בכל אחת מהשקיות. זוהי ההסתברות המקדימה (Prior Probability):
לאחר מכן, קיבלת מידע חדש (ראיה) לפיו הגולה ששלפת היא שחורה. מידע זה מאפשר לעדכן את ההערכה שלך. נוסיף לדיאגרמה את ההסתברות לשלוף גולה שחורה (B) או לבנה (W) מכל שקית:
-
בשקית 1, הסיכוי לשלוף גולה שחורה הוא: P(B∣S1)=3/5=0.6.
-
בשקית 2, הסיכוי לשלוף גולה שחורה הוא: P(B∣S2)=2/4=0.5.
כעת, כדי לגלות מה הסיכוי הכולל שבחרת בשקית 1 וגם הוצאת גולה שחורה, עליך להכפיל את ההסתברויות לאורך הענף המתאים בדיאגרמה:
$$P(S1∩B)=P(S1)⋅P(B∣S1)=0.5⋅0.6=0.30$$
באותו אופן, עבור שקית 2:
$$P(S2∩B)=P(S2)⋅P(B∣S2)=0.5⋅0.5=0.25$$
אלה ההסתברויות לכל אחד מה"מסלולים" שמובילים לגולה שחורה.
עכשיו מגיע החלק שצריך לשים אליו לב במיוחד! אתה יודע בוודאות שהגולה שבידך היא שחורה. כלומר, אתה נמצא בעולם שבו רק שני המסלולים שחישבת רלוונטיים. ההסתברות הכוללת לקבל גולה שחורה היא סכום ההסתברויות של שני המסלולים:
$$P(B)=P(S1∩B)+P(S2∩B)=0.30+0.25=0.55$$
כדי לענות על השאלה המקורית, "בהינתן שהגולה שחורה, מה הסיכוי שהיא הגיעה משקית 1?", אתה פשוט מחשב איזה חלק מהווה "מסלול שקית 1" מתוך כלל ההסתברות לקבל גולה שחורה:
$$P(S1∣B)=\frac{P(S1∩B)}{P(B)}=\frac{0.3}{0.55}\approx0.55$$
ובשביל לחשב מהי ההסתברות שהגולה הגיעה משקית 2:
$$P(S2∣B)=\frac{P(S2∩B)}{P(B)}=\frac{0.25}{0.55}\approx0.45$$
- בעקבות תהליך העדכון, אתה יודע שגוברים הסיכויים שאת הגולה השחורה שבידך שלפת משקית 1.
התהליך שעשינו באופן, כה טבעי, הוא עדכון הסתברויות: התחלנו מהסתברות ראשונית של 50%, ואחרי כן עדכון התוצאות תוך התחשבות במידע נוסף.
התהליך הזה, של עדכון ההסתברות הראשונית (prior) על סמך ראיות חדשות (evidence) כדי לקבל הסתברות מעודכנת (posterior), הוא הלב הפועם של החשיבה הבייסיאנית.
תהליך העדכון הבייסיאני הוא התהליך הסטטיסטי הטבעי ביותר המחקה במידה רבה את אופן הפעולה של השכל האנושי במצבו המפוכח. מתחילים באיזו השערה לגביה נתקלים או שאוספים נתונים, וככל שהנתונים מתווספים, מעדכנים את ההשערה.
המתמטיקה שמאחורי האינטואיציה: נוסחת בייס
בלי ששמנו לב, בעצם השתמשנו בכל המרכיבים של נוסחת בייס המפורשת:
$$P(H∣E)=\frac{P(E∣H)⋅P(H)}{P(E)}$$
הנוסחה הזו עוזרת לנו לחשב את ההסתברות של השערה (H) מסוימת, בהינתן שראיה (E) כלשהי התרחשה. כאשר H היא היפותזה בהינתן עדות Evidence.
-
P(H∣E): ההסתברות המעודכנת (Posterior) - מה שאנחנו רוצים לחשב. בדוגמה שלנו: "מה ההסתברות שהגולה משקית 1 (H), בהינתן שהיא שחורה (E)?"
-
P(H): ההסתברות המקדימה (Prior) - מה הייתה ההסתברות להשערה לפני שקיבלנו את הראיה? במקרה שלנו, ההסתברות שמקור הגולה הוא בשקית 1 היא 0.5:
$$P(S1)= \frac{1}{2}$$
-
P(E∣H): הסבירות (Likelihood) - בהנחה שההשערה שלנו נכונה, מה הסיכוי לקבל את הראיה? למשל, אם אנחנו בשקית 1, מה הסיכוי להוציא גולה שחורה (B)?
$$P(B|S1)= \frac{3}{5}$$
-
P(E): הראיה (Evidence) - המכנה נועד לוודא שההסתברויות המעודכנות יתאימו למציאות הכוללת. הוא משמש כגורם נורמליזציה שמחלק את ההסתברויות היחסיות כך שסכומן יהיה 1.
במקרה שלנו, P(E) עונה על השאלה "מהי ההסתברות הכוללת לקבל את הראיה הזו (גולה שחורה), מכל מקור אפשרי?" מכל מקור אפשרי - זה אומר גם משקית 1 וגם משקית 2:
-
עבור השקית הראשונה -
$$P(B|S1)⋅P(S1)=\frac{3}{5}⋅\frac{1}{2}=\frac{3}{10}$$
-
עבור השקית השנייה -
$$P(B|S2)⋅P(S2)=\frac{1}{2}⋅\frac{1}{2}=\frac{1}{4}$$
-
סה"כ הסיכוי להמצאות גולה שחורה באחת משתי השקיות:
$$P(B)=\frac{3}{10}+\frac{1}{4}=\frac{6}{20}+\frac{5}{20}=\frac{11}{20}=0.55$$
עכשיו יש לנו את כל החלקים כדי להציב בנוסחה שתאפשר לנו לחשב את ה-posterior.
עבור השקית הראשונה, נציב בנוסחת בייס:
$$P(H∣E)=\frac{P(E∣H)⋅P(H)}{P(E)}$$
ונקבל:
$$P(S_1 \mid B) = \frac{P(B \mid S_1) \cdot P(S_1)}{P(B)} = \frac{\frac{3}{5} \cdot \frac{1}{2}}{\frac{11}{20}} = \frac{\frac{3}{10}}{\frac{11}{20}} = \frac{\frac{6}{20}}{\frac{11}{20}} = \frac{6}{11}$$
גם את השקית השנייה, נציב בנוסחת בייס, ונקבל:
$$P(S2∣B)=\frac{P(B∣S2)⋅P(S2)}{P(B)}=\frac{\frac{1}{4}}{\frac{11}{20}}=\frac{\frac{5}{20}}{\frac{11}{20}}=\frac{5}{11}$$
כאשר שתי התוצאות מסתכמות ל-1 בדיוק לפי הצפי:
$$\frac{5}{11}+\frac{6}{11}=\frac{11}{11}=1$$
נסכם, התחלנו עם הערכה של 50-50, לפיה הגולות נמצאת באחת משתי השקיות. לאחר שראינו גולה שחורה, עדכנו את ההערכה שלנו:
$$P(S1∣B) ≈ 0.545 \\ P(S2∣B) ≈ 0.455$$
והפכנו להיות מעט יותר בטוחים שמקור הגולה הוא בשקית 1.
דוגמה לבעיה נוספת שניתן לפתור בעזרת נוסחת בייס: מהו הגורם העיקרי לאיחור לעבודה?
בואו נסבך את העניינים מעט כדי לוודא שהבנו. אדם מגיע לעבודה באחת משלוש דרכים:
- ברכב פרטי ב-40% מהימים.
- באוטובוס ב-30% מהימים.
- וביתר הימים על אופניים.
ידועים גם סיכויי האיחור שלו בכל דרך:
- כשהוא נוהג ברכב, הוא מאחר ב-10% מהמקרים.
- כשהוא נוסע באוטובוס, הוא מאחר ב-5% מהמקרים.
- כשהוא רוכב על אופניים, הוא מאחר ב-12% מהמקרים.
שאלה 1: ביום מסוים, האדם איחר לעבודה. באיזה מהדרכים הכי סביר שהגיע?
יש שלוש השערות. נבדוק איזו מהן הכי סבירה לאור הראיות.
לצורך כך, נסמן את ההסתברויות תוך שימוש בנוטציה הבאה:
- L = איחר לעבודה
- Car = הגיע ברכב
- Bus = הגיע באוטובוס
- Bike = הגיע באופניים
שלב 1: נחשב את ה-posterior הלא מנורמל (בלי לחלק בגורם המנרמל P(E)) עבור כל אחד מהמצבים:
$$prior × likelihood \\ Car: P(L|Car)⋅P(Car) = 0.1⋅0.4 = 0.04 \\ Bus: P(L|Bus)⋅P(Bus) = 0.05⋅0.3 = 0.015 \\ Bike: P(L|Bike)⋅P(Bike) = 0.12⋅0.3 = 0.036$$
שים לב שאם אתה צריך רק להשוות בין המצבים, לדוגמה כדי למצוא איזה הכי סביר, מספיק להשוות את הערכים הלא מנורמלים (0.04, 0.015, 0.036).
שלב 2: חישוב P(L), הגורם המנרמל:
$$P(L)=0.04+0.015+0.036=0.091$$
שלב 3: חישוב הפוסטריור המנורמל:
עבור נסיעה ברכב:
$$P(\text{Car}\mid L)=\dfrac{0.04}{0.091}=\dfrac{40}{91}\approx0.4396 $$
עבור הגעה באוטובוס:
$$P(\text{Bus}\mid L)=\dfrac{0.015}{0.091}=\dfrac{15}{91}\approx0.1648$$
ועבור רכיבה על אופניים:
$$P(\text{Bike}\mid L)=\dfrac{0.036}{0.091}=\dfrac{36}{91}\approx0.3956$$
נוודא שסך הפוסטריור המנורמל שווה ל-1:
$$0.4396+0.1648+0.3956=1$$
אם כן, ביום שבו האדם מאחר, ההסתברות הגדולה ביותר היא שהגיע ברכב: כ-44%.
שים לב! למרות שברכב הוא מאחר רק ב-10% מהפעמים, עצם העובדה שהוא נוסע ברכב לעיתים תכופות יחסית הופכת את האפשרות הזו לסבירה ביותר.
זו בדיוק מהות החשיבה הבייסיאנית שקלול ההסתברות הראשונית יחד עם הראיה החדשה.
שאלה 2: מה הסיכוי שרכב על אופניו ביום בו איחר לעבודה?
כדי לענות על השאלה מה הסיכוי שהגיע רכוב על אופניו אם ידוע שאיחר, נחלק את הסיכוי שאיחר כשהגיע רכוב על אופניו בסה"כ הסיכוי שאיחר.
נחשב את סה"כ הסיכוי שאיחר:
$$ P(L) = 0.04 + 0.015 + 0.036 = 0.091 $$
ואז לקבלת התשובה נכניס את סך הסיכוי שאיחר למכנה של נוסחת בייס המלאה:
$$ P(\text{Bike}\mid L) = \frac{P(L\mid \text{Bike}) \cdot P(\text{Bike})}{P(L)} = \frac{0.036}{0.091} \approx 0.3956 $$
מסקנה: הסיכוי שרכב על אופניו אם ידוע שאיחר הוא כ-39.6%.
מדריכים נוספים שעשויים לעניין אותך
חוק בייס (Bayes) וכללי אצבע לחיים - מדריך קליל יותר באותו נושא
סיווג לקבוצות באמצעות למידת מכונה
Confusion matrix ומדדים להערכת המודל
לכל המדריכים בנושא של למידת מכונה
אהבתם? לא אהבתם? דרגו!
0 הצבעות, ממוצע 0 מתוך 5 כוכבים
המדריכים באתר עוסקים בנושאי תכנות ופיתוח אישי. הקוד שמוצג משמש להדגמה ולצרכי לימוד. התוכן והקוד המוצגים באתר נבדקו בקפידה ונמצאו תקינים. אבל ייתכן ששימוש במערכות שונות, דוגמת דפדפן או מערכת הפעלה שונה ולאור השינויים הטכנולוגיים התכופים בעולם שבו אנו חיים יגרום לתוצאות שונות מהמצופה. בכל מקרה, אין בעל האתר נושא באחריות לכל שיבוש או שימוש לא אחראי בתכנים הלימודיים באתר.
למרות האמור לעיל, ומתוך רצון טוב, אם נתקלת בקשיים ביישום הקוד באתר מפאת מה שנראה לך כשגיאה או כחוסר עקביות נא להשאיר תגובה עם פירוט הבעיה באזור התגובות בתחתית המדריכים. זה יכול לעזור למשתמשים אחרים שנתקלו באותה בעיה ואם אני רואה שהבעיה עקרונית אני עשוי לערוך התאמה במדריך או להסיר אותו כדי להימנע מהטעיית הציבור.
שימו לב! הסקריפטים במדריכים מיועדים למטרות לימוד בלבד. כשאתם עובדים על הפרויקטים שלכם אתם צריכים להשתמש בספריות וסביבות פיתוח מוכחות, מהירות ובטוחות.
המשתמש באתר צריך להיות מודע לכך שאם וכאשר הוא מפתח קוד בשביל פרויקט הוא חייב לשים לב ולהשתמש בסביבת הפיתוח המתאימה ביותר, הבטוחה ביותר, היעילה ביותר וכמובן שהוא צריך לבדוק את הקוד בהיבטים של יעילות ואבטחה. מי אמר שלהיות מפתח זו עבודה קלה ?
השימוש שלך באתר מהווה ראייה להסכמתך עם הכללים והתקנות שנוסחו בהסכם תנאי השימוש.