באיזה מבחן סטטיסטי להשתמש?

מחבר:

בתאריך: 24.05.2024

מבחני השערות נועדו לקבוע האם תוצאות של סקר או ניסוי הן משמעותיות מבחינה סטטיסטית. כלומר, אנחנו משתמשים בהם כדי להחליט האם יש הבדל אמיתי בין שתי קבוצות או תנאים, או שההבדלים הנצפים הם תוצאה של אקראיות.

כדי לבחון האם תוצאות של ניסוי הם משמעותיות סטטיסטית מגדירים מראש השערת אפס והשערה חלופית:

השערת האפס (H0): קובעת שאין הבדל משמעותי בין הקבוצות או התנאים.
השערה חלופית (H1): קובעת שקיים הבדל משמעותי בין הקבוצות או התנאים.

מטרת המבחן לאשש את השערת האפס או לדחות אותה.

לדוגמה, ניסוי הבוחן האם כמות הדשן משפיעה על משקל התפוחים הנקטפים.

השערת האפס: כמות הדשן לא משפיעה על משקל התפוחים.
השערה חלופית: כמות הדשן כן משפיעה על משקל התפוחים.

אחרי שהגדרנו את השערת האפס וההשערה החלופית, עלינו לבחור רמת מובהקות alpha (α), שהיא ההסתברות לדחות את השערת האפס כאשר היא נכונה. בהתאם, רמת המובהקות מהווה את הסף לדחיית השערת האפס. מקובל לבחור בערך alpha של 5% שמשמעו שב-5% מהמקרים נדחה את השערת האפס בטעות. במקרים רבים רצוי לבחור בערך נמוך יותר כדי להקטין את הסיכוי לזיהוי שגוי, מסוג חיובי כוזב כאשר ההבדל אינו קיים במציאות אולם ההבדל נראה משמעותי בניסוי בגלל השפעתם של גורמים אקראיים.

לאחר סיום הניסוי נשתמש במבחנים סטטיסטיים אותם נסקור במדריך כדי לקבל ערך p-value, ההסתברות לקבל את תוצאות הניסוי או קיצוניות מהם תחת ההנחה שהשערת האפס נכונה. במידה וערך p-value הוא נמוך מ-alpha נדחה את השערת האפס ונקבל את ההשערה החלופית.

אם ערך ה-p-value קטן מרמת המובהקות (alpha), נדחה את השערת האפס ונקבל את ההשערה החלופית.
אם ערך ה-p-value גדול מרמת המובהקות, לא נדחה את השערת האפס.

ישנם מבחנים סטטיסטיים רבים לבחינת השערות. במדריך זה נלמד לבחור את המבחן המתאים ביותר לתרחיש שמעניין אותנו מתוך המבחנים הפופולריים ביותר.

which statistical test to choose?

כדי לבחור את המבחן המתאים ביותר עלינו לדעת 2 דברים:

מה סוג המידע (קטגורי או כמותי)
האם המבחן הוא פרמטרי או לא

סוג המידע : קטגורי או כמותי

קטגורי

משתנים קטגוריים מייצגים קבוצות.

קיימים 3 סוגים של משתנים קטגוריים:

דירוג אורדינלי (לדוגמה, הדירוג העולמי של שחקן טניס)
שמי נומינלי (לדוגמה, שם מוסד הלימודים, שם קבוצת הספורט)
בינארי (לדוגמה, 1 או 0, הטלת מטבע)

כמותי

משתנים כמותיים מבטאים כמות.

שני סוגים של משתנים כמותיים הם:

כמותיים דיסקרטיים (בדידים) ניתנים למנייה (לדוגמה, מספר אצבעות ביד, כמות מכירות בשנה)
כמותיים רציפים ניתנים לחלוקה (ק"ג, מטר)

סוג המבחן: פרמטרי או לא

ניתן לערוך מבחנים פרמטריים רק בתנאי שהאוכלוסיה עומדת במספר תנאים:

התצפיות הם בלתי תלויות
המידע מספרי ומתפלג באופן נורמלי
כמות דוגמאות גדולה מספיק (לפחות 30)

עדיף לערוך מבחנים פרמטריים כי התוצאות הם חזקות יותר אבל אם אין ברירה אפשר להסתפק במבחנים א-פרמטריים.

מבחני קורלציה

קורלציה מתארת כיצד שני משתנים משתנים יחד. היא לא מציינת אם אחד גורם לאחר, אלא פשוט האם הם נוטים לנוע באותו כיוון או בכיוון הפוך.

דוגמאות:

ככל שהגובה עולה, המשקל בדרך כלל עולה גם (קורלציה חיובית).
ככל שהאדם צבר פחות שנות לימוד ממוצע השכר שלו נמוך יותר (גם כן קורלציה חיובית).
ככל שגדל מספר הבעלים שהיו למכונית (מספר הידיים), ירד מחיר השוק שלה (קורלציה שלילית).

מבחן מקובל למציאת קורלציה בין שני משתנים כמותיים רציפים הוא Pearson.

תוצאת המבחן היא מקדם מתאם r. הערכים שמקדם המתאם יכול לקבל נעים בין 1- ל1+. ערך קרוב לאפס מצביע על קורלציה מועטה או ללא קורלציה, בעוד שערכים קרובים ל-1 (חיובי או שלילי) מצביעים על קשרים חזקים.

אנחנו יכולים לכמת את המשמעות הסטטיסטית של הקורלציה בעזרת ערך ה-p-value. ככל שערך ה-p-value קטן יותר, כך גדלה מידת הביטחון שלנו בכך שהקורלציה שנצפתה אינה נובעת ממקרה.

קורלציה אינה סיבתיות!

חשוב לדעת שהעובדה שבין שני משתנים קיימת קורלציה חזקה אינה מעידה על כך שאחד גורם לשני. לדוגמה, ישנה קורלציה בין כמויות הגלידות שנרכשות לבין מספר מקרי הטביעה בים. האם הסיבה לטביעות בעונת הקיץ היא אכילת גלידה? כמובן שלא! הסיבה לעלייה במקרי הטביעה היא שיותר אנשים רוחצים בים בקיץ, וזו גם העונה שבה אנשים רוכשים יותר גלידות. מסקנה: ייתכנו מצבים בהם אין קשר סיבתי בין תופעות שיש ביניהן קורלציה גבוהה, כאשר הסיבה לקורלציה היא גורם משותף שמשפיע על שתיהן.

מבחני רגרסיה

מבחני רגרסיה בוחנים את השפעתו של משתנה אחד (משתנה בלתי תלוי) על משתנה אחר (משתנה תלוי). בנוסף, מבחני רגרסיה יוצרים מודל המאפשר תחזיות של ערכו של המשתנה התלוי בהתבסס על ערכו של המשתנה הבלתי תלוי.

3 סוגים של מבחני רגרסיה שחייבים להכיר:

רגרסיה לינארית פשוטה:

רגרסיה לינארית פשוטה משתמשת במשתנה בלתי תלוי יחיד לחיזוי ערכו של משתנה תלוי.

לדוגמה, ניתן להשתמש ברגרסיה לינארית פשוטה כדי לבחון את הקשר בין כמות הדשן (משתנה בלתי תלוי) למשקל התפוחים (משתנה תלוי).
רגרסיה לינארית מרובה:
רגרסיה לינארית מרובה משתמשת במספר משתנים בלתי תלויים לחיזוי ערכו של משתנה תלוי.

לדוגמה, ניתן להשתמש ברגרסיה לינארית מרובה כדי לבחון את הקשר בין כמות הדשן (משתנה בלתי תלוי אחד), הטמפרטורה (משתנה בלתי תלוי שני) ומשקל התפוחים (משתנה תלוי).
רגרסיה לוגיסטית:

רגרסיה לוגיסטית משמשת לחיזוי תוצאה בינארית (כן/לא) בהתבסס על משתנים בלתי תלויים.

לדוגמה, ניתן להשתמש ברגרסיה לוגיסטית כדי לחזות את כמות הקוטלים הדרושה להשמדה מלאה של כנימות (תוצאה בינארית: כן/לא) בהתבסס על גורמים כמו סוג הכנימה, גודל השטח הנגוע ועוד (משתנים בלתי תלויים).

קיימים סוגים נוספים של מבחני רגרסיה, המותאמים למצבים שונים.

מבחני השוואה

מבחני השוואה בוחנים את ההבדל בין ממוצעי קבוצות.

מבחני t-test משווים את הממוצעים של 2 קבוצות.

לדוגמה:

משקל ממוצע של תפוחים ירוקים לעומת אדומים
גובה ממוצע של בנים ובנות בכיתה
אחוז הקלקות על קישורים כחולים לעומת אפורים

One-sample t-test

משווה את ממוצע התכונה באוכלוסייה אחת כנגד ערך סטנדרטי.

דוגמאות:

האם משקל התפוחים במטע אחד הוא גדול משמעותית ממשקל תפוחים ממוצעים?
האם כמות הקוטג' במיכלים שמייצרת חברה מסחרית נמוכה משמעותית מ-200 גרם?

Independent t-test

כאשר משווים ממוצע תכונה אחת בין 2 קבוצות מאוכלוסיות שונות . חשוב שמספר הדוגמאות יהיה שווה בין הקבוצות.

דוגמאות:

השוואה של משקל התפוחים בין 2 מטעים
השוואה של משקל בנים ובנות בני כיתה אחת

Paired t-test

כאשר משווים ממוצע תכונה אחת בין 2 קבוצות מאותה אוכלוסיה . בדרך כלל, בוחנים את האוכלוסיה לפני ואחרי טיפול.

לדוגמה:

ממוצע ציון הבנת הנקרא בקרב קבוצת תלמידים לפני ואחרי שלקחו קורס קיץ באנגלית
מדד לחץ דם באנשים בני 60 וכעבור 10 שנים בהיותם בני 70

ANOVA

כאשר משווים את הממוצע בין יותר מ-2 קבוצות משתמשים ב-ANOVA במקום ב-t-test.

לדוגמה:

מה משקל התפוחים באותו מטע שקיבלו 3 סוגים של דשן
מה הציון הפסיכומטרי הממוצע של בוגרי בתי ספר תיכוניים שונים

MANOVA

בעוד ANOVA משמשת להשוואת ממוצע תכונה אחת, MANOVA משמשת להשוואת ממוצע של מספר תכונות.

לדוגמה:

כיצד משפיע סוג הדשן על המשקל, גובה הגזע ומספר הענפים
כיצד משפיע קורס מיומנויות למידה על ציוני הבחינה במתמטיקה ואנגלית

מבחנים לא פרמטריים

מבחנים א-פרמטריים משמשים כשאי אפשר לעשות מבחנים פרמטריים. בטבלה הבאה סיכום של מבחנים פרמטריים ומקביליהם הא-פרמטריים:

מבחן א-פרמטרי	מבחן פרמטרי
Spearman’s r	Pearson’s r
Sign test	One-sample t-test
Wilcoxon Rank-Sum test	Independent t-test
Wilcoxon Signed-rank test	Paired t-test
Kruskal–Wallis H	ANOVA
ANOSIM	MANOVA

מבחני חי בריבוע Chi-Square

משתמשים במבחני חי בריבוע Chi-Square לבחינת השערות בנוגע להתפלגות האוכלוסייה לקטגוריות.

מבחן Chi-Square בוחן את שכיחות התצפיות בקטגוריות, ומנסה למצוא האם קטגוריה אחת (או שילוב של קטגוריות) הוא נפוץ יותר מהצפוי.

בדומה לקורלציה מבחן Chi-Square מנסה למצוא קשר בין משתנים אבל כיוון שהמשתנים קטגוריים אי אפשר להשתמש בקורלציה.

ישנם 3 סוגים של מבחני Chi-Square:

1. מבחן חי בריבוע לטיב התאמה Chi-Square goodness of fit

מבחן חי בריבוע לטיב התאמה בוחן האם התפלגות של משתנה 1 תואם להתפלגות הצפויה.

דוגמאות:

האם שכיחות התוצאות בהטלת מטבע שונה מהצפוי (1:1)?
האם שיעור התפוחים הפסולים ליצוא שווה בין 3 שיטות טיפול שונות

את הנתונים למבחני Chi-Square ניתן לסדר בטבלת שכיחויות. לדוגמה, טבלת שכיחויות של הטלת מטבע 100 פעמים:

תוצאה	שכיחות
עץ	48
פלי	52

האם העובדה ששכיחות התוצאות שונה מ-50:50 מעידה על כך שהמטבע מוטה? או שהתוצאה אינה מובהקת מספיק? על זה יענה מבחן goodness of fit

2. מבחן חי בריבוע לאי תלות Chi-Square test for independence

מחפש קשר בין שני משתנים קטגוריים בתוך אותה אוכלוסיה. בניגוד ל-goodness of fit המבחן לא משווה משתנה יחיד לאוכלוסיה תיאורטית, אלא שני משתנים בתוך אותה אוכלוסיה אחד כנגד השני.

לדוגמה, מחקר שבחן האם יש קשר בין טעם קולינרי לבין טעם ספרותי מצא את התוצאות הבאות בקרב 300 נשאלים:

	איטלקי	תאילנדי	מזרחי
עיון	90	40	10
הרפתקאות	20	20	10
הרומן הרומנטי	20	20	70

מבחן חי בריבוע לאי תלות Chi-Square test for independence יענה על השאלה האם יש קשר בין טעם קולינרי וספרותי.

3. מבחן חי בריבוע להומוגניות

המבחן להומוגניות בוחן האם דוגמאות שונות באות מאותה אוכלוסיה.

לדוגמה, האם יש הבדל באחוז הקבלה לפקולטות השונות באוניברסיטה (מדעים, הנדסה, רפואה, מדעי הרוח) בין גברים לנשים.

משמעות סטטיסטית אינה מספיקה

אחרי שסיימנו לערוך את המחקר, ואחרי שניתחנו את התוצאות, ואפילו הסקנו שהתוצאות משמעותיות מבחינה סטטיסטית (היות וערך ה-p נמוך מהסף הקריטי אותו קבענו מראש) האם לא הגיע זמננו לנוח על זרי הדפנה? האמת שלא ממש. וזאת מכמה טעמים:

ראשית, ענפים מדעיים שלמים דוגמת מדעי החברה ומחקר רפואי נגועים במשבר "רפליקציה" כאשר ניסויים בלתי תלויים שניסו לשחזר תוצאות מחקרים שהתפרסמו בז'ורנלים מדעיים מובילים הגיעו למסקנות שונות מהמחקרים המקוריים. מטה-ניתוח של התוצאות מראה קשר בין מידת המשמעותיות הסטטיסטית של התוצאות ובין שיעור הרפליקציה. כאשר תוצאות הנמוכות רק במעט מהערך הקריטי נוטות להיות קשות לשחזור.
נקודה נוספת אותה יש להביא בחשבון היא כיצד מסקנות המחקר משתלבות בגוף הידע הקיים. אם התוצאות סותרות את הידוע אז גם אם התוצאות משמעותיות סטטיסטית כדאי לערוך ניסויים נוספים לאישוש המסקנות.
לא פחות חשוב, צריך לוודא האם התוצאות בעלות משמעות מעשית. לדוגמה, מחקר שבודק אם שיטת לימוד חדשה משפרת את הישגי התלמידים במבחן הבגרות במתמטיקה עשוי לגלות שיפור משמעותי סטטיסטי של 3 נקודות מתוך 100. האם שיפור משמעותי של 3 נקודות מצדיק את הזמן וההשקעה בהכשרת מורים רבים? את ההחלטה בנושא שום מבחן סטטיסטי לא יכול להחליף כי זה דורש שיקול דעת.

המסקנה היא שגם אם התוצאות הם משמעותיות מהבחינה הסטטיסטית יש צורך בהפעלת שיקול דעת של מומחים בנושא שייקחו בחשבון כיצד מסקנות המחקר משתלבות בתמונה הכללית של תחומם לפני שמקבלים החלטות נמהרות רק על סמך מבחן השערות.

אולי גם זה יעניין אותך

מבחני t-test באמצעות פייתון

מבחן ANOVA - האם ממוצעי קבוצות שונים סטטיסטית

מבחני חי בריבוע לבדיקת השערות עם פייתון

מה זה A/B testing - בדיקת A/B?

לכל המדריכים בנושא של למידת מכונה

אהבתם? לא אהבתם? דרגו!

0 הצבעות, ממוצע 0 מתוך 5 כוכבים

המדריכים באתר עוסקים בנושאי תכנות ופיתוח אישי. הקוד שמוצג משמש להדגמה ולצרכי לימוד. התוכן והקוד המוצגים באתר נבדקו בקפידה ונמצאו תקינים. אבל ייתכן ששימוש במערכות שונות, דוגמת דפדפן או מערכת הפעלה שונה ולאור השינויים הטכנולוגיים התכופים בעולם שבו אנו חיים יגרום לתוצאות שונות מהמצופה. בכל מקרה, אין בעל האתר נושא באחריות לכל שיבוש או שימוש לא אחראי בתכנים הלימודיים באתר.

למרות האמור לעיל, ומתוך רצון טוב, אם נתקלת בקשיים ביישום הקוד באתר מפאת מה שנראה לך כשגיאה או כחוסר עקביות נא להשאיר תגובה עם פירוט הבעיה באזור התגובות בתחתית המדריכים. זה יכול לעזור למשתמשים אחרים שנתקלו באותה בעיה ואם אני רואה שהבעיה עקרונית אני עשוי לערוך התאמה במדריך או להסיר אותו כדי להימנע מהטעיית הציבור.

שימו לב! הסקריפטים במדריכים מיועדים למטרות לימוד בלבד. כשאתם עובדים על הפרויקטים שלכם אתם צריכים להשתמש בספריות וסביבות פיתוח מוכחות, מהירות ובטוחות.

המשתמש באתר צריך להיות מודע לכך שאם וכאשר הוא מפתח קוד בשביל פרויקט הוא חייב לשים לב ולהשתמש בסביבת הפיתוח המתאימה ביותר, הבטוחה ביותר, היעילה ביותר וכמובן שהוא צריך לבדוק את הקוד בהיבטים של יעילות ואבטחה. מי אמר שלהיות מפתח זו עבודה קלה ?

השימוש שלך באתר מהווה ראייה להסכמתך עם הכללים והתקנות שנוסחו בהסכם תנאי השימוש.

באיזה מבחן סטטיסטי להשתמש?

סוג המידע : קטגורי או כמותי

קטגורי

כמותי

סוג המבחן: פרמטרי או לא

מבחני קורלציה

מבחני רגרסיה

מבחני השוואה

One-sample t-test

Independent t-test

Paired t-test

ANOVA

MANOVA

מבחנים לא פרמטריים

מבחני חי בריבוע Chi-Square

1. מבחן חי בריבוע לטיב התאמה Chi-Square goodness of fit

2. מבחן חי בריבוע לאי תלות Chi-Square test for independence

3. מבחן חי בריבוע להומוגניות

משמעות סטטיסטית אינה מספיקה

אולי גם זה יעניין אותך

נכתב ע"י יוסי בן הרוש

הוסף תגובה חדשה