סטיית תקן ושגיאת תקן

מחבר:

בתאריך: 08.03.2023

סטיית התקן (σ) מתארת את השונות בתוך המדגם.
שגיאת התקן (SE) מתייחסת לדיוק אומדן סטטיסטי המבוסס על מדגם לגבי כלל האוכלוסיה.

נניח שיש לנו מדגם של 100 נשים ומדדנו את גובהם.

סטיית תקן: תאפשר לנו לדעת עד כמה גובהם של הנשים במדגם מפוזר סביב ממוצע הגובה.
שגיאת תקן של הממוצע: תאפשר לנו לדעת עד כמה ממוצע הגובה של 100 הנשים במדגם קרוב לממוצע הגובה האמיתי של כל הנשים באוכלוסייה.

סטיית תקן ושגיאת תקן הן מדדים של שונות, אך הם משמשים למטרות שונות בסטטיסטיקה. בעוד סטיית תקן מתארת שונות בתוך מערך נתונים, שגיאת תקן מכמתת את הדיוק של סטטיסטיקת המדגם ושל אומדנים עבור פרמטרי האוכלוסייה (דוגמת ממוצע).

סטיית תקן (σ)

סטיית תקן (σ) מודדת את הפיזור של מערך נתונים סביב הממוצע שלו. היא מציינת עד כמה ערכי מדידה בודדים סוטים מהממוצע.

סטיית התקן מחושבת כשורש הריבועי של השונות (σ^2), שהיא הממוצע של ריבועי ההפרשים מהממוצע:

$$ \sigma = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \bar{x})^2} $$

(xi): ערכי מדידה בודדים
(x̄): ממוצע מערך הנתונים
(N): מספר ערכי המדידה הכולל

שגיאת תקן (SE)

שגיאת תקן (SE) מאפיינת את רמת הדיוק של האומדן המתקבל מתוך מדגם עבור פרמטר של האוכלוסייה (דוגמת הממוצע אבל לא רק). שגיאת התקן של הממוצע (SEM) מייצגת את השונות של ממוצעי המדגמים האפשריים סביב ממוצע האוכלוסייה האמיתי.

שגיאת התקן מחושבת כסטיית תקן של המדגם חלקי שורש גודל המדגם:

$$ SE = \frac{s}{\sqrt{N}} $$

(s): סטיית התקן של המדגם
(N): גודל המדגם

ההבדל בין שגיאת תקן לסטיית תקן

מטרה: סטיית תקן מודדת את השונות בתוך מערך נתונים יחיד, בעוד שגיאת תקן מודדת את הדיוק של האומדן לפרמטר של האוכלוסייה המתקבל על בסיס מדגם
שימוש: סטיית תקן משמשת לעתים קרובות לתיאור פיזור ערכי הנתונים, בעוד שגיאת תקן משמשת לחישוב רווחי סמך או לקביעת דיוק של סטטיסטי המדגם.
פירוש: סטיית תקן גדולה יותר מצביעה על שונות גדולה יותר בתוך מערך הנתונים, בעוד ששגיאת תקן גדולה יותר מצביעה על שונות גדולה יותר של ממוצעי מדגמים שונים עבור גודלי מדגם זהים.

לסיכום, בעוד סטיית תקן מתארת שונות בתוך מערך נתונים, שגיאת תקן מכמתת את הדיוק של סטטיסטיקת המדגם ושל אומדנים עבור פרמטרי אוכלוסייה. שני המדדים משמשים לתפקידים שונים בניתוח הסטטיסטי.

את שגיאת התקן מחשבים על סמך סטיית התקן

את שגיאת התקן מחשבים על סמך סטיית התקן. כדי לראות את זה נחשב גם את סטיית התקן (σ) וגם את שגיאת התקן של הממוצע (SEM) עבור נתוני הגובה של 5 נשים בוגרות:

sample = [1.67, 1.55, 1.63, 1.69, 1.72]

ראשית, נמצא את ממוצע המדגם :

$$ \bar{x} = \frac{\sum x_i}{n} = \frac{1.67 + 1.55 + 1.63 + 1.69 + 1.72}{5} = 1.65 $$

כאשר:

(x_i) מייצג כל גובה בודד
(n) הוא מספר התצפיות (נשים במדגם)

לאחר מכן, נחשב את סטיית התקן (σ) באמצעות הנוסחה:

$$ \begin{aligned} &\sigma = \sqrt{\frac{\sum{(x_i - \bar{x})^2}}{n-1}} \\ \\ &= \sqrt{\frac{(1.67-1.65)^2 + (1.55-1.65)^2 + (1.63-1.65)^2 + (1.69-1.65)^2 + (1.72 - 1.65)^2}{5-1}} \\ \\ &= 0.07 \end{aligned} $$

עכשיו, נחשב את שגיאת התקן של הממוצע (SEM) באמצעות הנוסחה הבאה שבה סטיית התקן נמצא במונה:

$$ SEM = \frac{s}{\sqrt{n}} = \frac{0.07}{\sqrt{5}} = 0.03 $$

הנה קוד Python לחישוב שגיאת התקן וסטיית התקן:

import numpy as np
# Given data
heights = np.array([1.67, 1.55, 1.63, 1.69, 1.72])

# Calculate sample mean
mean_height = np.mean(heights)

# Calculate standard deviation
std_dev = np.std(heights, ddof=1)  # Using ddof=1 for sample standard deviation

# Calculate standard error
std_error = std_dev / np.sqrt(len(heights))

print(f"Sample Mean (x̄): {mean_height:.2f}")
print(f"Sample Standard Deviation (s): {std_dev:.2f}")
print(f"Standard Error of the Mean (SEM): {std_error:.2f}")

התוצאה:

Sample Mean (x̄): 1.65
Sample Standard Deviation (s): 0.07
Standard Error of the Mean (SEM): 0.03

לסיכום

סטיית התקן (σ)מודדת את הפיזור או השונות של ערכי המדידה הבודדים סביב הממוצע, בעוד ש שגיאת התקן של הממוצע (SEM) מייצגת את השונות של אומדן הממוצע המתקבל מהמדגם. שגיאת התקן מכמתת עד כמה ממוצע המדגם צפוי להשתנות מממוצע האוכלוסייה האמיתי בממוצע על פני מדגמים שונים. לצורך חישוב שגיאת התקן נשתמש בסטיית התקן.

ניתן להשתמש בשגיאת התקן של הממוצע (SEM) כדי לחשב רווח בר-סמך סביב ממוצע המדגם שלנו. רווח בר-סמך זה מאפשר לנו להעריך את הטווח שבו ממוצע האוכלוסייה האמיתי (μ) ככל הנראה נמצא, ומכאן כוחה של שגיאת התקן בהסקה סטטיסטית.

אולי גם זה יעניין אותך?

באיזה מבחן סטטיסטי להשתמש?

מבחן t-test לבחינת השערות

מבחן ANOVA - האם ממוצעי קבוצות שונים סטטיסטית

לכל המדריכים בנושא של למידת מכונה

אהבתם? לא אהבתם? דרגו!

0 הצבעות, ממוצע 0 מתוך 5 כוכבים

המדריכים באתר עוסקים בנושאי תכנות ופיתוח אישי. הקוד שמוצג משמש להדגמה ולצרכי לימוד. התוכן והקוד המוצגים באתר נבדקו בקפידה ונמצאו תקינים. אבל ייתכן ששימוש במערכות שונות, דוגמת דפדפן או מערכת הפעלה שונה ולאור השינויים הטכנולוגיים התכופים בעולם שבו אנו חיים יגרום לתוצאות שונות מהמצופה. בכל מקרה, אין בעל האתר נושא באחריות לכל שיבוש או שימוש לא אחראי בתכנים הלימודיים באתר.

למרות האמור לעיל, ומתוך רצון טוב, אם נתקלת בקשיים ביישום הקוד באתר מפאת מה שנראה לך כשגיאה או כחוסר עקביות נא להשאיר תגובה עם פירוט הבעיה באזור התגובות בתחתית המדריכים. זה יכול לעזור למשתמשים אחרים שנתקלו באותה בעיה ואם אני רואה שהבעיה עקרונית אני עשוי לערוך התאמה במדריך או להסיר אותו כדי להימנע מהטעיית הציבור.

שימו לב! הסקריפטים במדריכים מיועדים למטרות לימוד בלבד. כשאתם עובדים על הפרויקטים שלכם אתם צריכים להשתמש בספריות וסביבות פיתוח מוכחות, מהירות ובטוחות.

המשתמש באתר צריך להיות מודע לכך שאם וכאשר הוא מפתח קוד בשביל פרויקט הוא חייב לשים לב ולהשתמש בסביבת הפיתוח המתאימה ביותר, הבטוחה ביותר, היעילה ביותר וכמובן שהוא צריך לבדוק את הקוד בהיבטים של יעילות ואבטחה. מי אמר שלהיות מפתח זו עבודה קלה ?

השימוש שלך באתר מהווה ראייה להסכמתך עם הכללים והתקנות שנוסחו בהסכם תנאי השימוש.