משפט הגבול המרכזי - תנאי ללמידת מכונה על נתונים לא נורמליים

מחבר:
בתאריך:

משפט הגבול המרכזי central limit theorem חשוב ללמידת מכונה כיוון שהוא מאפשר לנו להניח שהתפלגות הדגימות של אוכלוסייה היא נורמלית מה שמאפשר לנו לעבוד עם טכניקות סטטיסטיות שמניחות התפלגות נורמלית אפילו אם האוכלוסייה לא נורמלית.

demonstration of the central limit theorem - the larger the number of samples get - the closer the means to the normal distribution

כדי להוכיח לעצמנו את המשפט בוא נראה מה קורה כשאנחנו עובדים עם נתונים מאוד לא נורמליים. לדוגמה, נתונים המציגים התפלגות אחידה.

פייתון ייצור בשבילנו את הנתונים:

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
samples = np.random.uniform(size=10000)
sns.displot(samples);

הקוד יצר בשבילנו 10,000 דוגמאות בעלות התפלגות אחידה:

uniformly distributed population

הפונקציה הבאה תדגום את הדוגמאות ותחשב את ממוצע הדגימות:

def sample(population, sample_size, n_samples):
  sample_means = []
  for i in range(n_samples):
  sample = np.random.choice(population, size=sample_size, replace=False)
  sample_means.append(sample.mean())
  return sample_means

נבקש מהפונקציה לדגום 5 פעמים כשבכל מדגם 20 דוגמאות, ונציג את התוצאה:

sns.displot(sample(samples, 20, 5), kde=True);

5 samples - the means are far from being normally distributed

  • לקחנו רק 5 דגימות, וממוצעי הדגימות אינם מתפלגים באופן נורמלי.

נבקש מהפונקציה לדגום 50 פעמים, ונציג את התוצאה:

sns.displot(sample(samples, 20, 50), kde=True);

50 samples - the means are getting closer to a normal distribution

  • כאשר לקחנו 50 דגימות ראינו שממוצעי הדוגמאות מתחילים להתקרב להתפלגות נורמלית.

נבקש מהפונקציה לדגום 1000 פעמים, ונציג את התוצאה:

sns.displot(sample(samples, 20, 1000), kde=True);

1000 samples - the samples means are now normally distributed

  • במקרה של 1,000 דגימות ממוצעי הדוגמאות מתפלגים באופן נורמלי.

לפיכך, מותר לנו להניח שבמקרה של מספר דגימות גבוה מספיק ממוצעי הדגימות מתפלגים נורמלית, מה שמאפשר לנו לבצע למידת מכונה כמו גם להפעיל הסקה סטטיסטית המיועדים לעבוד עם נתונים בעלי התפלגות נורמלית. לדוגמה, t-test מאפשר לנו לברר האם ממוצעי הניסוי והביקורת שונים משמעותית בתנאי שהאוכלוסיה מתפלגת נורמלית. בזכות משפט הגבול המרכזי אנחנו יכולים להשתמש במבחן גם אם אין לנו מושג ירוק כיצד מתפלגת האוכלוסייה.

לכל המדריכים בנושא של למידת מכונה

 

אהבתם? לא אהבתם? דרגו!

0 הצבעות, ממוצע 0 מתוך 5 כוכבים

 

 

הוסף תגובה חדשה

 

= 4 + 6