תחי ישראל - אין לנו ארץ אחרת

תחי ישראל -אין לנו ארץ אחרת

איך תוריד מסדי נתונים מ-Kaggle?

מחבר:
בתאריך:

Kaggle היא פלטפורמה שמציעה למומחים בלמידת מכונה להתחרות במסגרת תחרויות שמזכות את הזוכים בסכומי כסף נכבדים. היא גם מציעה שפע של מסדי נתונים שעליהם ניתן להתאמן.

 קהילה של data scientists kaggle

במדריך זה נלמד כיצד להוריד מסדי הנתונים באמצעות kaggle API תוך התחשבות בסוג מסד הנתונים:

  • מסד נתונים השייך לתחרות
  • מסד נתונים העומד בפני עצמו

 

תחילת עבודה עם Kaggle

כדי לעבוד עם Kaggle צריך לעשות את 4 הדברים הבאים:

  1. להרשם לאתר בכתובת Kaggle login.

    register to kaggle

  2. אנו זקוקים לאסימון אבטחה token אותו נוריד מהאזור האישי.

    לחיצה על תמונת המשתמש שלנו בפינה הימנית העליונה של המסך תפתח תפריט שממנו נבחר באפשרות account.

    your account in the kaggle website

  3. לייצר ולהוריד אסימון אבטחה מאיזור ה-API:

    get the API token from kaggle

    האסימון הוא בפורמט JSON.

  4. להעלות את האסימון kaggle.json לתיקייה במחשב שבתוכה אנחנו עובדים.

ה-API מבוסס על פייתון. בהתאם נתקין אותו מהטרמינל באמצעות pip:

!pip install kaggle
  • סימן קריאה (!) בתחילת השורה אומר ל-Jupyter notebook שאת הפקודה צריך להריץ על הטרמינל.

הדרישה היא שהאסימון ישב בתיקייה מיוחדת. ניצור את התיקייה ונעתיק לתוכה את האסימון:

# place kaggle token
!mkdir -p ~/.kaggle/
!cp kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

נייבא את kaggle API:

from kaggle.api.kaggle_api_extended import KaggleApi

נאתחל אותו:

api = KaggleApi()
api.authenticate()

בשלב זה, נוריד את מסד הנתונים. נבחין בין מסד נתונים ששייך לתחרות לכזה שעומד בפני עצמו.

 

הורדת מסד נתונים השייך לתחרות

הכתובות של דפי Kaggle השייכות לתחרויות מכילות c.

לדוגמה, הכתובת של תחרות הטיטאניק:

www.kaggle.com/c/titanic

kaggle titanic data set

בדף התחרות נלחץ על לשונית Rules, ונאשר את תנאי התחרות.

בחזרה לקוד שלנו. נוריד את מסד הנתונים של התחרות באמצעות הפקודה הבאה:

api.competition_download_file('titanic', 'train.csv')
  • הפרמטר הראשון הוא שם התחרות.
  • והשני הוא מסד הנתונים.

שני הפרמטרים מוצגים בדף התחרות בתוך הלשונית Data:

kaggle titanic competition parameters

 

הורדת מסד נתונים העומד בפני עצמו

מסד הנתונים של תצפיות עב"מים הוא דוגמה למסד נתונים שאינו שייך לתחרות.

כתובתו:

www.kaggle.com/NUFORC/ufo-sightings

kaggle ufo sightings

נשתמש בפקודה הבאה:

api.dataset_download_file('NUFORC/ufo-sightings', file_name='complete.csv')
  • הפרמטר הראשון הוא הכתובת של התחרות.
  • השני הוא שם הקובץ.

הקבצים יורדים מכווצים. נחלץ אותם:

import zipfile

with zipfile.ZipFile('./complete.csv.zip', 'r') as zipref:
  zipref.extractall('./')

לכל המדריכים בסדרה על למידת מכונה

 

אהבתם? לא אהבתם? דרגו!

0 הצבעות, ממוצע 0 מתוך 5 כוכבים

 

 

המדריכים באתר עוסקים בנושאי תכנות ופיתוח אישי. הקוד שמוצג משמש להדגמה ולצרכי לימוד. התוכן והקוד המוצגים באתר נבדקו בקפידה ונמצאו תקינים. אבל ייתכן ששימוש במערכות שונות, דוגמת דפדפן או מערכת הפעלה שונה ולאור השינויים הטכנולוגיים התכופים בעולם שבו אנו חיים יגרום לתוצאות שונות מהמצופה. בכל מקרה, אין בעל האתר נושא באחריות לכל שיבוש או שימוש לא אחראי בתכנים הלימודיים באתר.

למרות האמור לעיל, ומתוך רצון טוב, אם נתקלת בקשיים ביישום הקוד באתר מפאת מה שנראה לך כשגיאה או כחוסר עקביות נא להשאיר תגובה עם פירוט הבעיה באזור התגובות בתחתית המדריכים. זה יכול לעזור למשתמשים אחרים שנתקלו באותה בעיה ואם אני רואה שהבעיה עקרונית אני עשוי לערוך התאמה במדריך או להסיר אותו כדי להימנע מהטעיית הציבור.

שימו לב! הסקריפטים במדריכים מיועדים למטרות לימוד בלבד. כשאתם עובדים על הפרויקטים שלכם אתם צריכים להשתמש בספריות וסביבות פיתוח מוכחות, מהירות ובטוחות.

המשתמש באתר צריך להיות מודע לכך שאם וכאשר הוא מפתח קוד בשביל פרויקט הוא חייב לשים לב ולהשתמש בסביבת הפיתוח המתאימה ביותר, הבטוחה ביותר, היעילה ביותר וכמובן שהוא צריך לבדוק את הקוד בהיבטים של יעילות ואבטחה. מי אמר שלהיות מפתח זו עבודה קלה ?

השימוש שלך באתר מהווה ראייה להסכמתך עם הכללים והתקנות שנוסחו בהסכם תנאי השימוש.

הוסף תגובה חדשה

 

 

ענה על השאלה הפשוטה הבאה כתנאי להוספת תגובה:

דג למים הוא כמו ציפור ל...?