איך תוריד מסדי נתונים מ-Kaggle?

מחבר:
בתאריך:

Kaggle היא פלטפורמה שמציעה למומחים בלמידת מכונה להתחרות במסגרת תחרויות שמזכות את הזוכים בסכומי כסף נכבדים. היא גם מציעה שפע של מסדי נתונים שעליהם ניתן להתאמן.

 קהילה של data scientists kaggle

במדריך זה נלמד כיצד להוריד מסדי הנתונים באמצעות kaggle API תוך התחשבות בסוג מסד הנתונים:

  • מסד נתונים השייך לתחרות
  • מסד נתונים העומד בפני עצמו

 

תחילת עבודה עם Kaggle

כדי לעבוד עם Kaggle צריך לעשות את 4 הדברים הבאים:

  1. להרשם לאתר בכתובת Kaggle login.

    register to kaggle

  2. אנו זקוקים לאסימון אבטחה token אותו נוריד מהאזור האישי.

    לחיצה על תמונת המשתמש שלנו בפינה הימנית העליונה של המסך תפתח תפריט שממנו נבחר באפשרות account.

    your account in the kaggle website

  3. לייצר ולהוריד אסימון אבטחה מאיזור ה-API:

    get the API token from kaggle

    האסימון הוא בפורמט JSON.

  4. להעלות את האסימון kaggle.json לתיקייה במחשב שבתוכה אנחנו עובדים.

ה-API מבוסס על פייתון. בהתאם נתקין אותו מהטרמינל באמצעות pip:

!pip install kaggle
  • סימן קריאה (!) בתחילת השורה אומר ל-Jupyter notebook שאת הפקודה צריך להריץ על הטרמינל.

הדרישה היא שהאסימון ישב בתיקייה מיוחדת. ניצור את התיקייה ונעתיק לתוכה את האסימון:

# place kaggle token
!mkdir -p ~/.kaggle/
!cp kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

נייבא את kaggle API:

from kaggle.api.kaggle_api_extended import KaggleApi

נאתחל אותו:

api = KaggleApi()
api.authenticate()

בשלב זה, נוריד את מסד הנתונים. נבחין בין מסד נתונים ששייך לתחרות לכזה שעומד בפני עצמו.

 

הורדת מסד נתונים השייך לתחרות

הכתובות של דפי Kaggle השייכות לתחרויות מכילות c.

לדוגמה, הכתובת של תחרות הטיטאניק:

www.kaggle.com/c/titanic

kaggle titanic data set

בדף התחרות נלחץ על לשונית Rules, ונאשר את תנאי התחרות.

בחזרה לקוד שלנו. נוריד את מסד הנתונים של התחרות באמצעות הפקודה הבאה:

api.competition_download_file('titanic', 'train.csv')
  • הפרמטר הראשון הוא שם התחרות.
  • והשני הוא מסד הנתונים.

שני הפרמטרים מוצגים בדף התחרות בתוך הלשונית Data:

kaggle titanic competition parameters

 

הורדת מסד נתונים העומד בפני עצמו

מסד הנתונים של תצפיות עב"מים הוא דוגמה למסד נתונים שאינו שייך לתחרות.

כתובתו:

www.kaggle.com/NUFORC/ufo-sightings

kaggle ufo sightings

נשתמש בפקודה הבאה:

api.dataset_download_file('NUFORC/ufo-sightings', file_name='complete.csv')
  • הפרמטר הראשון הוא הכתובת של התחרות.
  • השני הוא שם הקובץ.

הקבצים יורדים מכווצים. נחלץ אותם:

import zipfile

with zipfile.ZipFile('./complete.csv.zip', 'r') as zipref:
  zipref.extractall('./')

לכל המדריכים בסדרה על למידת מכונה

 

אהבתם? לא אהבתם? דרגו!

0 הצבעות, ממוצע 0 מתוך 5 כוכבים

 

 

הוסף תגובה חדשה

 

= 9 + 7