איך תוריד מסדי נתונים מ-Kaggle?
Kaggle היא פלטפורמה שמציעה למומחים בלמידת מכונה להתחרות במסגרת תחרויות שמזכות את הזוכים בסכומי כסף נכבדים. היא גם מציעה שפע של מסדי נתונים שעליהם ניתן להתאמן.
במדריך זה נלמד כיצד להוריד מסדי הנתונים באמצעות kaggle API תוך התחשבות בסוג מסד הנתונים:
- מסד נתונים השייך לתחרות
- מסד נתונים העומד בפני עצמו
תחילת עבודה עם Kaggle
כדי לעבוד עם Kaggle צריך לעשות את 4 הדברים הבאים:
להרשם לאתר בכתובת Kaggle login.
-
אנו זקוקים לאסימון אבטחה token אותו נוריד מהאזור האישי.
לחיצה על תמונת המשתמש שלנו בפינה הימנית העליונה של המסך תפתח תפריט שממנו נבחר באפשרות account.
לייצר ולהוריד אסימון אבטחה מאיזור ה-API:
האסימון הוא בפורמט JSON.
להעלות את האסימון kaggle.json לתיקייה במחשב שבתוכה אנחנו עובדים.
ה-API מבוסס על פייתון. בהתאם נתקין אותו מהטרמינל באמצעות pip:
!pip install kaggle
- סימן קריאה (!) בתחילת השורה אומר ל-Jupyter notebook שאת הפקודה צריך להריץ על הטרמינל.
הדרישה היא שהאסימון ישב בתיקייה מיוחדת. ניצור את התיקייה ונעתיק לתוכה את האסימון:
# place kaggle token
!mkdir -p ~/.kaggle/
!cp kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json
נייבא את kaggle API:
from kaggle.api.kaggle_api_extended import KaggleApi
נאתחל אותו:
api = KaggleApi()
api.authenticate()
בשלב זה, נוריד את מסד הנתונים. נבחין בין מסד נתונים ששייך לתחרות לכזה שעומד בפני עצמו.
הורדת מסד נתונים השייך לתחרות
הכתובות של דפי Kaggle השייכות לתחרויות מכילות c.
לדוגמה, הכתובת של תחרות הטיטאניק:
www.kaggle.com/c/titanic
בדף התחרות נלחץ על לשונית Rules, ונאשר את תנאי התחרות.
בחזרה לקוד שלנו. נוריד את מסד הנתונים של התחרות באמצעות הפקודה הבאה:
api.competition_download_file('titanic', 'train.csv')
- הפרמטר הראשון הוא שם התחרות.
- והשני הוא מסד הנתונים.
שני הפרמטרים מוצגים בדף התחרות בתוך הלשונית Data:
הורדת מסד נתונים העומד בפני עצמו
מסד הנתונים של תצפיות עב"מים הוא דוגמה למסד נתונים שאינו שייך לתחרות.
כתובתו:
www.kaggle.com/NUFORC/ufo-sightings
נשתמש בפקודה הבאה:
api.dataset_download_file('NUFORC/ufo-sightings', file_name='complete.csv')
- הפרמטר הראשון הוא הכתובת של התחרות.
- השני הוא שם הקובץ.
הקבצים יורדים מכווצים. נחלץ אותם:
import zipfile
with zipfile.ZipFile('./complete.csv.zip', 'r') as zipref:
zipref.extractall('./')
לכל המדריכים בסדרה על למידת מכונה
אהבתם? לא אהבתם? דרגו!
0 הצבעות, ממוצע 0 מתוך 5 כוכבים