איך תוריד מסדי נתונים מ-Kaggle?
Kaggle היא פלטפורמה שמציעה למומחים בלמידת מכונה להתחרות במסגרת תחרויות שמזכות את הזוכים בסכומי כסף נכבדים. היא גם מציעה שפע של מסדי נתונים שעליהם ניתן להתאמן.
במדריך זה נלמד כיצד להוריד מסדי הנתונים באמצעות kaggle API תוך התחשבות בסוג מסד הנתונים:
- מסד נתונים השייך לתחרות
- מסד נתונים העומד בפני עצמו
תחילת עבודה עם Kaggle
כדי לעבוד עם Kaggle צריך לעשות את 4 הדברים הבאים:
להרשם לאתר בכתובת Kaggle login.
-
אנו זקוקים לאסימון אבטחה token אותו נוריד מהאזור האישי.
לחיצה על תמונת המשתמש שלנו בפינה הימנית העליונה של המסך תפתח תפריט שממנו נבחר באפשרות account.
לייצר ולהוריד אסימון אבטחה מאיזור ה-API:
האסימון הוא בפורמט JSON.
להעלות את האסימון kaggle.json לתיקייה במחשב שבתוכה אנחנו עובדים.
ה-API מבוסס על פייתון. בהתאם נתקין אותו מהטרמינל באמצעות pip:
!pip install kaggle
- סימן קריאה (!) בתחילת השורה אומר ל-Jupyter notebook שאת הפקודה צריך להריץ על הטרמינל.
הדרישה היא שהאסימון ישב בתיקייה מיוחדת. ניצור את התיקייה ונעתיק לתוכה את האסימון:
# place kaggle token
!mkdir -p ~/.kaggle/
!cp kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json
נייבא את kaggle API:
from kaggle.api.kaggle_api_extended import KaggleApi
נאתחל אותו:
api = KaggleApi()
api.authenticate()
בשלב זה, נוריד את מסד הנתונים. נבחין בין מסד נתונים ששייך לתחרות לכזה שעומד בפני עצמו.
הורדת מסד נתונים השייך לתחרות
הכתובות של דפי Kaggle השייכות לתחרויות מכילות c.
לדוגמה, הכתובת של תחרות הטיטאניק:
www.kaggle.com/c/titanic
בדף התחרות נלחץ על לשונית Rules, ונאשר את תנאי התחרות.
בחזרה לקוד שלנו. נוריד את מסד הנתונים של התחרות באמצעות הפקודה הבאה:
api.competition_download_file('titanic', 'train.csv')
- הפרמטר הראשון הוא שם התחרות.
- והשני הוא מסד הנתונים.
שני הפרמטרים מוצגים בדף התחרות בתוך הלשונית Data:
הורדת מסד נתונים העומד בפני עצמו
מסד הנתונים של תצפיות עב"מים הוא דוגמה למסד נתונים שאינו שייך לתחרות.
כתובתו:
www.kaggle.com/NUFORC/ufo-sightings
נשתמש בפקודה הבאה:
api.dataset_download_file('NUFORC/ufo-sightings', file_name='complete.csv')
- הפרמטר הראשון הוא הכתובת של התחרות.
- השני הוא שם הקובץ.
הקבצים יורדים מכווצים. נחלץ אותם:
import zipfile
with zipfile.ZipFile('./complete.csv.zip', 'r') as zipref:
zipref.extractall('./')
לכל המדריכים בסדרה על למידת מכונה
אהבתם? לא אהבתם? דרגו!
0 הצבעות, ממוצע 0 מתוך 5 כוכבים
המדריכים באתר עוסקים בנושאי תכנות ופיתוח אישי. הקוד שמוצג משמש להדגמה ולצרכי לימוד. התוכן והקוד המוצגים באתר נבדקו בקפידה ונמצאו תקינים. אבל ייתכן ששימוש במערכות שונות, דוגמת דפדפן או מערכת הפעלה שונה ולאור השינויים הטכנולוגיים התכופים בעולם שבו אנו חיים יגרום לתוצאות שונות מהמצופה. בכל מקרה, אין בעל האתר נושא באחריות לכל שיבוש או שימוש לא אחראי בתכנים הלימודיים באתר.
למרות האמור לעיל, ומתוך רצון טוב, אם נתקלת בקשיים ביישום הקוד באתר מפאת מה שנראה לך כשגיאה או כחוסר עקביות נא להשאיר תגובה עם פירוט הבעיה באזור התגובות בתחתית המדריכים. זה יכול לעזור למשתמשים אחרים שנתקלו באותה בעיה ואם אני רואה שהבעיה עקרונית אני עשוי לערוך התאמה במדריך או להסיר אותו כדי להימנע מהטעיית הציבור.
שימו לב! הסקריפטים במדריכים מיועדים למטרות לימוד בלבד. כשאתם עובדים על הפרויקטים שלכם אתם צריכים להשתמש בספריות וסביבות פיתוח מוכחות, מהירות ובטוחות.
המשתמש באתר צריך להיות מודע לכך שאם וכאשר הוא מפתח קוד בשביל פרויקט הוא חייב לשים לב ולהשתמש בסביבת הפיתוח המתאימה ביותר, הבטוחה ביותר, היעילה ביותר וכמובן שהוא צריך לבדוק את הקוד בהיבטים של יעילות ואבטחה. מי אמר שלהיות מפתח זו עבודה קלה ?
השימוש שלך באתר מהווה ראייה להסכמתך עם הכללים והתקנות שנוסחו בהסכם תנאי השימוש.