כיצד לשלב בין pandas ל-SQL?

מחבר:
בתאריך:

ספריית Pandas של פייתון הכרחית לניתוח ומניפולציה של נתונים בתחום של למידת מכונה. רבים מהעוסקים בתחום באים מרקע של עבודה מול מסדי נתונים מבוססי SQL בשבילם היכולת להשתמש ב-Pandas באמצעות תחביר SQL היא משמעותית. ספריית pandasql מחברת בין DataFrames של Pandas למסד נתונים SQLite. במדריך זה מספר דוגמאות לשאילתות שניתן לבצע באמצעות pandasql.

pandasql library to use sql queries inside pandas dataframe

נייבא את הספריות הדרושות ללמידת מכונה:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

התקנתי את pandasql באמצעות מנהל החבילות pip.

נייבא את החבילה:

from pandasql import sqldf

את הנתונים במדריך הורדתי מאתר הבנק העולמי ויש בהם נתוני אוכלוסייה ותל"ג של 7 מדינות (ביניהן ישראל) בשנים 2015 ל-2020.

הורדתי את הנתונים בשני קבצי CSV (מצורף). נטען את הנתונים כ-DataFrame של Pandas:

gdp_df = pd.read_csv("./data/gdp.csv")
pop_df = pd.read_csv("./data/population.csv")

התל"ג:

gdp_df.head()

gdp data frame from pandas

נתוני האוכלוסייה:

pop_df.head()

population data frame from pandas

נריץ שאילתה פשוטה על נתוני האוכלוסייה:

q = """
    SELECT
        *
    FROM
        pop_df
    LIMIT 3;"""
sqldf(q)

the result of a query on the population data frame with pandasql

נוסיף תנאי:

q = """
    SELECT
        `Country Name`,
        `2020`
    FROM
        pop_df
    WHERE
        `2020` >= 4994724
    ORDER BY `2020` DESC
    LIMIT 5;
    """

sqldf(q)

the result of a simple query with pandasql

אנחנו יכולים לסדר את הנתונים באמצעות ORDER BY:

q = """SELECT
    *
    FROM
        pop_df
    ORDER BY RANDOM()
    LIMIT 4;"""

sqldf(q)

the result of a simple query with order by with pandasql

ניתן להשתמש בפונקצית אגרגציה:

q = """
    SELECT `Country Name`, MAX(`2020`)
    FROM pop_df;
            """

sqldf(q)

run sql aggregation function on a data frame with pandasql

אין בעיה להריץ תת שאילתות:

q = """
    SELECT
        `p`.`Country Name`,
        `p`.`2020` AS `population`,
        AVG(`p`.`2020`)
    FROM
        pop_df AS p 
    WHERE
        `p`.`2020` >= (SELECT AVG(`2020`) FROM pop_df)
"""

sqldf(q)

run sql subquery on a data frame with pandasql

אפשר לצרף טבלאות באמצעות JOIN:

q = """
    SELECT
        `g`.`Country Name`,
        `p`.`2020` AS `population`,
        `g`.`2020` AS `gdp`,
        CAST(`g`.`2020` AS DECIMAL)/CAST(`p`.`2020` AS DECIMAL) AS `gdp_per_capita`
    FROM
        pop_df AS p
    INNER JOIN
        gdp_df AS g
            on `g`.`Country Name` = `p`.`Country Name`
    ORDER BY
        `gdp_per_capita` DESC;
    """

joined = sqldf(q)

joined.head(5)

sql join on a data frame with pandasql

נעזר ב-matplotlib על מנת לצייר גרף:

q = """
    SELECT
        `g`.`Country Name`,
        `p`.`2020` AS `population`,
        `g`.`2020` AS `gdp`,
        CAST(`g`.`2020` AS DECIMAL)/CAST(`p`.`2020` AS DECIMAL) AS `gdp_per_capita`
    FROM
        pop_df AS p
    INNER JOIN
        gdp_df AS g
            on `g`.`Country Name` = `p`.`Country Name`
    ORDER BY
        `gdp_per_capita` DESC;
    """

df = sqldf(q)

plt.title("GDP per capita")
plt.xlabel("Countries")
plt.ylabel("GDP ($)")
xpos = np.arange(len(df["Country Name"]))

plt.xticks(xpos, df["Country Name"])
plt.xticks(rotation = 45)
plt.bar(xpos, df["gdp_per_capita"])

gdp per capita diagram pandasql + matplotlib

 

מגבלות

pandasql לא מאפשרת לעדכן או להוסיף נתונים למסד הנתונים.

 

לקריאה נוספת

18 פעולות שאתה צריך להכיר כשאתה עובד עם Pandas של Python

12 דברים שאתה חייב לדעת כשאתה מייצר תרשימים באמצעות matplotlib של python

מודלים ללמידת מכונה של SciKit-Learn

 

לכל המדריכים בנושא של למידת מכונה

 

אהבתם? לא אהבתם? דרגו!

0 הצבעות, ממוצע 0 מתוך 5 כוכבים

 

 

הוסף תגובה חדשה

 

= 5 + 9