heBERT - מודל Transformer בעברית

מחבר:

בתאריך: 26.08.2022

BERT הוא מודל מסוג Transformer לעיבוד שפות אנוש (NLP) שגוגל שחררו ב-2017. מאז המודל והטכנולוגיה הספיקו לשנות את העולם, ועכשיו אפשר ליהנות מיכולות המודל בעברית בזכות heBERT שיודע לעבוד עם עברית.

את המודל פיתחו אביחי שריקי וענבל יהב וניתן להוריד גרסה עובדת שלו מ-huggingface.co.

במדריך הזה אני סוקר בקצרה את יכולות המודל כמו שהוא, בלי אימון נוסף.

נתקין את ספריית transformers:

!pip install transformers -q

נייבא את המודל ואת הפונקציות הדרושות לעבודה איתו:

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("avichr/heBERT", model_max_length=512)
model = AutoModel.from_pretrained("avichr/heBERT")
  
from transformers import pipeline

ננסה להשלים מילים חסרות:

fill_mask = pipeline(
   "fill-mask",
   model="avichr/heBERT",
   tokenizer="avichr/heBERT"
)
fill_mask("את מביאה הכול לכדי דמעות [MASK] יפה כזה יכולנו לבלות")

[{'score': 0.35746055841445923,
  'token': 2392,
  'token_str': 'ביום',
  'sequence': 'את מביאה הכול לכדי דמעות ביום יפה כזה יכולנו לבלות'},
 {'score': 0.08805269002914429,
  'token': 2297,
  'token_str': 'במקום',
  'sequence': 'את מביאה הכול לכדי דמעות במקום יפה כזה יכולנו לבלות'},
 {'score': 0.052414100617170334,
  'token': 4165,
  'token_str': 'מיום',
  'sequence': 'את מביאה הכול לכדי דמעות מיום יפה כזה יכולנו לבלות'},
 {'score': 0.038756467401981354,
  'token': 3179,
  'token_str': 'יפה',
  'sequence': 'את מביאה הכול לכדי דמעות יפה יפה כזה יכולנו לבלות'},
 {'score': 0.024089902639389038,
  'token': 18,
  'token_str': '.',
  'sequence': 'את מביאה הכול לכדי דמעות. יפה כזה יכולנו לבלות'}]

התוצאה הראשונה כבר נתנה את מילות השיר "מביאה הכל" של שלום חנוך.

התוצאות היו פחות טובות כשניסיתי עם משפט שדרש הנגדה:

fill_mask("אז מי היה צודק ומי [MASK] זאת סתם אדמת טרשים שאין לה שם")

[{'score': 0.14802031219005585,
  'token': 1794,
  'token_str': 'בכל',
  'sequence': 'אז מי היה צודק ומי בכל זאת סתם אדמת טרשים שאין לה שם'},
 {'score': 0.14772726595401764,
  'token': 3978,
  'token_str': 'עשה',
  'sequence': 'אז מי היה צודק ומי עשה זאת סתם אדמת טרשים שאין לה שם'},
 {'score': 0.13819213211536407,
  'token': 2243,
  'token_str': 'אמר',
  'sequence': 'אז מי היה צודק ומי אמר זאת סתם אדמת טרשים שאין לה שם'},
 {'score': 0.1298421323299408,
  'token': 9215,
  'token_str': 'שעשה',
  'sequence': 'אז מי היה צודק ומי שעשה זאת סתם אדמת טרשים שאין לה שם'},
 {'score': 0.025245333090424538,
  'token': 3215,
  'token_str': 'עושה',
  'sequence': 'אז מי היה צודק ומי עושה זאת סתם אדמת טרשים שאין לה שם'}]

את המשפט לקחתי מהשיר "שקיעה אחת" של אדם. המילה החסרה היתה "אשם" המנוגדת ל"צודק". אבל המודל חישב ומצא מילים אחרות.

נעשה אנליזת סנטימנט:

from transformers import AutoTokenizer, AutoModel, pipeline
tokenizer = AutoTokenizer.from_pretrained("avichr/heBERT_sentiment_analysis") #same as 'avichr/heBERT' tokenizer
model = AutoModel.from_pretrained("avichr/heBERT_sentiment_analysis")
 
# how to use?
sentiment_analysis = pipeline(
   "sentiment-analysis",
   model="avichr/heBERT_sentiment_analysis",
   tokenizer="avichr/heBERT_sentiment_analysis",
   return_all_scores = True
)

נשתמש בזה על המשפט:

sentiment_analysis('מעלה, מעלה, מעלה עם כל השירים והמנגינות מעלה, מעלה, מעלה שירו עוד ועוד')

[[{'label': 'neutral', 'score': 0.0005463630659505725},
  {'label': 'positive', 'score': 0.9990341663360596},
  {'label': 'negative', 'score': 0.0004194659704808146}]]

משפט מתוך שיר של צביקה פיק שהוא מאוד שמח נחשב על ידי המודל כביטוי חיובי.

sentiment_analysis('בעיניים של טוליק דמעות עגולות כי רינה הלכה לה לבד בחולות')

[[{'label': 'neutral', 'score': 7.132720929803327e-05},
  {'label': 'positive', 'score': 0.00011137524415971711},
  {'label': 'negative', 'score': 0.9998173117637634}]]

המשפט לקוח משיר עצוב "העיניים של טוליק" של אושיק לוי. נראה שלגבי המודל שמח הוא חיובי ועצוב הוא שלילי.

sentiment_analysis('מהדורה עברית חדשה וכריכה חדשה לכרך שסוקר את תרבות הנוער בשנות ה-50')

[[{'label': 'neutral', 'score': 0.9756031036376953},
  {'label': 'positive', 'score': 0.020170077681541443},
  {'label': 'negative', 'score': 0.004226813092827797}]]

המודל צודק. המשפט הוא בעל אופי ניטרלי.

ניסיתי לעשות אנליזה לחלקי דיבור NER:

NER = pipeline(
   "token-classification",
   model="avichr/heBERT_NER",
   tokenizer="avichr/heBERT_NER",
)
 
NER('משה שותה קפה')

התוצאה:

[{'entity': 'B_PERS',
  'score': 0.9480603,
  'index': 1,
  'word': 'משה',
  'start': 0,
  'end': 3}]

תודה רבה, אביחי וענבל.

מקור:

Chriqui, A., & Yahav, I. (2022). HeBERT & HebEMO: a Hebrew BERT Model and a Tool for Polarity Analysis and Emotion Recognition. INFORMS Journal on Data Science, forthcoming.

מדריכים נוספים שעשויים לעניין אותך בסדרה על למידת מכונה

נסיעת מבחן למערכת בינה מלאכותית לשכתוב תוכן של AI21 labs

זיהוי SMS ספאמי בעזרת בינה מלאכותית

סיכום מאמר ויקיפדיה באמצעות המודל המתקדם בעולם T5 של גוגל

לכל המדריכים בסדרה על למידת מכונה

אהבתם? לא אהבתם? דרגו!

0 הצבעות, ממוצע 0 מתוך 5 כוכבים

המדריכים באתר עוסקים בנושאי תכנות ופיתוח אישי. הקוד שמוצג משמש להדגמה ולצרכי לימוד. התוכן והקוד המוצגים באתר נבדקו בקפידה ונמצאו תקינים. אבל ייתכן ששימוש במערכות שונות, דוגמת דפדפן או מערכת הפעלה שונה ולאור השינויים הטכנולוגיים התכופים בעולם שבו אנו חיים יגרום לתוצאות שונות מהמצופה. בכל מקרה, אין בעל האתר נושא באחריות לכל שיבוש או שימוש לא אחראי בתכנים הלימודיים באתר.

למרות האמור לעיל, ומתוך רצון טוב, אם נתקלת בקשיים ביישום הקוד באתר מפאת מה שנראה לך כשגיאה או כחוסר עקביות נא להשאיר תגובה עם פירוט הבעיה באזור התגובות בתחתית המדריכים. זה יכול לעזור למשתמשים אחרים שנתקלו באותה בעיה ואם אני רואה שהבעיה עקרונית אני עשוי לערוך התאמה במדריך או להסיר אותו כדי להימנע מהטעיית הציבור.

שימו לב! הסקריפטים במדריכים מיועדים למטרות לימוד בלבד. כשאתם עובדים על הפרויקטים שלכם אתם צריכים להשתמש בספריות וסביבות פיתוח מוכחות, מהירות ובטוחות.

המשתמש באתר צריך להיות מודע לכך שאם וכאשר הוא מפתח קוד בשביל פרויקט הוא חייב לשים לב ולהשתמש בסביבת הפיתוח המתאימה ביותר, הבטוחה ביותר, היעילה ביותר וכמובן שהוא צריך לבדוק את הקוד בהיבטים של יעילות ואבטחה. מי אמר שלהיות מפתח זו עבודה קלה ?

השימוש שלך באתר מהווה ראייה להסכמתך עם הכללים והתקנות שנוסחו בהסכם תנאי השימוש.

heBERT - מודל Transformer בעברית

מדריכים נוספים שעשויים לעניין אותך בסדרה על למידת מכונה

נכתב ע"י יוסי בן הרוש

הוסף תגובה חדשה