עיבוד שפה טבעית - (Natural Language Processing (NLP
מאת: ענת ביילסקי

 הבנת השפה האנושית הינה נושא מורכב, שכן אנו מבטאים את עצמנו בדרכים שונות ומשונות הן בעל פה והן בכתב. ישנן מאות שפות ולכל אחת מהן כללי דקדוק ותחביר משלה, סלנג משלה ועוד. בנוסף לכך, כאשר אנו כותבים, אנו לעתים נוטים להשתמש בקיצורי מילים ולהשמיט פיסוק. גם כאשר אנו באים לבחון את האופן בו אנו מדברים ומשוחחים עולים אתגרים רבים בניתוח השפה שכן ישנם מבטאים שונים לאנשים מאזורים שונים , הם עלולים למלמל , הם לעיתים משאילים מונחים משפות ועוד.

 

עיבוד שפה טבעית (Natural Language Processing (NLP הינו ענף של בינה מלאכותית המסייע למחשבים להבין, לפרש ולנתח את השפה האנושית. ענף זה מסייע למחשבים לתקשר עם בני אדם בשפה שלהם, ולמדוד נתונים לא מובנים ((Unstructured data הקשורים לשפה. כך לדוגמה, NLP מאפשר למחשבים לקרוא טקסט, לשמוע דיבור, לפרש אותו, למדוד רגש ולקבוע אילו חלקים חשובים בטקסט.

 

אלו סוגי נתונים קיימים הניתנים לבחינה וניתוח?

  • נתונים מובנים - נתונים מאורגנים בפורמט סדור. לדוגמא, נתונים בטבלת ם SQL עם שורות ועמודות. יש להם מפתח יחסיים והוא יכול להיות ממופים בקלות.
  • נתונים מובנים למחצה - מידע שאינו נמצא במסד נתונים מובנה, אך יש לו מאפיינים ארגוניים מסוימים המקלים על הניתוח. כך שבאמצעות עיבוד מסוים ניתן להכניסם להקשר מסוים. לדוגמא, נתוני XML.
  • נתונים בלתי מובנים - נתונים שאינם מאורגנים בצורה מוגדרת מראש או שאין להם מודל נתונים מוגדר מראש החל לדוגמא מטקסטים מתוך רשומות רפואיות ועד טקסטים הנכתבים בערוצים השונים של המדיה החברתית.

המחשבים של היום בעלי יכולת נתח נתונים מבוססי שפה יותר מאשר בני אדם, זאת בהתחשב בכמות העצומה של נתונים לא מובנים שנוצרים מדי יום. האוטומציה הינה קריטית לניתוח נתוני טקסט ודיבור ביעילות.

 

למה משמש ה-NLP?


טכנולוגיית ה-NLP מהווה חלק חשוב ביישומי הבינה המלאכותית (Artificial Intelligence). חלקם מיישמים למידת מכונה משולבת NLP עבור מקרים כדוגמת איתור הונאות, ניתוח סיכונים, ניתוח התנהגות לקוחות, ושימוש ב-Chatbots.

 

אחד השימושים הנפוצים ביותר בשימוש ב-NLP הינו עבור יישומי החיפוש השונים, בין אם טקסטואליים ובין אם חיפושים קוליים (להרחבה בנושא זה). מנוע החיפוש משתמש בעיבוד שפה טבעית כדי לנתח את השאילתה ולאחזר את התשובות הרלוונטיות ביותר. אם בעבר המשתמשים היו צריכים לכתוב בשורת החיפוש מילות מפתח, כיום יותר ויותר ניתן להשתמש במשפטים מורכבים אשר על בסיסם מתבצע החיפוש. במקרים של חיפושים המתבצעים באמצעות קול, שאלת החיפוש נאמרת באמצעות הקול, קובץ האודיו מעובד על ידי ממשק הממיר דיבור לטקסט תוך סינון רעשי רקע, מנתח אותו כדי למצוא את הפונמות השונות, מתאים אותו למילים וממיר את המילה המדוברת למשפט אשר הופך לשאילתה. השאילתה נשלחת למערכת וחוזרת עם התשובה.
כאשר המשתמשים יכולים לדבר עם מכשירים כדוגמת Siri ו-Alexa בדיוק כמו שהם מדברים על החברים שלהם, יותר אנשים יכולים לקבל ערך רב יותר מן היישומים.

 

יכולת חילוץ המידע מתוך טקסט לא מובנה משמשת גם לישומים נוספים. כך לדוגמא, פייסבוק משתמשת בכלי בשם DeepText לניתוח הפוסטים המתפרסמים ברשת החברתית. DeepText הינו מנוע הבנת טקסט. הכלי יכול לזהות רגשות חיוביים או שליליים בתוך הפוסטים, לבצע תיוג אוטומטי וחילוץ נושאים מתוך הטקסטים. כל זאת במטרה להגיע לתובנות/מסקנות מתוך הטקסט, ובחלק מן המקרים, אף להפוך אותו לכדי פעולה ממשית (לדוגמא, מענה המחשב בשיחת Chabot).

 

גם ל-Google ישנם כלים לשימוש לעיבוד השפה הטבעית:

  • API Natural Language Cloud- שחלקו אף ניתן בחינם. כלי זה מאפשר לחשוף את המבנה ואת משמעות הטקסט. ניתן באמצעותו לחלץ מידע על אנשים, מקומות ואירועים, ולהבין טוב יותר את המידעים המועברים במדיה החברתית ואת שיחות הלקוחות, כלי זה מאפשר סיווג מסמכים ב -700 קטגוריות שהוגדרו מראש.
  • AutoML Natural Language- כלי לימוד מכונה לעיבוד שפה טבעית המאפשר יצירת מודלים מותאמים אישית לארגון לסווג, לחלץ, ולזהות אלמנטים שונים מתוך הטקסט.


אופן פעילות הכלי:

  1. המשתמש טוען את הנתונים השונים למחשב (התהליך מדויק יותר ככל שיש לנו מגוון רחב יותר של דוגמאות)
  2. המחשב מריץ את המודל המותאם לצרכיו
  3. הערכת התוצאות המתקבלות- אם התובנות המתקבלות אינן מספיק מדויקות יש לעדכן את המודל ולבדוק שוב את התוצאות.

 

מקור: https://cloud.google.com/natural-language/#how-automl-natural-language-works 

 

עיבוד שפה טבעית וניהול ידע:
כלי הבינה המלאכותית (ביניהם כלי עיבוד שפה טבעית) וניהול ידע סובבים סביב הטיפול ב"ידע" והמידע כמרכיב המרכזי. שניהם למעשה משולבים זה בזה, שכן ללא בסיס ידע אמין ומיפוי ראשוני של התבניות הנדרשות, המכונות לא יוכלו להרחיב, ליצור או להשתמש בידע בצורה אופטימלית. בנוסף לכך, תחום ניהול הידע ייצר את התהליכים האסטרטגיים הנדרשים על מנת להנגיש את הידע הנוצר בעקבות השימוש בכלים אוטומטיים ולהנגישם בצורה האופטימלית ביותר לכל הגורמים הרלוונטיים בארגון.

 

מקורות:
https://machinelearning.co.il/172/deeptext/ 
https://www.sas.com/en_us/insights/analytics/what-is-natural-language-processing-nlp.html 
https://cloud.google.com/natural-language/#how-automl-natural-language-works 
https://curatti.com/artificial-intelligence-knowledge-management/