מאת : תום משה, מנהל פעילות Trifacta, ב-aQurate מקבוצת UCL
בעולם של ימינו, המון Buzzwords בתחומי הדאטה נזרקים לאוויר באופן קבוע – A.I, Machine Learning, Models, Data Analytics ועוד.
העובדה המשותפת לכל התחומים הללו, היא שעל מנת להפיק בהם תוצרים ששווים משהו – קיים צורך במידע מעובד, נוח ומותאם לצריכה. כל אדם שבתפקידו עובד עם דאטה יודע כמה שתהליך הכנת הדאטה (Data Prep) לוקח חלק נכבד מזמן העבודה. מדען הנתונים הראשי לשעבר של ארה"ב, DJ Patil, אמר בעצמו ב2016 – "80 אחוז מכל פרויקט דאטה הוא ניקוי הדאטה".
אם כן, העוסקים בדבר יודעים שהכנת הדאטה וטיובו הוא תהליך ארוך ומסורבל, וישנם שלבים רבים ושאלות שצריכות מענה על מנת שהתהליך יבוצע כראוי:
- מושקע זמן רב בהבנת הדאטה על ידי חקירה ידנית הבודקת –
- כמה רשומות ועמודות יש?
- מה סוגי המידע שאנו עובדים עליהם?
- כמה ערכים שאינם תקינים יש, מה נרצה לעשות איתם וכו'
- איך נרצה לעצב את הדאטה שלנו, מה תהיה הצורה הסופית שלו?
- מה נרצה לנקות בדאטה שלנו?
- כיצד נרצה להעשיר אותו?
- איך נוודא שאכן עיבדנו את הדאטה בצורה שרצינו?
- איך נריץ בפועל את כל התהליך שעברנו?
על אף ששלבים אלו חוזרים בכל תהליך הכנת נתונים, בכדי להגיע לתוצאה הרצויה הביצוע יכלול לרוב מספר איטרציות של ניסוי וטעיה. בנוסף על כך צריך לזכור – במהלך ביצוע כל אחד מהשלבים הללו, כל בדיקה/תיקון/עיבוד לדוגמא שנרצה לבצע בעתיד, ידרוש מאיתנו לרוץ על הדאטה מספר פעמים נוספות, על מנת לקבל חיווי האם הפעולות המבוקשות שלנו התבצעו כראוי. וגם אז, כאשר נריץ את התהליך הסופי, לא פעם נקבל שגיאות שישלחו אותנו חזרה לעבור על כל העבודה שעשינו רק כדי להבין למה זה לא עובד.
התהליך של הכנת הדאטה כמתבקש, אורך זמן רב ובהרבה ארגונים עוד דורש עבודה מקיפה ומדויקת של מהנדסי נתונים או אנשי IT כך שהם הופכים לצוואר בקבוק. תהליך זה מעכב את הארגון ומונע ממנו להיות גמיש ולהתנהל ביעילות. נקודה חשובה נוספת היא, שלא פעם נגרמות טעויות מהותיות בעיבוד הדאטה בגלל חוסר הידע העסקי של הגורמים הטכניים במידע עליו הם עובדים ובתהליכים העסקיים בארגון, מה שעלול שוב לגרום לנו להתחיל את כל התהליך מההתחלה.
מדובר בהליך ארוך ומייגע שרק בסופו אפשר בכלל להתכנס למטרה האמיתית שלשמה התחלנו את העבודה – להפיק תובנות מהדאטה!
בנקודה זו עמדה חברת Trifacta, אשר פיתחה כלי להכנת נתונים המבוסס על בינה מלאכותית (AI), ונתנה מענה בהבניית הליכים אוטומטיים ובניית חוקים המקצרים את עבודת ההכנה בצורה משמעותית, מדייקים אותה ומצמצמים את מרווח הטעויות.
החברה בנתה את הכלי שלה לבעלי תפקיד עסקיים כלומר – אנליסטים, מדעני נתונים ולעיתים אף מהנדסי נתונים – כאשר כל אחד מהם מבין את המידע שהוא עובד עליו ואת המהות שלו. הכלי מאפשר לבצע תהליכי גילוי, ניקוי, עיבוד והעשרה של הדאטה לקראת צריכה – ללא התערבות אותם גורמי טכניים (אך כן תחת בקרה מצידם) העלולים להוות צוואר בקבוק, שכן הוא בהגדרתו כלי No Code כלומר אינו דורש ידע או כתיבה של קוד.
הכלי הוא כלי ELT, כאשר החוזק שלו הוא היכולת לבצע טרנספורמציות חכמות על הדאטה. Trifacta מאפשרת לנו לראות Preview שיציג מה יהיו ההשפעות של הפעולה שנרצה לבצע לפני שאנחנו מבצעים אותה בפועל, מציעה לנו צעדי המשך וטרנספורמציות מבוססות AI, פרופיל על המידע שלנו ועוד. השאלה היא לא בהכרח "האם ניתן לבצע זאת ללא Trifacta", אלא "איך זה יראה בלעדיה".
כלומר, במקום לבזבז זמן יקר על הבנת המידע, על הרצה חוזרת של תהליכים לצורך בקרה וחיווי (במיוחד כאשר מדובר בכמויות עצומות של מידע), לבדוק מה הדרך הנכונה ביותר לבצע את אותם תהליכי עיבוד המידע בקוד, להשקיע זמן עבודה של גורמים טכנים ולעיתים גם הגורמים העסקיים (שכן אנו צריכים גם את הידע הטכני של אחד וגם את הידע העסקי של השני) Trifacta מנגישה למשתמש העסקי את היכולות הטכניות, בצורה פשוטה, נוחה ואינטואטיבית, כאשר למשתמש הטכני יש יכולת בקרה במקרים הנדרשים.
סגירת הפער בין הביזנס ל-IT
לדברי אור מזרחי, מנהלת מכירות ב-aQurate, לא בכדי טריפקטה נמצאת במובילי שוק בשנים האחרונות. היא הוכרה על ידי חברות מחקר כמו פורסטר וG2, וגם Google בחרה בTrifacta ככלי הData-preparation שלה. טריפקטה מאפשרת לגורם העסקי, שמכיר את הדאטה שלו, יכולת לעבוד עליו באופן עצמאי וכל זאת תוך בקרה של הIT. על ידי כך Trifacta סוגרת את הפער בין הביזנס לIT- ומאפשרת אמת ארגונית אחת, ללא בניית Shadow IT ופיתוחי דוחות עצמאיים כפי שקיימים כיום בארגונים. Trifacta משתמשת ברכיבי ML, לומדת את צעדי וצורת החשיבה של המשתמש ואף את הצוות שלו בארגון. בעזרת כל אלה, טריפקטה מאפשרת Time to Market מהיר ומקצרת את הזמן היקר המבוזבז בפרוייקטי דאטה על השלבים של ארגון, הבנת המידע והכנת המידע.