במסגרת שיתוף פעולה מיוחד בין החברות הישראליות D-ID ו- MyHeritage נוצרו עד כה למעלה מ-103 מיליון סרטונים נוסטלגיים. משתמשים העלו תמונות של בני משפחה שעברו מן העולם ובעזרת הטכנולוגיה הייחודית של D-ID הפכו אותם לסרטוני וידאו קצרים, אשר יצרו את הסנסציה הויראלית Deep Nostalgia שזכה לחשיפה בינלאומית עצומה בכל כלי התקשורת המרכזיים.
D-ID פיתחה במשך מספר שנים מנוע עוצמתי לניתוח תמונות פנים המסוגל לייצר וידאו מתוך תמונה בודדת. כדי להבין יותר לעומק את הטכנולוגיה והיישומים שלה, ישבנו לשיחה עם יניב לוי, VP Product Marketing בחברה, שמעסיקה כבר 43 עובדים בתל אביב וגייסה עד היום 48 מיליון דולרים.
מה הפתרון הטכנולוגי של D-ID בעצם עושה?
"הפיתוח של D-ID התחיל עוד ב-2017 סביב הרעיון של המייסדים לאפשר פרסום של תמונות ברשתות חברתיות מבלי שיהיה אפשר לזהות אותן באופן אוטומטי על ידי מערכות זיהוי פנים. זה הגיע מהמקום של שמירה על פרטיות. הטכנולוגיה הוסיפה לתמונה מידע שהוא בלתי נראה לעין אנושית, אבל כזה שמונע זיהוי על ידי מערכות אוטומטיות. בשלב מסוים, החלטנו לשנות את המיקוד העסקי לתחום של יצירת סרטונים מתמונות, וזאת בזכות כל הידע שצברנו על יכולות זיהוי פנים ותנועה של פנים והיכולת שלנו להבין איך להציג אותם בצורת וידאו".
אז מה מאפשרת המערכת שלכם היום?
"כיום אנחנו מציעים לכל אחד לקחת תמונת סטילס ולהפוך אותה בתוך שניות לסרטון וידאו של דמות זזה ומדברת. הפתרון שלנו גם מאפשר להפוך טקסט כתוב לאודיו, באמצעות קול מלאכותי או באמצעות שימוש בקול של המשתמש לאחר ביצוע הקלטה או לקיחת דגימת קול. בזכות היכולות הללו ניתן ליצור סרטון וידאו שלם ע"ב תמונה בודדת, בלי להזדקק לאולפן צילומים או הקלטות, שחקנים, עריכה או כל שירות מקצועי אחר. התהליך כולו נעשה דרך הפלטפורמה שלנו, בצורה ידידותית למשתמשים בכל הרמות בארגון. זה פתרון אידיאלי לארגונים שמשתמשים בסרטונים לטובת הטמעה במערכות השונות שלהם כמו הדרכה ארגונית, תקשורת פנים ארגונית, קורסים בפלטפורמות לימוד עצמי ותחומים רבים נוספים".
איך הלקוחות שלכם משתמשים במערכת?
"בתחום ההדרכה הארגונית, הלקוחות שלנו יכולים ליצור מצגות הדרכה לעובדים חדשים, כאשר בקליקים בודדים ובעזרת מספר תמונות הם יכולים ליצור סרטונים ולהתאים את זהות המציג לצרכיהם – גבר, אישה, חבר צוות מקומי או מומחה זר. את הישראלים ידריך ישראלי בעברית, ואת האמריקאים תדריך אמריקאית באנגלית או כל מה שמתאים למיקום גיאוגרפי, שפה מדוברת או תרבות מקומית. מחקרים מראים שהנוכחות של דמות שניתן להזדהות איתה מעלים את המעורבות ורמת הלמידה של הצופה בצורה משמעותית. היכולת הזאת מאד חשובה היום לארגונים ששמים דגש על קידום ערכי הכלה ושוויון. לקוח אחר שלנו, שמציע קורסים בתשלום לקהל הרחב, עבר מקצב של הפקת 5 קורסים בחודש ליותר מ-100. מהרגע שיש לו את חומר הגלם לקורס, הוא יכול להפיק קורס וידאו במגוון אפשרויות ושפות, תוך חסכון כספי בכל תהליך ההפקה".
אחת הבעיות הגדולות בתעשייה של מדיה סינתטית היא פייקים ויצירה של דמויות וירטואליות. איך אתם מתמודדים עם התופעה הזאת?
"אנחנו מתחילים קודם כל בהכרות עם הלקוח והצרכים שלו. לקוחות שרוצים לנצל את זה לצרכים לא ראויים כמובן נפסלים על הסף. לאחר מכן, אנחנו אוכפים את זה ברמת החוזה, כאשר הלקוח מתחייב לא לעשות שימוש לרעה בטכנולוגיה ולהימנע מלהשתמש בה לייצור תכנים למבוגרים, תכנים פוליטיים וכמובן תכנים שעלולים להטעות או להרע למישהו. אם מישהו מעלה תמונה של סלב ומבקש לייצר ממנו סרטון, המערכת שלנו מזהה וחוסמת את זה. באותה מידה אנו מנהלים גם ניטור מתמיד לגבי שימוש בשפה לא נאותה או דברים בעייתיים אחרים. לשמחתי, עד עכשיו אנחנו מצליחים להתמודד עם זה בצורה מצוינת".
איך אתם רואים את העתיד של D-ID, לאן אתם מכוונים?
"מעבר לתחומים שכבר ציינו, אין ספק שהעתיד נמצא בעולמות המטאוורס. גם אם כרגע קשה לחזות איך בדיוק העתיד הזה ייראה, ברור לנו שלכל אחד ואחת מאיתנו יהיה ייצוג דיגיטלי שיהיה מבוסס על דמות שתהיה בווידאו ותנוע באופן חופשי. הטכנולוגיה שלנו נמצאת כבר בדרך לשם, כאשר אנחנו כבר מסוגלים מתמונה בודדת ליצור דמות של חצי גוף ובקרוב גם גוף שלם, והיכולת שלנו רק הולכת ומשתפרת. אנחנו בוחנים כמה אפשרויות בתחום הזה, אבל אני מאמין שככל שהשוק הזה יצמח, אנחנו נהיה במקום שנוכל לשלב בו את הפתרונות שלנו".
היכולות של D-ID הן מרשימות מאוד, על איזו פלטפורמה מבוססת הטכנולוגיה שלכם?
"מהרגע הראשון בחרנו בשירותי הענן של AWS. זאת הייתה הבחירה של צוות הפיתוח שלנו, שעמדו בפניו גם אפשרויות אחרות. כל סביבות הפיתוח והריצה מבוססות על AWS. אנחנו משתמשים בארכיטקטורה של Serverless שמבוססת על שירותים כמו AWS Lambda ו-Amazon API Gateway. שירותים כאלו חוסכים לנו עלויות בצורה משמעותית, ומבטיחים זמן תגובה מינימלי ללקוח. בנוסף אנחנו משתמשים ב-Amazon SageMaker כדי לאמן את המודלים שלנו, בשילוב עם שירותים כמו Amazon Rekognition ו-Amazon Polly שמקצרים לנו משמעותית את זמן הפיתוח עם יכולות זיהוי תמונה וזיהוי דיבור שאנחנו יכולים לבנות על בסיסם את הפתרון שלנו".