Microsoft Research יוצר מערכת המסוגלת לייצר כיתובים "חכמים" באופן אוטומטי

תוכן עניינים:

ממה זה מורכב

בוודאי נתקלתם בכיתוב מבלבל, שגוי או אומר מעט על התמונה שאליה הוא מתייחס; וייתכן אפילו שאם אתה מתמסר לפרסום מאמרים משלך, אתה מוצא שהכי מייגע למלא את הסעיף הזה. ובכן, האנשים מרדמונד יצרו כלי שמטרתו להקל עליכם.

עבודה שפורסמה על ידי Microsoft Research שמתארת את עצמה כ"מערכת לייצור כיתובים" המסוגלת לחקות את המאפיינים הנרטיביים של השפה האנושית, כלומר, טכנולוגיה שיכולה לתאר צילומי מסך כאילו על אחד מאיתנו, עם ההקשר המתאים לו.משהו שחברות כמו פייסבוק, מיקרוסופט וגוגל עבדו עליו כבר זמן מה, אבל הפעם זה עולה על הציפיות.

ממה זה מורכב

הוא נהנה

באופן זה, למערכת יש את היכולת אפילו לספר סיפור שלם ממספר תמונות, לתאר אותו ולספר אותו כאילו זה היה ספר. כלי עזר שלפי מומחים עלול להפוך בסופו של דבר לתכונה המספקת מגע אנושי יותר ליישומים מסוימים, יישומי זיהוי קולי, ייצור אוטומטי של תיאורים בתחומים אחרים ועוד הרבה יותר.

והעובדה היא ש-כלי אינו מוגבל לומר בקצרה את מה שהוא "רואה", אלא מספק מידע רחב יותר ההקשר של המצב המשתקף בתמונה, השגת "הקשר נרטיבי וסגנון קריינות ייחודי", הסביר פרנק פרארו, אחד ממחבריה של עבודה זו.כדי להכניס את עצמנו למצב, הוא נותן לנו דוגמה ברורה

אמא שלו הייתה גאה בו

לכן, אנחנו מציעים את המקרה הבא: "בוא נדמיין שיש לנו אלבום תמונות של כמה חברים שחגגו יום הולדת ב- פָּאבּ. חלק מהתמונות הראשונות מציגות אנשים מזמינים בירה ושותים אותה, בעוד שבאחרונות נראה מישהו ישן על ספה", הוא מעיר.

מערכת קונבנציונלית "יכולה פשוט להצביע על משהו כמו שיש אדם שוכב על ספה, בעוד שהמערכת שלנו יכולה לכלול שהוא כנראה במצב הזה כי הוא שיכור אחרי כמה משקאות". תוספת המספקת הבנה ומטען רגשי מסוים שבא לידי ביטוי גם דרך התמונות וכיתובי התמונות הכלולים במאמר זה.

Via | סקירת טכנולוגיית MIT

ב-Xataka Windows | מיקרוסופט משיקה אפליקציה הקובעת את גזע הכלב שלך

תוכן עניינים:

ממה זה מורכב

בחירת העורכים