מיקרוסופט מכריזה שטכנולוגיית זיהוי הדיבור שלה מפחיתה את שיעור השגיאות שלה והיא יעילה כמו בני אדם

זהו אחד מעמודי התווך שעליהם רבים מאשרים שהפלטפורמות השונות יצמחו בעתיד המיידי. אין מה לקיים אינטראקציה עם פקודות כתובות או מחוות. העתיד טמון בדיבור עם מכונות אבל בלי דיבור עם פקודות רובוטיות ופקודות לא טבעיות. נעשה את זה בשפה טבעית, משהו שאנחנו מעריכים יותר ויותר בעוזרים אישיים."

ואחת החברות שיש להן קריירה בולטת ביותר במובן הזה היא מיקרוסופט, חברה שיש לה נתיב פיתוח שבו היא פועלת לשיפור מתמיד של זיהוי הקול של עובדים אז בפלטפורמות שלהם.טכנולוגיה שעכשיו יש לנו חדשות עליה מצוות הפיתוח, חדשות שמדברות על שיפור גדול שמציב אותה באותה רמת דיוק כמו זו שנהוגה בקרב בני אדם

במובן הזה הם הודיעו ש-מערכת הזיהוי הקולי שלהם הגיעה ל-5.1% ב-WER, כלומר הטעות בשיעור של המילה בשימוש. עבור רבים זה אולי לא אומר כלום, אבל זה מפתיע אם נראה איך מצד אחד השיעור הזה זהה לזה שאנו מוצאים בתקשורת בין אנשים

כדי לעשות זאת, מרדמונד בחרו לעשות שימוש במודלים משופרים של שפה מילולית ואקוסטית המבוססים על שימוש ברשתות עצביותאלה הם משולבים עם זיכרון דו-כיווני ארוך טווח כך שהמודל האקוסטי משופר, ובכך משפר את הזיהוי הודות לחיזוי של המילים שניתן להשתמש בהן בהתבסס על היסטוריית תקשורת.לשיפורים הללו יש גם תמיכה של הענן הודות למאמץ שהחברה עשתה לשפר את תשתית מחשוב הענן, במיוחד עם Azure.

בנוסף, זה גרם לכך ש-שיעור השגיאה הזה ירד במונחים של מרווח הכשל, מאז לפני שהיה בשעה 5.9%, ובכך ירד מ-12%, שהיה הנתון שהיה למערכת לפני פחות משנה. לכן, מיקרוסופט השיגה מערכת זיהוי דיבור יעילה כמו זו של בני אדם ולראות את ההתקדמות שהם לוקחים, אין זה מפתיע שהם אפילו ישפרו אותה בחודשים או בשנים הקרובות.

מי יודע אם בעוד כמה שנים מהיום לדבר עם Windows PC שלנו, אינטראקציה עם Cortana, או יישומים כמו Office, יהיה משהו טבעי כמו מה שהם כבר גרמו לנו לחלום (או לחלום סיוטים, מי יודע) בקולנוע.

בקסאטקה | הם לא קולות מעבר לקבר, הם פקודות נסתרות שעוזרי קול מזהים ובני אדם לא

בחירת העורכים