לפני כשנתיים, כשהתחלתי לשאול את השאלה הזו, אף אחד בעולם התוכנה הארגונית לא רצה להתעסק בה: מדוע מודלים מתקדמים של בינה מלאכותית יכולים לפתור בעיות מתמטיות ברמה אולימפית, אך נכשלים במשימה פשוטה כמו הוצאת סכום מתוך חשבונית? זו לא שאלה תיאורטית עבורי. אני בונה תוכנות אוטומציה כבר עשרים שנה, וחברתנו מעבדת מיליארדי מסמכים עבור ארגונים מובילים בעולם. כן, יש לי עניין בתשובה. אבל עשרים שנות ניסיון עם מודלים בעולם האמיתי, ולא במעבדה, נותנות פרספקטיבה שונה. כשמודלים כאלה נכשלים במשימות פשוטות, זה מטריד.
התשובה המקובלת לשאלה שלי נשמעת כך: מתמטיקה היא בעיה של חשיבה, ובינה מלאכותית טובה בזה עכשיו. חשבוניות הן בעיה של תפיסה – פריסות מבולגנות, סריקות גרועות – ואנחנו רק צריכים מודלים טובים יותר. עוד דור אחד, עוד קצת זמן. אני חושב שהתשובה הזו שגויה.
המתמטיקה שמאחורי הטעויות
בואו נתחיל במתמטיקה, כי שם אנשים לרוב לא מבינים מה באמת קורה כשמודל של שפה גדולה פותר בעיה אולימפית. זה נראה כמו חשיבה מורכבת, אבל מתמטיקה תחרותית כוללת מאות טכניקות הוכחה שחוזרות על עצמן. 'בעיה חדשה' היא לרוב שילוב חדש של תבניות מוכרות. המודל למד עשרות אלפי הוכחות, והוא למד לשלב אותן היטב. קראו לזה התאמת תבניות מורכבת. שחמט הוא המקרה ההפוך: כל עמדת ביניים רצינית היא חדשה באמת. אפשר לדעת את כל התבניות והרעיונות הטקטיים, ועדיין לטעות בהערכת מהלך מסוים. הדרך היחידה לדעת היא לחשב את הקווים הקונקרטיים. מנועי שחמט פתרו את זה – על ידי בניית מערכת סביב הרשת העצבית, ולא על ידי הגדלת הרשת עצמה. ההבדל הזה חשוב יותר ממה שאנשים מבינים.
איפה הסכנה באמת מסתתרת
עבודות משרדיות רבות דומות יותר לבעיית המתמטיקה מאשר לשחמט. עיבוד תביעות, בדיקות ציות, סקירת מסמכי הלוואות – כולן כוללות יישום כללים מוכרים למקרים חדשים. מודל שפה יכול לטפל ב-85% עד 95% מהנפח – וזה ניצחון אמיתי. אבל הסכנה טמונה ב-5% עד 15% הנותרים: המקרים שבהם התבנית לא מתאימה. והדבר המסוכן הוא שהמודל לא יודע שהוא תקוע. הוא עדיין נותן תשובה בטוחה. במשך שנים בדקנו מודלים שונים לחילוץ נתונים ממסמכים – לא מקרי קצה, אלא חשבוניות רגילות. המשימה הפשוטה ביותר: לקרוא ערך ולהכניס אותו לשדה הנכון. ללא חשיבה, ללא שיפוט. רק לקרוא מספר. אפילו המודלים הטובים ביותר לא מגיעים לדיוק מלא. אדם פחות מנוסה יעשה זאת בקלות.
אני זוכר את הרגע שבו הבנו זאת לראשונה. חשבתי שזה באשמת הצינור שלנו. זה לא היה כך. בדקנו מודלים שונים – התוצאה הייתה זהה. וזה הדאיג אותי, כי לא צריך להגיע לחלק הקשה של התהליך – השיפוט, החריגים – כדי למצוא את הבעיה.
למה זה חשוב יותר ממבחני מתמטיקה
הטעות היא לחשוב שיכולת לפתור בעיות מתמטיות מורכבות מעידה על יכולת להתמודד עם משימות עסקיות יומיומיות. במציאות, רוב עבודת המשרד היא יישום כללים מוכרים על נתונים חדשים, לא יצירה מחדש של חשיבה מורכבת. כשמודל נותן תשובה בטוחה למרות שהוא לא מבין את הנתונים, זו הסכנה האמיתית. לא בכך שהוא לא יודע לפתור בעיה מתמטית, אלא בכך שהוא לא יודע מתי הוא לא מבין משהו פשוט.
הפתרון לא נמצא רק בגודל המודל או בכוח המחשוב. הוא טמון במערכות שמבינות מתי לבקש עזרה אנושית, במערכות שמזהות אי-ודאות ומסמנות אותה. בלי זה, גם הדור הבא של הבינה המלאכותית ייכשל במשימות הפשוטות ביותר – וזה עלול לעלות לעסקים הרבה יותר ממה שאנחנו חושבים.