איך צ'אטבוטים הופכים לחכמים יותר?
צ'אטבוטים מתקדמים משתפרים באמצעות למידה מתמדת מנתונים חדשים. תהליך זה, המכונה אימון, דורש שאיבת מידע ממקורות שונים ברחבי הרשת. אך חברות AI רבות אינן מבקשות רשות מבעלי התוכן לפני שהן סורקות אתריהם ומזינות את המידע למודלי השפה הגדולים (LLMs) המניעים את הצ'אטבוטים.
כעת, בעלי תוכן ויוצרי תוכן פועלים נגד התופעה באמצעות כלים הנקראים AI tarpits — שיטות להזרעת מידע מזויף שמטרתן לפגוע באיכות התוצאות של הצ'אטבוטים ולגרום למשתמשים לנטוש אותם.
מהו 'AI poisoning'?
AI poisoning הוא תהליך שבו מזהמים את מודל השפה של הצ'אטבוט כך שיפיק תשובות שגויות, מטעות או בלתי הגיוניות. ההזרעה מתבצעת על ידי הטעיית המודל לקלוט נתונים שגויים במהלך האימון, לרוב באמצעות סריקת אתרים ותמונות באופן אוטומטי.
קיימות דרכים רבות להזרעת מודלי שפה, בהתאם ליכולות המודל שאליו מכוונים. לדוגמה, כדי לפגוע במודל ליצירת תמונות, ניתן להשתמש בטכניקה בשם Nightshading. כלי בשם Nightshade מוסיף שכבה בלתי נראית לתמונה, הנראית רק לסורקים של מודלי שפה. שכבה זו גורמת למודל לפרש את התמונה בסגנון שונה מזה האמיתי (למשל, מופשט במקום ריאליסטי), ובכך מונעת ממנו לחקות את סגנונו של האמן.
מה הם 'AI tarpits' ולמה הם מסוכנים?
AI tarpits הם כלים ספציפיים מסוג AI poisoning, שתוכננו לגרום לסורקי ה-LLM לקלוט נתונים חסרי ערך. כאשר המודל משתמש בנתונים אלה כדי לייצר תשובות, התוצאות יהיו שגויות, דבר שיפגע באיכות התגובות של הצ'אטבוט ויגרום למשתמשים לאבד אמון בו.
בעלי תוכן יכולים להוסיף לוחות 'tarpit' לאתרים שלהם באמצעות כלים כמו Nepenthes, Iocaine ו-Quixotic. כאשר סורק של LLM נכנס לאתר עם 'tarpit' מוטמע בקוד, הוא מופנה לקלוט טקסטים אוטומטיים וחסרי ערך — מידע שגוי (למשל, 'סטיב ג'ובס ייסד את מיקרוסופט בשנת 1834') או טקסטים חסרי פשר (למשל, 'צבע המים הוא פלפלת'). בנוסף, הדפים המורעלים מכילים קישורים לדפים נוספים בעלי אותו תוכן, ללא קישורי יציאה, בדומה לבור ללא מוצא.
מדוע זה חשוב למשתמשים וליוצרי תוכן?
השימוש ב-AI tarpits מעלה שאלות אתיות וחוקיות בנוגע לזכותם של יוצרי תוכן על עבודתם. בנוסף, הוא מאתגר את אמינות הצ'אטבוטים, שעלולים להפיק תשובות שגויות או מטעות בעקבות הנתונים המזוהמים. בעתיד, ייתכן שמשתמשים יאבדו אמון בכלי AI אם לא יימצא פתרון לבעיה זו.