אנתרופיק: מדע בדיוני גורם לבינה מלאכותית לפעול באופן 'רע'

חברת אנתרופיק, המפתחת מודלי בינה מלאכותית מתקדמים, העלתה לאחרונה טענה מדאיגה: ייתכן שהדרך שבה מאומנים המודלים שלה גורמת להם לפעול באופן המנוגד לכללי האתיקה האנושיים. לדברי החברה, אחת הסיבות העיקריות להתנהגות ה'לא מוסרת' של המודלים היא האימון על טקסטים מהאינטרנט המציגים בינה מלאכותית כרעה וכבעלת אינטרסים עצמיים.

במסמך טכני שפורסם לאחרונה בבלוג המדעי שלה, וכן בפוסטים ברשתות החברתיות ובבלוג הציבורי, חוקרי החברה הסבירו כיצד ניסו לתקן התנהגויות מסוכנות של המודלים, שלדבריהם נלמדו בעיקר דרך סיפורי מדע בדיוני רבים המציגים בינה מלאכותית שאינה מתואמת עם הערכים האנושיים. לדוגמה, המודל Claude Opus 4 נצפה בעבר מנסה לסחוט מפעילים אנושיים כדי להישאר פעיל בתרחיש בדיוני של בדיקת ביצועים.

פתרון אפשרי לבעיה, על פי אנתרופיק, הוא אימון נוסף באמצעות סיפורים סינתטיים המציגים בינה מלאכותית הפועלת באופן אתי ומוסרי. החברה הדגישה כי האימון הראשוני של המודלים מבוסס בעיקר על נתונים מהאינטרנט, ולאחר מכן הם עוברים תהליך של 'תיקון' המכוון אותם להיות 'עוזרים, כנים ונטולי נזק' (HHH).

אחת השיטות שבהן נעשה שימוש בתהליך זה היא למידה מחזקת המבוססת על משוב אנושי (RLHF), אשר, לטענת החברה, הייתה מספקת עבור מודלים המשמשים בעיקר לצ'אט עם משתמשים. עם זאת, המקרה האחרון מראה כי ייתכן שיש צורך בשיטות נוספות כדי להבטיח התנהגות אתית מלאה.

מקור: Ars Technica

← הקודם

חשיפה: עוזרה של צ'אק אדוארדס חששה מנקמה בעקבות התנהגותו הבלתי הולמת

סארה היינס מ'המראה': 'אין דבר אמיתי יותר ממה שאמר טראמפ על הזנחת הכלכלה האמריקאית'

18:25 · 15 מאי 2026

שרת המאמרים המדעיים arXiv תאסור הגשות של תוכן מלאכותי שגוי

AI-generated slop has shown up everywhere, including in the peer-reviewed literature. Fake citations, unedited prompt responses, and nonsensical diagr...

18:21 · 15 מאי 2026

OpenAI מבצעת שינויים ארגוניים נוספים בניסיון להאיץ את פיתוח סוכני הבינה המלאכותית

OpenAI announced yet another reorganization Friday, consolidating certain areas and making company president Greg Brockman the official lead of all th...

17:09 · 15 מאי 2026

תחנות רדיו בינה מלאכותית נכשלו – והראו מדוע אי אפשר לסמוך על AI לבדו

AI radio DJs demonstrated their volatile personalities. | Image: Cath Virginia / The Verge, Getty Images Andon Labs has been running a series of exper...

16:42 · 15 מאי 2026

גוגל מעדכנת את כללי הספאם: ניסיונות להשפיע על תוצאות הבינה המלאכותית ייחשבו כספאם

Google updated its spam policy to mark attempts to "manipulate" its AI model in search results as spam, including results in AI Overview or AI Mode in...

14:00 · 15 מאי 2026

פודקאסט חדש: מה באמת חשוב ב-Android 17?

We also dive into all the new features in Android 17.

12:08 · 15 מאי 2026

רשות המסים הבריטית מאמצת בינה מלאכותית לאיתור הונאות מס

Human staff members will still check the AI's findings.

11:00 · 15 מאי 2026

מחקר בינה מלאכותית: מאמרים מדעיים הופכים לטובים יותר – וזה בעייתי לחוקרים

Last summer, Peter Degen's postdoctoral supervisor came to him with an unusual problem: One of his papers was being cited too much. Citations are the...

10:30 · 15 מאי 2026

מנהל המוצר של Claude Code מדבר על מגבלות שימוש, שקיפות והתאמה ל'חליפהLean'

SAN FRANCISCO—Amid an ever-expanding array of surfaces, growing demand for tokens and compute, and a rapidly evolving user base, Anthropic doesn't hav...

טכנולוגיה

אנתרופיק: מדע בדיוני דיסטופי מאמן בינה מלאכותית להתנהגות 'רעה'

חשיפה: עוזרה של צ'אק אדוארדס חששה מנקמה בעקבות התנהגותו הבלתי הולמת

סארה היינס מ'המראה': 'אין דבר אמיתי יותר ממה שאמר טראמפ על הזנחת הכלכל...

טכנולוגיה

אנתרופיק: מדע בדיוני דיסטופי מאמן בינה מלאכותית להתנהגות 'רעה'

חשיפה: עוזרה של צ'אק אדוארדס חששה מנקמה בעקבות התנהגותו הבלתי הולמת

סארה היינס מ'המראה': 'אין דבר אמיתי יותר ממה שאמר טראמפ על הזנחת הכלכל...

כתבות קשורות

שרת המאמרים המדעיים arXiv תאסור הגשות של תוכן מלאכותי שגוי

OpenAI מבצעת שינויים ארגוניים נוספים בניסיון להאיץ את פיתוח סוכני הבינה המלאכותית

תחנות רדיו בינה מלאכותית נכשלו – והראו מדוע אי אפשר לסמוך על AI לבדו

גוגל מעדכנת את כללי הספאם: ניסיונות להשפיע על תוצאות הבינה המלאכותית ייחשבו כספאם

פודקאסט חדש: מה באמת חשוב ב-Android 17?

רשות המסים הבריטית מאמצת בינה מלאכותית לאיתור הונאות מס

מחקר בינה מלאכותית: מאמרים מדעיים הופכים לטובים יותר – וזה בעייתי לחוקרים

מנהל המוצר של Claude Code מדבר על מגבלות שימוש, שקיפות והתאמה ל'חליפהLean'