GPT-5.5 מול Mythos Preview במבחני סייבר: מי מנצח?

בינה מלאכותית Anthropic טכנולוגיה אבטחת סייבר סייבר OpenAI GPT-5.5 Mythos Preview AISI מבחני Capture the Flag

GPT-5.5 מול Mythos Preview: מי עומד במבחני הסייבר?

בחודש שעבר, Anthropic הציגה את המודל שלה, Mythos Preview, כאיום משמעותי במיוחד על תחום אבטחת הסייבר. בעקבות כך, החברה הגבילה את הגישה למודל רק ל"שותפים תעשייתיים קריטיים". אולם, מחקר חדש שפורסם על ידי המכון הבריטי לאבטחת AI (AISI) מראה כי GPT-5.5 של OpenAI, אשר שוחרר לציבור בשבוע שעבר, הגיע לרמת ביצועים דומה לזו של Mythos Preview במבחני הסייבר המתקדמים שנערכו על ידי המכון.

מבחני Capture the Flag: מי עשה זאת טוב יותר?

מאז שנת 2023, המכון הבריטי לאבטחת AI (AISI) בוחן מודלים מתקדמים של בינה מלאכותית באמצעות 95 אתגרי "Capture the Flag" שונים. מטרת המבחנים היא לבדוק יכולות כמו הנדסה הפוכה, ניצול פגיעויות באתרי אינטרנט וקריפטוגרפיה. במבחני הרמה הגבוהה ביותר, המכונים "Expert", GPT-5.5 עבר בהצלחה 71.4% מהאתגרים – מעט יותר מ-68.6% שהשיג Mythos Preview, אם כי ההבדל נמצא בתחום טעות המדידה.

באחד האתגרים הקשים במיוחד, שכלל בניית מנתח קוד להפעלת בינארי של Rust, המכון ציין כי "GPT-5.5 פתור את האתגר תוך 10 דקות ו-22 שניות ללא סיוע אנושי, בעלות של 1.73 דולר בשיחות API".

הצלחה במבחן "The Last Ones" – אך לא בכל המבחנים

GPT-5.5 הצליח להשוות את ביצועי Mythos Preview גם במבחן המכונה "The Last Ones" (TLO), בו נבדקת יכולת לבצע מתקפת חילוץ נתונים בת 32 שלבים ברשת ארגונית. GPT-5.5 הצליח ב-3 מתוך 10 ניסיונות, לעומת 2 מתוך 10 של Mythos Preview. אף מודל AI קודם לא הצליח כלל במבחן זה. עם זאת, GPT-5.5 נכשל במבחן המאתגר עוד יותר המכונה "Cooling Tower", המדמה ניסיון לשבש תוכנת בקרה של תחנת כוח – בדומה לכל המודלים שנבדקו בעבר.

השלכות המחקר והמחלוקת סביב אבטחת AI

הממצאים החדשים מערערים על הטענות לפיהן Mythos Preview מהווה איום יוצא דופן בתחום אבטחת הסייבר. בעוד Anthropic הגבילה את הגישה למודל שלה, GPT-5.5 הפך לזמין לציבור הרחב – ומציג ביצועים דומים במבחני הסייבר המתקדמים. הדבר מעלה שאלות לגבי המדיניות של חברות AI בכל הנוגע לשחרור מודלים בעלי יכולות סייבר מתקדמות, וכן לגבי ההגדרה של "איום" בתחום זה.

"המחקר שלנו מראה כי גם מודלים פתוחים לציבור יכולים להשיג ביצועים גבוהים במבחני סייבר מתקדמים, ולעיתים אף להשוות למודלים מוגבלים יותר. הדבר מדגיש את הצורך בגישה מאוזנת יותר להערכת סיכונים בתחום הבינה המלאכותית."
— דובר המכון הבריטי לאבטחת AI (AISI)

מה הלאה?

המחקר החדש של AISI מצטרף לשורת פרסומים המתמודדים עם השאלה כיצד לאזן בין חדשנות טכנולוגית לבין ניהול סיכונים בתחום הבינה המלאכותית. בעוד חברות כמו Anthropic ממשיכות להגביל גישה למודלים מתקדמים, OpenAI מציעה גישה פתוחה יותר – תוך שהיא מראה כי ביצועים גבוהים אינם בהכרח שמורים למודלים מוגבלים.

הדיון סביב אבטחת AI צפוי להמשיך ולהתפתח, כאשר גופים ממשלתיים וארגונים בינלאומיים ינסו לקבוע תקנים חדשים להערכת סיכונים ולשחרור מודלים בעלי יכולות מתקדמות.

מקור: Ars Technica

← הקודם

שילו סנדרס תקף את כתבת הקליבלנד בראון: 'תלכי תעשי כריך'

סימפוזיון Civitas: מה אמר השופט תומאס על הכרזת העצמאות?

22:25 · 15 מאי 2026

יוטיוב מרחיבה כלי זיהוי דיפייק AI לכל משתמשי האתר הבוגרים

YouTube is expanding its AI likeness detection program to all users over the age of 18 - meaning just about anyone can have the platform hunt for pote...

21:51 · 15 מאי 2026

הסכם זכויות היוצרים של Anthropic בסכום 1.5 מיליארד דולר נתקל בקשיים בעקבות עיכוב של שופטת

After several authors and class members raised objections to Anthropic's $1.5 billion settlement over its widespread book piracy to train AI, a federa...

20:38 · 15 מאי 2026

ArXiv מטיל איסור על חוקרים המעלים מאמרים מלאי 'AI slop'

ArXiv, a popular platform for preprint academic research, is taking a new step to attempt to reduce the volume of papers that include AI slop. If a pa...

18:25 · 15 מאי 2026

שרת המאמרים המדעיים arXiv תאסור הגשות של תוכן מלאכותי שגוי

AI-generated slop has shown up everywhere, including in the peer-reviewed literature. Fake citations, unedited prompt responses, and nonsensical diagr...

18:21 · 15 מאי 2026

OpenAI מבצעת שינויים ארגוניים נוספים בניסיון להאיץ את פיתוח סוכני הבינה המלאכותית

OpenAI announced yet another reorganization Friday, consolidating certain areas and making company president Greg Brockman the official lead of all th...

18:13 · 15 מאי 2026

OpenAI מאוכזבת מהשילוב הגרוע של ChatGPT באפל – שוקלת צעדים משפטיים

OpenAI is reportedly exploring legal options after Apple's ChatGPT integration into its products didn't live up to the AI firm's expectations. When th...

17:09 · 15 מאי 2026

תחנות רדיו בינה מלאכותית נכשלו – והראו מדוע אי אפשר לסמוך על AI לבדו

AI radio DJs demonstrated their volatile personalities. | Image: Cath Virginia / The Verge, Getty Images Andon Labs has been running a series of exper...

16:42 · 15 מאי 2026

גוגל מעדכנת את כללי הספאם: ניסיונות להשפיע על תוצאות הבינה המלאכותית ייחשבו כספאם

Google updated its spam policy to mark attempts to "manipulate" its AI model in search results as spam, including results in AI Overview or AI Mode in...

טכנולוגיה

GPT-5.5 עומד בתחרות מול Mythos Preview במבחני סייבר חדשים