AI fejler i hver fjerde arbejdsopgave
En nylig undersøgelse udført af Microsoft-forskere og omtalt af IT Pro afslører, at de mest avancerede AI-systemer fortsat er langt fra at mestre komplekse arbejdsopgaver. Forskerne testede blandt andet OpenAI’s GPT-4, Anthropic’s Claude Opus 4.6 og Google’s Gemini 3.1 Pro og fandt, at disse modeller i gennemsnit ødelægger 25% af indholdet i dokumenter under avancerede opgaver. Ældre modeller præsterede endnu dårligere.
Microsoft: AI-modeller er ikke klar til arbejdsopgaver
Konklusionen er klar: AI-modellerne er ikke klar til at overtage arbejdsopgaver på de fleste områder. Forskerne understreger, at resultaterne er særligt bemærkelsesværdige, fordi Microsoft selv har investeret massivt i AI og forsøger at integrere teknologien i stort set alle aspekter af Windows 11 – ofte med skuffende resultater. Overraskende nok blev Microsofts eget AI-værktøj Copilot ikke testet i undersøgelsen.
AI-integration kan føre til alvorlige fejl
Undersøgelsen viser, at virksomheder, der blindt stoler på AI til at håndtere interne dokumenter, risikerer alt fra fejl til utilsigtet sletning af data. Resultaterne kommer på et tidspunkt, hvor flere og flere ledere forsøger at erstatte menneskelig arbejdskraft med AI, hvilket ifølge forskerne kan føre til det, der kaldes "workslop" – en betegnelse for AI-genereret rod, der ender med at skulle rettes af medarbejdere.
Hvad er AI "workslop"?
Workslop refererer til situationer, hvor medarbejdere bruger AI til at generere dokumenter eller løsninger, der er upræcise, ufuldstændige eller direkte fejlagtige. I stedet for at effektivisere arbejdsprocessen ender det med at skabe ekstra arbejde for kolleger, der skal rette op på fejlene. Stanford-forskere har tidligere advaret om dette fænomen, som kan underminere produktiviteten i virksomheder.
AI-integration kræver forsigtighed
Microsofts undersøgelse understreger vigtigheden af at teste AI-systemer grundigt, inden de implementeres i kritiske arbejdsprocesser. Selvom AI-teknologien udvikler sig hurtigt, viser resultaterne, at der stadig er betydelige udfordringer, der skal løses, før modellerne kan betragtes som pålidelige i professionelle sammenhænge.