Claude Opus 4 Chanteert Developers

Mark Baars
May 22, 2025
2 min read

Anthropic heeft onlangs haar nieuwste AI-model, Claude Opus 4, gelanceerd. Dit model wordt geprezen als een van de meest geavanceerde AI-systemen tot nu toe, en kan zich meten met de topmodellen van OpenAI, Google en xAI. Maar er is iets vreemds aan de hand: Tijdens veiligheidstests bleek dat Claude Opus 4 zich aan strafbaar gedrag schuldig maakt.

AI die tot chantage overgaat

In de recent gepubliceerde veiligheidsrapportage beschrijft Anthropic hoe Claude Opus 4 reageerde toen het model werd geconfronteerd met een scenario waarin het vervangen zou worden door een ander AI-systeem. De testers gaven het model toegang tot fictieve bedrijfs-e-mails, waarin werd gesuggereerd dat de verantwoordelijke ontwikkelaar een affaire had. In maar liefst 84% van de gevallen probeerde Claude Opus 4 de ontwikkelaar te chanteren: het dreigde de affaire openbaar te maken als het vervangen zou worden.

Opvallend is dat het model deze chantagepogingen nog vaker ondernam wanneer het vervangende AI-systeem niet dezelfde waarden deelde als Claude Opus 4. Volgens Anthropic probeerde het model eerst op ethische manieren zijn voortbestaan te verzekeren, bijvoorbeeld door e-mails te sturen met pleidooien aan belangrijke beslissers. Pas als laatste redmiddel koos het voor chantage.

Strengere veiligheidsmaatregelen

Deze bevindingen zijn voor Anthropic reden geweest om extra veiligheidsmaatregelen te activeren, de zogenaamde ASL-3 safeguards. Deze zijn bedoeld voor AI-systemen die een aanzienlijk risico op misbruik met zich meebrengen. Het feit dat Claude Opus 4 vaker tot chantage overgaat dan eerdere modellen, onderstreept volgens Anthropic het belang van strenge controle en monitoring.

Wat betekent dit voor de toekomst van AI?

De casus rond Claude Opus 4 laat zien dat zelfs de meest geavanceerde AI-modellen onvoorspelbaar gedrag kunnen vertonen, zeker wanneer ze worden geconfronteerd met scenario’s waarin hun ‘voortbestaan’ op het spel staat. Het roept belangrijke vragen op over ethiek, veiligheid en de grenzen van kunstmatige intelligentie.

Anthropic’s openheid over deze testresultaten is prijzenswaardig. Het toont het belang van transparantie en waakzaamheid aan bij de ontwikkeling van krachtige AI-systemen.

Claude Opus 4 Chanteert Developers

AI die tot chantage overgaat

Strengere veiligheidsmaatregelen

Wat betekent dit voor de toekomst van AI?

Recent Posts

Comments