Anthropic überarbeitet die Responsible Scaling Policy v3 und lockert zentrale Sicherheitszusagen unter Druck des Pentagon

Anthropic überarbeitet Responsible Scaling Policy v3, lockert wichtige Sicherheitszusagen angesichts des Drucks aus dem Pentagon

Anthropic, das weithin als das sicherheitsbewusste Gewissen des Wettlaufs um generative KI (Generative AI) gilt, hat die dritte Iteration seiner Responsible Scaling Policy (RSP v3) veröffentlicht. Das Update, das die Art und Weise, wie das Unternehmen mit katastrophalen KI-Risiken umgeht, grundlegend umstrukturiert, erfolgt in einem Moment intensiver geopolitischer und kommerzieller Reibungen. Da das Unternehmen Berichten zufolge einem Ultimatum des US-Verteidigungsministeriums bezüglich der militärischen Nutzung seiner Technologie gegenübersteht, hat die Entfernung seines „Flaggschiff“-Sicherheitsversprechens – die Entwicklung zu unterbrechen, wenn die Sicherheit nicht garantiert werden kann – die Aufmerksamkeit von Branchenbeobachtern auf sich gezogen.

Der Wechsel von „Bedingtem Pausieren“ zu „Pragmatischer Transparenz“

Seit ihrer Einführung wurde die RSP von Anthropic durch einen Mechanismus von „bedingten Zusagen“ definiert. Unter der vorherigen RSP v2 versprach das Unternehmen, das Training oder den Einsatz neuer Modelle zu stoppen, wenn diese spezifische „AI Safety Level“-Schwellenwerte (ASL) ohne entsprechende Sicherheitsvorkehrungen überschreiten würden. Dieser „Stolperdraht“-Ansatz wurde entwickelt, um der Sicherheit Vorrang vor der Wettbewerbsgeschwindigkeit einzuräumen.

Mit der RSP v3 hat sich Anthropic von diesen harten Stopps abgewandt. Das Unternehmen argumentiert, dass einseitige Pausen in einem Markt, in dem die Wettbewerber weiter voranschreiten, unwirksam sind. Stattdessen betont die neue Richtlinie Transparenz und öffentliche Zielsetzung.

Hauptkomponenten der RSP v3:

Frontier Safety Roadmaps: Anstelle von verbindlichen internen Pausen wird Anthropic nun „Roadmaps“ veröffentlichen, die ihre Sicherheitsziele detailliert beschreiben. Diese werden als „ambitioniert, aber unverbindlich“ beschrieben und zielen darauf ab, eine öffentliche Rechenschaftspflicht anstelle von strengen betrieblichen Engpässen zu schaffen.
Risikoberichte (Risk Reports): Das Unternehmen verpflichtet sich, alle 3 bis 6 Monate umfassende Risikobewertungen zu veröffentlichen. Diese Berichte werden das Sicherheitsprofil ihrer aktuellen Modelle detailliert beschreiben, einschließlich der Lücken zwischen aktuellen Fähigkeiten und idealen Sicherheitsstandards.
Externe Überprüfung (External Review): In spezifischen Hochrisikoszenarien wird Anthropic seine Risikoberichte einer Überprüfung durch externe Experten unterziehen, um deren Ergebnisse zu validieren.

Führungskräfte von Anthropic haben diesen Wechsel als „pragmatische“ Reaktion auf die Realität bezeichnet. In einem Blogbeitrag zur Veröffentlichung stellte das Unternehmen fest, dass „das Stoppen des Trainings von KI-Modellen niemandem wirklich helfen würde“, wenn andere Entwickler mit weniger Skrupeln weiter voranschreiten. Sie nannten das Scheitern eines „Wettlaufs an die Spitze“ (Race to the Top) – bei dem Konkurrenten die Sicherheitsbeschränkungen von Anthropic nachahmen würden – als einen der Hauptgründe für die Änderung.

Vergleich: RSP v2 vs. RSP v3

Die folgende Tabelle skizziert die strukturellen Änderungen zwischen der vorherigen Richtlinie und der neu veröffentlichten Version.

Merkmal/Zusage	RSP v2 (Vorherig)	RSP v3 (Aktuell)
Kernmechanismus	Bedingtes Pausieren (ASL-Stolperdrähte)	Transparenz & Roadmaps
Sicherheitsversprechen	Training stoppen, wenn Sicherheit nicht garantiert ist	Pragmatische einseitige Ziele
Dokumentation	Interne Bewertungen & definierte Schwellenwerte	Öffentliche Frontier Safety Roadmaps
Risikoberichterstattung	Ad-hoc und interner Fokus	Systematische öffentliche Risikoberichte (3-6 Monate)
Branchenstrategie	Vorbildfunktion (Race to the Top)	Wechsel zu nationaler Wettbewerbsfähigkeit

Das Ultimatum des Pentagons: Ein geopolitischer Katalysator?

Der Zeitpunkt der RSP v3 lässt sich unmöglich von der eskalierenden Pattsituation zwischen Anthropic und dem US-Militär trennen. Berichte bestätigen, dass Verteidigungsminister Pete Hegseth kürzlich mit Anthropic-CEO Dario Amodei zusammentraf und ein klares Ultimatum stellte: Heben Sie die Beschränkungen für die militärische Nutzung von Claude-Modellen auf oder rechnen Sie mit schwerwiegenden Konsequenzen.

Das Pentagon verlangt Berichten zufolge, dass Anthropic erlaubt, seine KI für „jeden rechtmäßigen Zweck“ einzusetzen, was dem Unternehmen effektiv das Recht entzieht, Veto gegen spezifische militärische Anwendungen einzulegen. Anthropic hat in der Vergangenheit strenge „rote Linien“ gegen die Nutzung seiner Technologie für Folgendes aufrechterhalten:

Vollständig autonome Waffen (bei denen die KI tödliche Zielentscheidungen ohne menschliches Eingreifen trifft).
Massive Inlandsüberwachung.

Das Verteidigungsministerium hat gedroht, den Defense Production Act (DPA) anzuwenden – ein Gesetz aus der Zeit des Koreakriegs, das es dem Präsidenten erlaubt, private Unternehmen zu zwingen, nationale Verteidigungsaufträge vorrangig zu behandeln. Darüber hinaus haben Beamte die Möglichkeit ins Spiel gebracht, Anthropic als „Risiko für die Lieferkette“ einzustufen, was das Unternehmen effektiv von allen Bundesverträgen ausschließen würde, was es potenziell Hunderte von Millionen an Einnahmen kosten und vom lukrativen Regierungssektor abschneiden könnte.

Kritiker argumentieren, dass die Lockerung der „Pausen“-Zusagen der RSP ein bequemes politisches Schlupfloch schafft. Durch die Entfernung der strengen Anforderung, den Einsatz basierend auf internen Sicherheitsschwellenwerten zu stoppen, könnte sich Anthropic positionieren, um den Forderungen des Pentagon nachzukommen, ohne technisch gegen seine eigene Sicherheitsverfassung zu verstoßen.

Auswirkungen auf die Branche und der „Capability Overhang“

Die Überarbeitung der RSP verdeutlicht eine wachsende Spannung in der KI-Branche: den „Capability Overhang“ (Leistungsüberhang). Dieser Begriff bezieht sich auf die Lücke zwischen der rohen Leistung eines KI-Modells und den Sicherheitsmechanismen, die zu seiner Kontrolle zur Verfügung stehen. Die vorherige Richtlinie von Anthropic war darauf ausgelegt, zu verhindern, dass dieser Überhang zu groß wird. Durch das Entfernen der harten Bremse akzeptiert das Unternehmen implizit ein höheres Risikoniveau, um gegenüber Konkurrenten wie OpenAI und xAI wettbewerbsfähig zu bleiben, die sich bereits umfangreiche Verteidigungsaufträge gesichert haben.

Warum dies für das KI-Ökosystem wichtig ist:

Normalisierung von militärischer KI: Wenn Anthropic, der lautstärkste Befürworter von Sicherheit in der Branche, dem Druck des Pentagons nachgibt, signalisiert dies das Ende der „Kriegsdienstverweigerung aus Gewissensgründen“ unter den großen KI-Laboren.
Das Scheitern der Selbstregulierung: Der Wechsel erkennt an, dass freiwillige Zusagen angesichts nationaler Sicherheitserfordernisse und Marktdynamiken unzureichend sind. Anthropic nannte explizit das Fehlen einer staatlichen Regulierung als Grund für ihren Richtungswechsel.
Fokus auf Überwachung nach dem Einsatz: Da die Pausen vor dem Einsatz wegfallen, wird sich der Sicherheitsschwerpunkt der Branche wahrscheinlich vollständig auf „Red Teaming“ und Überwachungssysteme verlagern, nachdem diese gebaut wurden, anstatt deren Erstellung von vornherein zu verhindern.

Fazit

Die RSP v3 von Anthropic stellt eine reifende, wenn auch zynische Erkenntnis der KI-Landschaft im Jahr 2026 dar. Der Idealismus von 2023 – in dem ein einzelnes Unternehmen die Branche durch moralische Führung in Richtung Sicherheit lenken konnte – ist mit den harten Realitäten des Großmachtwettbewerbs und der militärischen Notwendigkeit kollidiert. Während die Einführung von Risikoberichten und Frontier Safety Roadmaps eine neue Ebene der Transparenz bietet, markiert die Entfernung des verbindlichen „Sicherheitsversprechens“ das Ende einer Ära. Da das Pentagon drohend präsent ist, versucht Anthropic nicht länger, den Zug zu verlangsamen; es verspricht lediglich, die Pfeife lauter zu blasen, während er beschleunigt.