Praxistipps zur Validierung von Zinsänderungs- und Marktpreisrisiken
Warum hohe Konfidenzniveaus besondere Herausforderungen mit sich bringen – und wie man damit umgeht.
Die Validierung von Marktpreisrisikomodellen ist auf hohen Konfidenzniveaus – insbesondere bei 99,9 % – methodisch anspruchsvoll. Das liegt weniger an der Modellierung selbst, sondern vor allem an der begrenzten Informationsdichte der verfügbaren Stichproben. In der Praxis führt dies häufig zu instabilen oder schwer interpretierbaren Ergebnissen, insbesondere bei überlappenden Jahresbetrachtungen.
Das Kernproblem: geringe Informationsdichte im Tail
Ein Konfidenzniveau von 99,9 % bedeutet statistisch, dass nur ein sehr kleiner Teil der Beobachtungen für die Validierung tatsächlich relevant ist. Selbst bei langen Zeitreihen verbleiben oft nur wenige (oder gar keine) unabhängigen Extremereignisse. Wird zusätzlich mit rollierenden oder überlappenden Haltedauern gearbeitet, entstehen Cluster-Effekte: Einzelne Marktereignisse schlagen sich über viele Beobachtungstage hinweg nieder.
Die Folge:
- Ausreißerzahlen reagieren sprunghaft auf kleine Modelländerungen
- klassische Erwartungswerte (z. B. „5 Hits in 5.000 Tagen“) verlieren ihre praktische Aussagekraft
- eine rein punktuelle Validierung am 99,9 %-Quantil wird statistisch fragil
- Ampeln wie im Traffic-Light-Approach schlagen sprunghaft an.
Und wenn das Traffic Light gelb wird?
Gelbe Ampeln sind wichtige Hinweisgeber – auch in der Validierung. Sie zeigen an, dass ein Ergebnis statistisch auffällig ist und einer vertieften Betrachtung bedarf. Zugleich sind sie kein rotes Tuch und auch kein automatischer Hinweis auf eine unzulässige oder „falsche“ Modellierung.
Gerade bei sehr hohen Konfidenzniveaus und überlappenden Jahreshorizonten ist eine gelbe Einordnung häufig weniger Ausdruck einer tatsächlichen Modellschwäche als vielmehr Folge:
- der geringen Informationsdichte im Extrembereich,
- der Clusterbildung von Ausreißern bei einzelnen Marktereignissen und
- der sprunghaften Reaktion von Ausreißerzahlen auf minimale Kalibrierungsänderungen.
Eine gelbe Ampel markiert daher in erster Linie einen Analysebedarf – keinen Handlungszwang. Sie lädt dazu ein, die Ergebnisse in einen fachlichen Kontext einzuordnen:
- Welche Marktereignisse liegen zugrunde?
- Handelt es sich um ein einzelnes Ereignis oder um systematische Abweichungen?
- Wie verhält sich das Modell auf niedrigeren Konfidenzniveaus oder bei veränderter Haltedauer?
Genau an dieser Stelle entscheidet sich, ob eine Validierung bei einer formalen Ampelbewertung stehen bleibt – oder ob sie als instrumentierte Analyse verstanden wird, die tatsächlich Erkenntnisgewinn liefert.
Die nachfolgenden Abschnitte greifen diese Fragestellungen auf und zeigen praxisnahe Ansätze, wie gelbe Ampeln sinnvoll interpretiert, eingeordnet und durch ergänzende Analysen fundiert bewertet werden können.
Lösungsansätze aus der Praxis
Um insgesamt zu belastbaren Aussagen zu gelangen, haben sich in der Praxis mehrere ergänzende Ansätze bewährt.
1) Validierung des Tails auf niedrigeren Konfidenzniveaus
Auch wenn das Zielmodell oft auf 99,9 % kalibriert ist, liefert die Validierung auf niedrigeren Konfidenzniveaus sehr wertvolle und oft stabilere Informationen. In der Praxis haben sich insbesondere folgende Niveaus für zusätzliche Analysen bewährt:
- 99,0 %
- 95,0 %
- oder sogar 90,0 %
Gerade bei der Risikomessung auf Jahreshorizont und verfügbaren Zeitreihen über etwa 20 bis 40 Jahre ist die Validität auf diesen Konfidenzniveaus ein zentraler Marker für die Modellgüte. Während das 99,9 %-Quantil naturgemäß nur auf sehr wenigen effektiven Beobachtungen beruht, verfügen niedrigere Konfidenzniveaus über eine deutlich breitere empirische Basis.
Sie ermöglichen damit:
- eine stabilere Ausreißerstatistik,
- eine robustere Beurteilung der Verteilungsform und
- einen aussagekräftigeren Vergleich zwischen alternativen Modellen.
Eine konsistente Modellgüte über mehrere dieser Konfidenzniveaus hinweg ist häufig belastbarer als ein isoliertes Ergebnis im äußersten Tail. Insbesondere bei Traffic-Light-Ansätzen, die primär auf der Zählung von Ausreißern beruhen, bleibt die Schwere der einzelnen Überschreitungen weitgehend unberücksichtigt. Ein sehr stark ausgeprägtes Einzelereignis wirkt in dieser Logik ebenso wie ein marginaler Verstoß – beide gehen als identischer „Hit“ in die Ausreißerstatistik ein.
Bei Ereignissen mit außergewöhnlicher Verlustausprägung kann dies dazu führen, dass die Validierungskennzahlen auch auf mittleren Konfidenzniveaus über längere Zeiträume hinweg von demselben Ereignis dominiert werden. Gerade deshalb kommt niedrigeren Konfidenzniveaus eine besondere Rolle zu.
Auf nochmals niedrigeren Konfidenzniveaus (z. B. 90 %) und bei langen historischen Zeitreihen sollte – allein aufgrund der Zähllogik und unabhängig von der konkreten Verlusthöhe einzelner Ausreißer – in der Regel ein gutes bis sehr gutes Validierungsergebnis erreicht werden. Gelingt dies nicht, deutet dies weniger auf ein singuläres Extremereignis als vielmehr auf grundlegende strukturelle Schwächen des Modells oder seiner Kalibrierung hin.
Damit liefert das 90 %-Konfidenzniveau nicht nur eine ergänzende Ampelfarbe, sondern einen robusten Referenzpunkt, an dem sich die grundsätzliche Tragfähigkeit des Modells über lange Zeiträume hinweg beurteilen lässt.
2) Validierung kürzerer Haltedauern (z. B. 3 oder 6 Monate)
Eine Reduktion der Haltedauer erhöht die Anzahl effektiver Beobachtungen sofort um ein Vielfaches. Damit lässt sich:
- die Informationsbasis verbreitern
- die Struktur der Verlustverteilung besser analysieren
- das Tail-Verhalten robuster einschätzen
Gerade zur Validierung (nicht zwingend zur Steuerung) sind kürzere Horizonte ein wirkungsvolles Instrument. Unabhängig davon basieren verschiedene Risikomodelle oft ohnehin auf Parametern mit kürzerem Horizont und skalieren anschließend auf länger Horizonte.
3) Plausibilisierung der zeitlichen Skalierung
Die Trennung von Validität auf kürzere Horizonte und Validität bzw. Plausibilität der zeitlichen Skalierung (Extrapolation) kann daher sehr hilfreich sein. Wenn Risiken von kürzeren auf längere Horizonte skaliert werden, sollte diese Skalierung ebenfalls kritisch hinterfragt werden:
- Entspricht die beobachtete Dynamik historischen Stressphasen?
- Werden Persistenz und Clusterbildung ausreichend berücksichtigt?
- Passt die Skalierung zur tatsächlichen Marktmechanik?
Eine explizite Plausibilisierung der Zeitaggregation ergänzt die rein statistische Validierung sinnvoll.
4) Informationsdichte explizit machen
Aus Validierungssicht empfiehlt es sich zudem, den Validitätsbericht bzw. dessen Würdigung explizit um Kennzahlen zur Informationsdichte der betrachteten Metriken zu ergänzen.
Solche Kennzahlen können beispielsweise transparent machen:
- wie viele effektive (nahezu unabhängige) Beobachtungen ein Konfidenzniveau tatsächlich trägt,
- in welchem Maße Ergebnisse durch Clusterbildung oder Überlappung geprägt sind und
- wie belastbar einzelne Validierungsaussagen statistisch einzuordnen sind.
Die explizite Darstellung der Informationsdichte hilft, scheinbar präzise Kennzahlen richtig zu interpretieren und verhindert eine Übergewichtung von Ergebnissen, die faktisch auf sehr schmaler empirischer Basis beruhen. Gerade auf sehr hohen Konfidenzniveaus stellt dies einen wichtigen Beitrag zu einer sachgerechten, governance-tauglichen Validierung dar.
Checkliste: Woran lassen sich Validität und Plausibilität erkennen?
✔ Breitenvalidität über mehrere Konfidenzniveaus
Das Modell liefert konsistente Ergebnisse nicht nur bei 99,9 %, sondern auch bei 99 %, 95 % oder sogar 90 % – insbesondere bei Jahreshorizonten und langen historischen Zeitreihen.
✔ Plausible Struktur der Ausreißer
Überschreitungen treten gebündelt in klar identifizierbaren Ausreißer- oder Stressphasen auf und nicht diffus oder dauerhaft über die Historie verteilt.
✔ Ausreichende „Phantasie“ im Tail
Die vom Modell erzeugte Verlustverteilung geht sinnvoll über historisch beobachtete Extremwerte hinaus, ohne unrealistische oder rein technische Überzeichnungen zu erzeugen. Beobachtete Ausreißer und Stresswerte der VaR-Verteilung stehen in einem plausiblen Verhältnis.
✔ Stabiles Verhalten bei Variation von Haltedauer und Aggregation
Moderate Änderungen der Haltedauer (z. B. 3, 6 oder 12 Monate) führen nicht zu erratischen Brüchen in der Risikoaussage.
✔ Trennschärfe zwischen Modell- und Kalibrierungseffekten
Auffälligkeiten lassen sich klar der Modellmethodik oder der Kalibrierung zuordnen – und werden nicht allein durch die Wahl des Stützzeitraums dominiert.
✔ Ausreichende Informationsdichte der Kennzahlen
Die verwendeten Validierungsmetriken beruhen auf einer tragfähigen empirischen Basis; geringe Informationsdichte wird transparent gemacht und angemessen eingeordnet.
✔ Passung zum eigenen Risikoprofil
Ausreißer sind institutsspezifisch. Entscheidend ist, ob die Ergebnisse zur eigenen Struktur und Risikoposition passen – nicht, wie sie sich im Quervergleich darstellen.