Wann ist ein Studienergebnis klinisch relevant? · PDF fileziehen!)René Descartes...

3
Schweiz Med Forum 2010;10(32):525–527 525 IRRUNGEN UND WIRRUNGEN Wann ist ein Studienergebnis klinisch relevant? Was Masszahlen zur Beurteilung vonTherapieeffekten aussagen Peter Kleist De omnibus dubitandum est! (Man muss alles in Zweifel ziehen!) René Descartes (1596–1650) Wer einen Prinzen sucht, muss viele Frösche küssen. Redensart Vorbemerkungen Wenn ein herzinsuffizienter Patient unter Behandlung wieder die Treppe zu seiner Wohnung hinaufsteigen kann, ist das für ihn ohne Zweifel sehr bedeutsam. Glei- ches gilt für einen Patienten mit Claudicatio, der seinen Alltag weitgehend schmerzfrei gestalten kann. Die Frage nach der Relevanz von Therapieeffekten lässt sich in diesen Fällen relativ einfach beantworten, da sie eng mit individuellen Werturteilen verbunden ist [1]. In klinischen Studien werden jedoch nicht einzelne Krankheitsverläufe beurteilt, sondern Patientengrup- pen miteinander verglichen. In diesen befinden sich jeweils Patienten, die auf eine Therapie sehr ausge- prägt, mässig oder vielleicht gar nicht ansprechen. Die Gesamtheit der individuell unterschiedlichen Verläufe bestimmt das Studienergebnis. Bei einer Studie stellt sich daher die Frage, wann einem festgestellten Gruppenunterschied, d.h. einem Unter- schied zwischen der Interventions- und der Kontroll- therapie, eine klinische Relevanz zukommt oder anders ausgedrückt, ob das Studienergebnis eine un- mittelbare Konsequenz hinsichtlich genereller Thera- pieempfehlungen bzw. Therapieentscheidungen hat. Die Frage nach der Relevanz eines durchschnittlichen Therapieeffektes ist ungleich schwerer zu beantworten und darf nicht mit der Bewertung individueller Verän- derungen vermischt werden. Die klinische Relevanz eines Therapieeffektes wird massgeblich vom Endpunkt der Studie und der Grösse des Unterschieds zwischen den untersuchten Behand- lungen bestimmt. Beide Faktoren sind nicht voneinan- der zu trennen. Während eine Abnahme der Flatulenz- rate um 5% vermutlich ohne Bedeutung ist, kann eine Reduktion der Mortalität um 1% durchaus von klini- schem Interesse sein. Vereinfacht lässt sich sagen: Je geringer die Relevanz des Endpunkts ist, umso grösser muss der gezeigte Unterschied sein. Es gibt daher keine absolute Antwort auf die Relevanzfrage. Zur Bewertung der klinischen Bedeutung eines Thera- pieeffekts behilft man sich in der Praxis mit verschiede- nen Masszahlen (oder Effektmassen). Die nachfolgenden Ausführungen setzen sich mit der Aussagekraft der ge- bräuchlichen Masszahlen auseinander. Wie sie berech- net werden kann den Tabellen 1 und 2 p entnommen werden. Vor- und Nachteile einzelner Masszahlen Der «p-Wert» Die statistische Signifikanz ist eine notwendige Voraus- setzung für die Beurteilung der klinischen Relevanz, sagt aber über diese selbst nichts aus [2]. Signifikanz bedeutet die statistisch gesicherte Übertragbarkeit eines Studienergebnisses auf eine grössere Patienten- population, da die Irrtumswahrscheinlichkeit gering ist (üblicherweise 5% bzw. p <0,05). Ist die Stichprobe gross genug, erreicht selbst ein sehr kleiner und thera- peutisch irrelevanter Unterschied zwischen zwei Be- handlungen statistische Signifikanz. Dass statistische Signifikanz nicht mit klinischer Rele- vanz gleichzusetzen ist, zeigt eine Studie an Patienten mit fortgeschrittenem Pankreaskarzinom, die entweder Gemcitabin zusammen mit dem Tyrosinkinasehemmer Erlotinib oder nur Gemcitabin erhielten: unter der Kombination war das Gesamtüberleben zwar statis- tisch signifikant länger, der Unterschied betrug jedoch lediglich zehn Tage [3]. Die Effektstärke «d» Statistiker haben verschiedene Vorschläge zur Berech- nung der Effektstärke unterbreitet. Allen gemeinsam ist, dass sie unabhängig von der Stichprobengrösse sind und somit den grundsätzlichen Nachteil der statis- tischen Signifikanz ausschalten. In der medizinischen Fachliteratur findet man gelegentlich den sogenannten d-Wert als Mass für die relative Effektstärke. Er berech- net sich aus der Differenz der Gruppenmittelwerte, Quintessenz P Jede der gebräuchlichen Masszahlen (z.B. absolutes und relatives Risiko, Number needed to treat) beleuchtet nur Teilaspekte eines Therapie- effektes und weist Vorteile und Nachteile auf. P Die in einer Publikation dargestellten Effektmassen sind daher bezüg- lich ihrer Aussagekraft kritisch zu hinterfragen. P Für eine Relevanzbeurteilung sollten Therapieeffekte immer mit meh- reren Masszahlen charakterisiert werden. P Den absoluten Risiken in der Studie und der absoluten Risikoreduk- tion kommt von allen Masszahlen die grösste Bedeutung zu. P Für jede Masszahl ist der Vertrauensbereich anzugeben, um das Aus- mass der statistischen Unsicherheit zu verdeutlichen.

Transcript of Wann ist ein Studienergebnis klinisch relevant? · PDF fileziehen!)René Descartes...

Page 1: Wann ist ein Studienergebnis klinisch relevant? · PDF fileziehen!)René Descartes (1596–1650) Wer einen Prinzen sucht, ... 12 Gotzsche PC. Believability of relative risks and odds

Schweiz Med Forum 2010;10(32):525–527 525

IRRUNGEN UND WIRRUNGEN

Wann ist ein Studienergebnis klinisch relevant?Was Masszahlen zur Beurteilung vonTherapieeffekten aussagen

Peter Kleist

De omnibus dubitandum est! (Man muss alles in Zweifelziehen!) René Descartes (1596–1650)

Wer einen Prinzen sucht, muss viele Frösche küssen.Redensart

VorbemerkungenWenn ein herzinsuffizienter Patient unter Behandlungwieder die Treppe zu seiner Wohnung hinaufsteigenkann, ist das für ihn ohne Zweifel sehr bedeutsam. Glei-ches gilt für einen Patienten mit Claudicatio, der seinenAlltag weitgehend schmerzfrei gestalten kann. DieFrage nach der Relevanz von Therapieeffekten lässtsich in diesen Fällen relativ einfach beantworten, da sieeng mit individuellen Werturteilen verbunden ist [1].In klinischen Studien werden jedoch nicht einzelneKrankheitsverläufe beurteilt, sondern Patientengrup-pen miteinander verglichen. In diesen befinden sichjeweils Patienten, die auf eine Therapie sehr ausge-prägt, mässig oder vielleicht gar nicht ansprechen. DieGesamtheit der individuell unterschiedlichen Verläufebestimmt das Studienergebnis.Bei einer Studie stellt sich daher die Frage, wann einemfestgestellten Gruppenunterschied, d.h. einem Unter-schied zwischen der Interventions- und der Kontroll-therapie, eine klinische Relevanz zukommt – oderanders ausgedrückt, ob das Studienergebnis eine un-mittelbare Konsequenz hinsichtlich genereller Thera-pieempfehlungen bzw. Therapieentscheidungen hat.Die Frage nach der Relevanz eines durchschnittlichenTherapieeffektes ist ungleich schwerer zu beantwortenund darf nicht mit der Bewertung individueller Verän-derungen vermischt werden.

Die klinische Relevanz eines Therapieeffektes wirdmassgeblich vom Endpunkt der Studie und der Grössedes Unterschieds zwischen den untersuchten Behand-lungen bestimmt. Beide Faktoren sind nicht voneinan-der zu trennen. Während eine Abnahme der Flatulenz-rate um 5% vermutlich ohne Bedeutung ist, kann eineReduktion der Mortalität um 1% durchaus von klini-schem Interesse sein. Vereinfacht lässt sich sagen: Jegeringer die Relevanz des Endpunkts ist, umso grössermuss der gezeigte Unterschied sein. Es gibt daher keineabsolute Antwort auf die Relevanzfrage.Zur Bewertung der klinischen Bedeutung eines Thera-pieeffekts behilft man sich in der Praxis mit verschiede-nen Masszahlen (oder Effektmassen). Die nachfolgendenAusführungen setzen sich mit der Aussagekraft der ge-bräuchlichen Masszahlen auseinander. Wie sie berech-net werden kann den Tabellen 1 und 2 p entnommenwerden.

Vor- und Nachteile einzelner Masszahlen

Der «p-Wert»Die statistische Signifikanz ist eine notwendige Voraus-setzung für die Beurteilung der klinischen Relevanz,sagt aber über diese selbst nichts aus [2]. Signifikanzbedeutet die statistisch gesicherte Übertragbarkeiteines Studienergebnisses auf eine grössere Patienten-population, da die Irrtumswahrscheinlichkeit gering ist(üblicherweise 5% bzw. p <0,05). Ist die Stichprobegross genug, erreicht selbst ein sehr kleiner und thera-peutisch irrelevanter Unterschied zwischen zwei Be-handlungen statistische Signifikanz.Dass statistische Signifikanz nicht mit klinischer Rele-vanz gleichzusetzen ist, zeigt eine Studie an Patientenmit fortgeschrittenem Pankreaskarzinom, die entwederGemcitabin zusammen mit dem TyrosinkinasehemmerErlotinib oder nur Gemcitabin erhielten: unter derKombination war das Gesamtüberleben zwar statis-tisch signifikant länger, der Unterschied betrug jedochlediglich zehn Tage [3].

Die Effektstärke «d»Statistiker haben verschiedene Vorschläge zur Berech-nung der Effektstärke unterbreitet. Allen gemeinsamist, dass sie unabhängig von der Stichprobengrössesind und somit den grundsätzlichen Nachteil der statis-tischen Signifikanz ausschalten. In der medizinischenFachliteratur findet man gelegentlich den sogenanntend-Wert als Mass für die relative Effektstärke. Er berech-net sich aus der Differenz der Gruppenmittelwerte,

Quintessenz

P Jede der gebräuchlichen Masszahlen (z.B. absolutes und relativesRisiko, Number needed to treat) beleuchtet nur Teilaspekte eines Therapie-effektes und weist Vorteile und Nachteile auf.

P Die in einer Publikation dargestellten Effektmassen sind daher bezüg-lich ihrer Aussagekraft kritisch zu hinterfragen.

P Für eine Relevanzbeurteilung sollten Therapieeffekte immer mit meh-reren Masszahlen charakterisiert werden.

P Den absoluten Risiken in der Studie und der absoluten Risikoreduk-tion kommt von allen Masszahlen die grösste Bedeutung zu.

P Für jede Masszahl ist der Vertrauensbereich anzugeben, um das Aus-mass der statistischen Unsicherheit zu verdeutlichen.

Page 2: Wann ist ein Studienergebnis klinisch relevant? · PDF fileziehen!)René Descartes (1596–1650) Wer einen Prinzen sucht, ... 12 Gotzsche PC. Believability of relative risks and odds

Schweiz Med Forum 2010;10(32):525–527 526

IRRUNGEN UND WIRRUNGEN

dividiert durch die Standardabweichung – somit schliesstder d-Wert Unterschiede zwischen den Behandlungenaus, die durch die Streuung der Daten entstehen.Nach Cohen (daher auch «Cohen’s d») kann bei einerEffektstärke von 0,2 ein kleiner, von 0,5 ein mittlererund von 0,8 ein starker Effekt angenommen werden [4].Der Vorteil der Effektstärkemessung besteht in einerOrientierungshilfe für die Frage, ob ein beobachteterEffekt überhaupt eine Bedeutung hat. Dem steht jedocheine Reihe von Nachteilen gegenüber: der d-Wert ist einabstrakter Wert, ihm kommt keine absolute Bedeutungzu und für sich allein betrachtet ermöglicht er keineBewertung der klinischen Relevanz eines Therapie-effekts [5].

Relatives Risiko (RR), relative Risikoreduktion (RRR)und Odds Ratio (OR)Mit diesen Masszahlen werden die beobachteten Risikenin der Interventions- und der Kontrollgruppe zueinan-der in Beziehung gesetzt. Dadurch kann der relativeTherapieeffekt eindrucksvoll zum Ausdruck gebrachtwerden.Tritt das Ereignis von Interesse in einer Studie seltenauf, entspricht die Odds Ratio nahezu dem relativen Ri-siko. Ab einer Ereignisrate von etwa 15–20% nimmt dieOdds Ratio ansteigend grössere Werte als das relativeRisiko an und ist dann keine gute Schätzgrösse mehrfür den relativen Therapieeffekt. In randomisierten Stu-dien sollte dem relativen Risiko daher grundsätzlichder Vorzug vor der Odds Ratio gegeben werden [6]. DerOdds Ratio kommt jedoch bei Fall-Kontrollstudien einebesondere Bedeutung zu, da aufgrund der fehlendenReferenzpopulation eine Berechnung des relativen Risi-kos nicht möglich ist.Relative Risikobetrachtungen haben den Vorteil, dassihre Werte auch bei unterschiedlichen klinischen Situ-

ationen und unterschiedlichen Ausgangswerten stabilbleiben. Dadurch wird z.B. die Durchführung von Meta-analysen erleichtert. Ihr entscheidender Nachteil ist je-doch, dass sie das Ausgangsrisiko ausklammern. Somitist es nicht möglich, zwischen kleinen und grossenTherapieeffekten zu differenzieren und eine Bewertungder klinischen Relevanz in Bezug auf das mit der Er-krankung verbundene Risiko vorzunehmen [7]. Denneiner relativen Risikoreduktion von 50% kann z.B. eineSenkung der Ereignisrate von 50% auf 25% oder von5% auf 2,5% zugrunde liegen.Üblicherweise überschätzen Angaben zum relativenRisiko den Nutzen einer Therapie, was ihre Beliebtheitin Publikations-Abstracts und in Unterlagen von phar-mazeutischen Firmen erklärt. Die Überschätzung desTherapieeffektes kann noch zunehmen, wenn die Aus-fallrate von Patienten in der Interventionsgruppe höherist als in der Kontrollgruppe – z.B. aufgrund von Neben-wirkungen der Therapie: das Risiko für das Auftreteneines Ereignisses ist dann in der Interventionsgruppeaufgrund der kürzeren Beobachtungszeit per se gerin-ger. Bei Überlebensanalysen (sogenannte Survivalana-lysen) ist grundsätzlich die Berechnung von Hazard Ra-tios, d.h. des Verhältnisses von zwei Ereignisraten,vorzunehmen. Im Gegensatz zum relativen Risiko, beidem auftretende Ereignisse auf die Anzahl randomi-sierter Patienten bezogen werden, bezieht die HazardRatio die Ereignisse auf die tatsächliche Behandlungs-bzw. Beobachtungszeit («person-time at risk»).

Absolutes Risiko (AR)und absolute Risikoreduktion (ARR)Die grösste Bedeutung für die Interpretation eines The-rapieeffekts kommt sicherlich der absoluten Risikore-duktion zu. Sie reflektiert sowohl das Ausgangsrisikoals auch den absoluten Erfolg einer Intervention.Ein Beispiel soll erläutern, wie die Relevanz eines Stu-dienergebnisses erst durch die Betrachtung der ARRbeurteilbar wird: «Bei älteren Patienten mit Rheumato-ider Arthritis reduziert Misoprostol schwerwiegende,durch nichtsteroidale Antirheumatika ausgelöste gast-rointestinale Komplikationen um 40% gegenüber Pla-cebo» – so die Schlussfolgerung im Abstract einer 1995publizierten Studie [8]. Schaut man sich die Ergebnisseallerdings genauer an, so wird deutlich, dass das Risikofür gastrointestinale Komplikationen verschwindendgering war und die absolute Risikoreduktion durchMisoprostol nur 0,38% betrug.Die Risikodifferenz ist immer im Kontext der absolutenRisiken zu betrachten, da sie nämlich in Abhängigkeitvom Ausgangsrisiko unterschiedliche Bedeutung habenkann [9]. Nehmen wir als Beispiel eine absolute Morta-litätsabnahme um 5%; diese ist höher einzuschätzen,wenn die Mortalität einer bisher unheilbaren Krankheitauf 95% abnimmt oder in einem anderen Fall von 7%auf 2% gesenkt wird – im Vergleich zu einer Reduktionvon 45% auf 40%.

Die Number needed to treat (NNT)Die Number needed to treat ist eine abgeleitete Grösseder absoluten Risikoreduktion und gibt die Anzahl derPatienten an, die in einem definierten Zeitraum behan-

Tabelle 1. Berechnung der gebräuchlichsten Masszahlen.

Masszahl Berechnung

Relatives Risiko (RR) Ereignisrate Interventionsgruppe

Ereignisrate Kontrollgruppe

Odds Patienten mit Ereignissen : Patienten ohne Ereignisse

Odds Ratio (OR) Odds Interventionsgruppe : Odds Kontrollgruppe

Relative Risikoreduktion (RRR) 1 – RR

Absolute Risikoreduktion (ARR) Ereignisrate Kontrollgruppe – Ereignisrate Interventionsgruppe

Number needed to treat (NNT) 1 : ARR

Tabelle 2. Berechnungsbeispiel. Jeweils 1000 Frauen pro Gruppe; die 3-jährigeBehandlung erfolgt entweder mit einem neuen Osteoporose-Arzneimittel(Interventionsgruppe) oder Plazebo (Kontrollgruppe); Studienendpunkt sind neueFrakturen.

Interventionsgruppe 1000 Patientinnen erleiden 120 Frakturen

Kontrollgruppe 1000 Patientinnen erleiden 180 Frakturen

Relatives Risiko (RR) 120 : 1000 / 180 : 1000 = 0,12 : 0,18 = 0,67 = 67%

Odds Ratio (OR) 120 : 880 / 180 : 820 = 0,14 : 0,22 = 0,64

Relative Risikoreduktion (RRR) 1 – 0,67 = 0,33 = 33%

Absolute Risikoreduktion (ARR) 0,18 – 0,12 = 0,06 oder 18% – 12% = 6%

Number needed to treat (NNT) 1 : 0,06 = 16,7

Page 3: Wann ist ein Studienergebnis klinisch relevant? · PDF fileziehen!)René Descartes (1596–1650) Wer einen Prinzen sucht, ... 12 Gotzsche PC. Believability of relative risks and odds

Schweiz Med Forum 2010;10(32):525–527 527

IRRUNGEN UND WIRRUNGEN

delt werden müssen, damit ein Patient von der Thera-pie profitiert. Je kleiner die Zahl, desto effektiver ist dieTherapie. Die Number needed to treat kann als benut-zerfreundlicher Ansatz zur Verknüpfung von Studiener-gebnis und klinischer Entscheidungsfindung betrachtetwerden.Es gilt zu bedenken, dass die NNT nur eine aus einerspezifischen Studie abgeleitete Zahl ist, deren Interpre-tation ein hohes Mass an Subjektivität zugrunde liegt, dieimmer nur im Kontext einer definierten Erkrankung be-deutsam ist und die nicht als fixe Masszahl für die Wirk-samkeit einer Therapie angesehen werden kann [10].Im oben erwähnten Beispiel zu Misoprostol liegt dieNNT zur Verhinderung einer Komplikation bei 263;würde man wirklich 262 Patienten vergeblich mit einernebenwirkungsbehafteten Therapie behandeln wollen?Wo läge ein relevanter Grenzwert? Im Bereich derSchmerztherapie, um ein anderes Beispiel zu nennen,wäre eine NNT von >3 bereits nicht mehr akzeptabel.Bei Erkrankungen mit niedrigem Ausgangsrisikonimmt die NNT immer einen hohen Wert an. Liegt dieEreignisrate ohne Therapie unter 1%, ist die NNT un-abhängig vom Effektausmass automatisch grösser als100. Allein auf Basis der NNT würden sämtliche Präven-tionsmassnahmen als irrelevant einzustufen sein [1] –bei einigen Impfungen nimmt man schliesslich eineNNT im vier- und fünfstelligen Bereich in Kauf.

Schlussfolgerungen und Empfehlungen

– Generell lässt sich die klinische Relevanz eines Stu-dienergebnisses durch Masszahlen bzw. Effektmas-se nur unzureichend erfassen.

– Die statistische Signifikanz ist eine notwendige Vor-aussetzung für die klinische Relevanz – aber statis-tische Signifikanz sagt nichts über die klinischeRelevanz aus.

– Alle Masszahlen sind für sich weder richtig nochfalsch, sondern weisen Vorteile und Nachteile auf.

– Jede einzelne Masszahl beleuchtet nur Teilaspektedes Studienergebnisses und ist kritisch zu hinter-fragen (denken Sie an Descartes!). Die isolierteBetrachtung eines Effektmasses erlaubt in der Regelkeine Aussagen zur klinischen Relevanz.

– Einer Publikation, in der nur ein ausgewähltes Ef-fektmass in den Vordergrund gerückt wird (z.B. dierelative Risikoreduktion), ist mit Skepsis zu begeg-nen. Die Auswahl eines Effektmasses geschiehtmeistens nicht zufällig, sondern oft versucht der Au-tor die Ergebnisse seiner Studie möglichst gut zuverkaufen. Schliesslich wissen wir heute, dass dieAkzeptanz eines Studienergebnisses erheblich vonder Darstellung der Daten abhängt (sogenanntes«Evidence based purchasing» [11]).

– Therapieeffekte sollten daher immer mit mehrerenMasszahlen dargestellt und bewertet werden (so wieviele Frösche geküsst werden müssen, um einenPrinzen zu finden).

– Den Angaben im Abstract einer Studie sollten Siegrundsätzlich misstrauen [12].

– Von allen Masszahlen kommen dem absoluten Risikound der absoluten Risikoreduktion die grössteBedeutung zu. Angaben hierzu sollten in einer Pub-likation nicht fehlen! – was aber leider doch häufigder Fall ist [13].

– Alle Masszahlen basieren auf Daten aus einer Studieund weisen daher eine statistische Unsicherheit auf.Bei allen Effektmassen, einschliesslich der Numberneeded to treat, sind daher immer auch die Vertrauens-intervalle anzugeben [14].

Korrespondenz:Dr. med. Peter KleistGlaxoSmithKline AGTalstrasse 3–5CH-3053 Mü[email protected]

Literatur1 Windeler J, Thomas S. Relevanz von Effektstärken. ZEFQ 2010;

doi:10.1016/j.zefq.2010.03.015.2 Lange S. Statistisch signifikant – auch relevant für den Patienten?

Med Klinik. 1999;94(Suppl II):22–4.3 Moore MJ, Goldstein D, Hamm J, et al. Erlotinib plus gemcitabine

compared with gemcitabine alone in patients with advanced pan-creatic cancer: a phase III trial of the National Cancer Institute of Ca-nada Clinical Trials Group. J Clin Oncol. 2007;25:1960–6.

4 Cohen J. A power primer. Quant Meth Psychol. 1992;112:155–9.5 Kramer HC, Morgan GA, Leech NL, et al. Measures of clinical signi-

ficance. J Am Acad Child Adolesc Psychiatry. 2003;42:1524–9.6 Deeks JJ. When can odds ratios mislead? BMJ. 1998;317:1155–6.7 Akobeng A. Understanding measures of treatment effect in clinical

trials. Arch Dis Child. 2005;90:54–6.8 Silverstein FE, Graham DY, Senior JR, et al. Misoprostol reduces se-

rious gastrointestinal complications in patients with rheumatoid ar-thritis receiving nonsteroidal anti-inflammatory drugs. A rando-mized, double-blind, placebo-controlled trial. Ann Intern Med. 1995;123:241–9.

9 Schechtman E. Odds ratio, relative risk, absolute risk reduction, andthe number needed to treat – which of these should we use? Valuein Health. 2002;5:431–6.

10 Raspe H, Windeler J. Stärken und Schwächen der «Number neededto treat» (NNT). Z ärztl Fortbild Qual Gesundhwes. 2004;98:359–60.

11 Fahey T, Griffiths S, Peters TJ. Evidence based purchasing: under-standing results of clinical trials and systematic reviews. BMJ.1995;311:1056–9.

12 Gotzsche PC. Believability of relative risks and odds ratios in ab-stracts: cross sectional study. BMJ. 2006;333:231–4.

13 Schwartz L, Woloshin S, Dvorin EL, Welch HG. Ratio measures inleading medical journals: structured review of accessibility of under-lying absolute risks. BMJ. 2006;333:1248–50.

14 Altman DG. Confidence intervals for the number needed to treat.BMJ. 1998;317:1309–12.