Signifikant - und sonst nichts?
Über die Bewertung
|
|
|
Autor: |
Hornung, Joachim |
Keywords: |
Klinische Studien, Signifikanztest, Qualitätskriterien,
Kriterienkatalog |
Abstract: |
Statistische Signifikanz kann kein alleiniges Qualitätskriterium
für klinische Studien sein. Eine kurze Liste unverzichtbarer Forderungen
wird gegeben. Die Problematik von Bewertungsskalen wird diskutierte. |
Copyright: |
Schattauer Verlagsgesellschaft mbH, Lenzhalde 3, 70192
Stuttgart, 1996 |
|
|
|
|
|
Summary. Statistical significance cannot be a general criterion
for the validity of a clinical trial. Many further requirements must be
fulfilled for a clinical trial to be valid. A short list of such basic
requirements is given. Problems inherent in scores and checklists for evaluating
the validity of a clinical trial are discussed.
Subject: Clinical Trials, Tests of Significance, Criteria of
Methodological Quality, Scores, Checklists
veröffentlicht in: Forschung in der Komplementärmedizin,
Hrsg.: Hornung, 1996, Schattauer Verlag, DM 49,00
Grundforderungen,
die jede Studie erfüllen muß
Signifikanz
- ein universelles Gütesiegel?
Literatur
Einleitung
Die Bedeutung der naturwissenschaftlichen Forschung für die Komplementärmedizin
ist durchaus umstritten und ungeklärt [9]. Dennoch gibt es für
fast alle Teilgebiete der Komplementärmedizin inzwischen klinische
Studien von mehr oder weniger überzeugender methodischer Qualität,
siehe z.B. [13, 17, 22]. Wird nun zu einem speziellen Thema eine Forschungsarbeit
bekannt, so ist die erste Frage die, ob das Ergebnis signifikant positiv
für das betreffende Therapiekonzept war oder nicht.
Statistische Signifikanz enthält zwei Botschaften zugleich:
-
Das Ergebnis weist in eine bestimmte Richtung;
-
der reine Zufall produziert ein solches Ergebnis nur in seltenen Fällen.
Wenn sich ein Untersuchungsergebnis als statistisch signifikant erwiesen
hat, sagt man auch, es sei statistisch abgesichert. Diese Redeweise enthält
den Keim eines Irrtums. Abgesichert wogegen?
Nehmen wir an, in einer klinischen Studie seien zwei Therapieformen
A und B gegeneinander geprüft worden. Es habe sich zwischen den beiden
Patientengruppen hinsichtlich des Behandlungserfolgs ein deutlicher Unterschied
ergeben. Worauf kann der Unterschied beruhen? Es gibt folgende Möglichkeiten:
-
Fehler in Planung, Durchführung, Auswertung und Interpretation der
Studie;
-
Unterschiede zwischen den Patientengruppen hinsichtlich Zusammensetzung,
Erwartungshaltungen, Behandlung, Beobachtung und Beurteilung;
-
zufällige Unterschiede infolge biologischer Variabilität und
Meßfehlern;
-
tatsächliche Unterschiede in der Wirksamkeit der beiden Therapieformen,
die sich auch bei einer größeren Zahl von Patienten, die unter
gleichen Umständen behandelt wurden, bestätigen ließen.
Man wünscht, den gefundenen Unterschied zwischen den Gruppen auf eine
unterschiedliche Wirksamkeit der Therapien zurückzuführen. Dazu
müssen die Fehlerquellen 1 3 ausgeschlossen werden. Die unter
Punkt 3 genannte Zufallsbedingtheit der Unterschiede läßt sich
durch einen Signifikanztest abschätzen. Wenn sich auf dem 5%-Niveau
Signifikanz ergibt, so besagt dies, daß sich ein solcher Unterschied,
wie er gefunden wurde, oder ein noch größerer Unterschied durch
den reinen Zufall in weniger als 5% solcher Versuche ergibt.
Statistische Signifikanz sagt jedoch nichts über die in den Punkten
1 und 2 genannten methodischen Mängel aus, ob diese also existierten
oder nicht. Es ist ein grober Fehler, sich mit der statistischen Signifikanz
allein zu begnügen und die methodische Qualität der Untersuchung
nicht zu hinterfragen. Dieser Fehler ist jedoch allgegenwärtig, und
es fällt schwer, ihn nicht zu begehen. Wenn man z.B. hört, daß
die 14 besten klinischen Studien zur Homöopathie in 9 Fällen
ein signifikant positives Ergebnis pro Homöopathie erbrachten und
nur in 5 Fällen ein Null-Ergebnis [9], so ist man versucht, den Wirksamkeitsnachweis
für gegeben zu halten. Wie aber war die methodische Qualität
der Studien?
Leider gibt es hierfür kein so einfaches Maß. Zahlreiche
Bewertungsskalen sind entwickelt worden [20]. Diese unterscheiden sich
in den Aspekten, die berücksichtigt werden, und in den Wertigkeiten,
die den einzelnen Aspekten zugemessen werden. Fast nie erreicht eine Studie
100% der erreichbaren Punkte. Ab welcher Punktzahl ist eine Studie beweiskräftig,
d.h., ab wann ist das Ergebnis nicht mehr durch methodische Mängel
erklärbar?
Es ist zweifelhaft, ob eine additive Skala überhaupt das Gewünschte
leisten kann. Wenn es z.B. 10 Forderungen gibt, die unabdingbar erfüllt
sein müssen, dann kann man deren Punktzahlen nicht sinnvoll zusammenzählen.
Es gibt nur zwei Möglichkeiten: Entweder sind alle essentiellen
Forderungen erfüllt, oder sie sind es nicht.
Welches sind nun diese conditiones sine quibus non? Sind dies Doppelblindheit,
Randomisation und Placebokontrolle?
1. Doppelblindheit. Diese wird allgemein für unverzichtbar
gehalten, doch sind die meisten Therapieverfahren nicht (doppel-)blind
prüfbar, so z.B. chirurgische, physikalische, diätetische, psychotherapeutische,
sogar etliche medikamentöse Maßnahmen. Das Blindverfahren ist
auch dort, wo es formell anwendbar ist, in vieler Hinsicht problematisch
[4, 14]. Kann es daher generell gefordert werden? Walach geht in diesem
Buch sehr detailliert auf diese Probleme ein [23].
2. Randomisation. Die Schwierigkeiten, die sich der Randomisation
entgegenstellen, werden heute sowohl in der Schulmedizin als auch in der
Komplementärmedizin gesehen [2, 5, 8, 15]. Die Gründe, die eine
Randomisation oft untunlich oder gar undurchführbar erscheinen lassen,
werden in diesem Buch von Abel und Windeler ausführlich benannt [1].
3. Placebokontrolle. Zum Verständnis des Placebo-Effektes
ist offenbar eine vollständige Neuorientierung nötig [6, 16,
21]. De Craen und Kleijnen geben in diesem Buch hierzu richtungsweisende
Ansätze [3].
1
Grundforderungen, die jede Studie erfüllen muß
Wenn schon diese drei Grundpfeiler der modernen Therapieforschung brüchig
sind, welche Maßstäbe können dann verbindlich sein? Bei
genauer Betrachtung zeigt sich, daß Verblindung, Randomisation und
Placebokontrolle nicht Bestandteile jeder Therapieforschung sein müssen
[8]. Vielmehr gibt es andere, grundlegendere Dinge, die größere
Verbindlichkeit haben. Es sei hier eine kurze Aufzählung von 16 essentiellen
Punkten gegeben. Einen sehr ausführlichen Katalog findet man in [11,
12], siehe auch [20].
-
Die Methodik der Arbeit muß insgesamt auf einem hohen Niveau stehen
und fehlerfrei sein.
-
Therapie, Therapiedauer, Zielvariable und Beobachtungsdauer müssen
im Hinblick auf die Fragestellung sinnvoll gewählt sein.
-
In vielen Fällen wird eine individuelle Behandlung der Patienten mit
flexibler Therapieführung bessere Erfolge zeigen als die in klinischen
Studien meist verwendeten starren Schemata.
-
Ein- und Ausschlußkriterien für die Patienten müssen exakt
und zweckmäßig definiert und auch tatsächlich eingehalten
werden.
-
Die beteiligten Ärzte müssen für die angewandten Therapien
kompetent und langjährig erfahren sein. Das Gegenteil ist oft der
Fall [23]. Weiterhin müssen die Ärzte für beide im Vergleich
stehenden Therapien in gleicher Weise engagiert sein.
-
Alle Begleittherapien und Nebenwirkungen müssen vollständig und
genau erfaßt werden.
-
Die statistische Auswertung muß professionell, adäquat, verständlich
und nachvollziehbar sein.
-
Die Ergebnisse dürfen nicht absichtlich oder unabsichtlich gefälscht
sein.
-
Patient account, drop-out-Analyse und intention-to-treat-Auswertung müssen
sorgfältig und vollständig nach heutigem Standard vorliegen.
-
Die Problematik des multiplen Testens und des data-snooping muß den
Autoren bewußt sein, und es muß damit Schluß gemacht
werden. Konfirmative Studien(-anteile) sind von explorativen schon im Studienplan
ausdrücklich zu unterscheiden.
-
Da statistische Signifikanz auf dem 5%-Niveau allfällig ist, soll
mindestens das 1%-Niveau eingehalten werden.
-
Wichtiger sind jedoch medizinische Relevanz und Praxiskonformität.
Die Therapieergebnisse innerhalb der Gruppen sind mindestens ebenso ausführlich
zu diskutieren wie die Differenzen zwischen den Gruppen, vgl. [19].
-
Jede Arbeit muß eine überzeugende Selbstkritik enthalten mit
ausführlicher Diskussion der Lücken, Fehlerquellen, nicht-beantworteten
Fragen und Vorschläge für folgende Arbeiten. Dort, wo die Autoren
sich nur selbst loben, ist etwas nicht in Ordnung.
-
Da alle Kataloge und Skalen formal vorgehen, ist zusätzlich der Überzeugungsgrad
wichtig, den man beim Lesen bekommt. Auf diese Weise können auch nicht
formalisierbare und auch spezielle Aspekte einer einzelnen Arbeit erfaßt
werden. Wie ist der Gesamteindruck?
-
Die Autoren selbst und auch unabhängige Forscherteams müssen
in der Lage sein, das Ergebnis unter vergleichbaren Bedingungen zu reproduzieren.
-
Zur Vermeidung des publication bias ist die Teilnahme an einem Präregister
oder die Vorabveröffentlichung des Studienplans erforderlich.
2
Signifikanz - ein universelles Gütesiegel?
Der Sinn solcher Forderungen liegt darin, falsche und irreführende
Forschungsergebnisse zu vermeiden. Statistische Signifikanz allein kann
dies nicht garantieren. Bedauerlicherweise fungiert sie im heutigen medizinischen
Forschungsbetrieb als nicht hinterfragbares Gütesiegel. Zelen schrieb
hierzu schon 1966 [24]:
"Today, the way one draws an inference from a real set of data is taught
in many classrooms of statistics in exactly the same way as one would teach
geometry or algebra. The student learns that statistical methods consist
of a body of formulas and fixed sets of rules, which once memorized, can
be used throughout one's lifetime in drawing inference from data. We've
learned one has only to determine whether to reject at the 5 per cent or
1 per cent level. Then the statistician can grandly draw obvious conclusions
about data from any scientific field by proclaiming significance or nonsignificance.
Such nonsense is taught usually by professors who have had minimal contact
with the applications of statistical methods to scientific problems. As
a result the number of scientific papers which use statistical methods
for window dressing is increasing. It appears that the P value next to
a contingency table is beginning to mean what the 'Seal of Good Housekeeping'
means to the housewife."
Selbst wenn es bei der Bewertung einer klinischen Studie unter Außerachtlassung
aller sonstigen Qualitätskriterien nur um die Abschätzung des
Zufallseinflusses geht, ist der Signifikanztest immer noch ein schwaches
Hilfsmittel, wie in [7] näher ausgeführt wird. Es gibt bessere
mathematische Verfahren. Auf grundsätzliche Mißverständnisse
bei der Anwendung von Signifikanztests auf klinische Studien wird in [10]
hingewiesen. Es ist offenbar so, daß trotz der pandemischen Verbreitung
der Signifikanztests ihre Anwender oft eine geringe Kenntnis über
sie haben. Dies führt zu einer Überschätzung ihrer Aussagekraft.
Für die Komplementärmedizin resultiert hieraus das Problem der
richtigen Einschätzung der vorliegenden Forschungsergebnisse.
Literatur
-
Abel U, Windeler J (1995) Comprehensive Blinded Prognostic Rating - Eine
Studienform für die nichtrandomisierte Bewertung von Therapien. In:
Hornung J (Hrsg.) Forschungsmethoden in der Komplementärmedizin. Schattauer
Verlag, Stuttgart, S. 153-163
-
Dannehl K (1995) Naturwissenschaftliche Methode und (alternativ-)medizinische
Forschung. In: Hornung J (Hrsg.) Forschungsmethoden in der Komplementärmedizin.
Schattauer Verlag, Stuttgart, S. 176-188
-
de Craen AJM, Kleijnen J (1995): The Role of Non-Specific Factors in Randomised
Clinical Trials - Proposals for Future Research. In: Hornung J (Hrsg.)
Forschungsmethoden in der Komplementärmedizin. Schattauer Verlag,
Stuttgart, S. 109-120
-
Hornung J (1989) Zur Problematik der Doppelblindstudien. therapeutikon
3 (No.12): 696-701
-
Hornung J (1990) Zur Problematik der Doppelblindstudien - 2. Mitteilung:
Unorthodoxe Studienpläne. therapeutikon 4 (No.6): 355-360
-
Hornung J (1994) Was ist ein Placebo? Die Bedeutung einer korrekten Definition
für die klinische Forschung. Forschende Komplementärmedizin 1
(No.4): 160-165
-
Hornung J (1977) Kritik der Signifikanztests. Metamed 1: 325-345. Überarbeitete
Fassung beim Autor
-
Hornung J (1995) Mein wichtigstes Anliegen zur Methodologie. In: Hornung
J (Hrsg.) Forschungsmethoden in der Komplementärmedizin. Schattauer
Verlag, Stuttgart, S. 164-175
-
Hornung J (1995) Quo vadis Homöopathieforschung. Über klinische
Studien und Arzneimittelprüfung am Gesunden in der Homöopathie.
In Vorbereitung für Forschende Komplementärmedizin
-
Hornung J (1995) Über Randomisation und Signifikanztests in klinischen
Studien. Forsch Komplementärmed 2:6-11
-
Hornung J, Bartsch U, Schreiber O (1994) Kriterienkatalog für die
methodische Qualität klinischer Therapieprüfungen, Teil 1, Forschende
Komplementärmedizin 1 (No.1):44-49
-
Hornung J, Bartsch U, Schreiber O (1994) Kriterienkatalog für die
methodische Qualität klinischer Therapieprüfungen, Teil 2, Forschende
Komplementärmedizin 1 (No.2):76-86
-
Kiene H (1989) Klinische Studien zur Misteltherapie der Krebserkrankung.
Eine kritische Würdigung. Dissertation, Universität Witten/Herdecke
-
Kiene H (1993) Kritik der klinischen Doppelblindstudie. Medizin Verlag
München
-
Kiene H (1994) Komplementärmedizin-Schulmedizin. Der Wissenschaftsstreit
am Ende des 20. Jahrhunderts. Schattauer Verlag, Stuttgart
-
Kienle GS (1995) Der Placeboeffekt: Realität oder Illusion? In: Hornung
J (Hrsg.) Forschungsmethoden in der Komplementärmedizin. Schattauer
Verlag, Stuttgart, S. 84-97
-
Kleijnen J, Knipschild P, ter Riet G (1991) Clinical Trials of Homoeopathy.
The Berlin Journal on Research in Homoeopathy 1 (No.3): 175-194
-
Kleinsorge H (Hrsg.) (1986) Kontrollierte Arzneimittelstudien und ihre
Alternativen. Fischer Verlag, Stuttgart New York
-
Moerman DE (1983) General Medical Effectiveness and Human Biology: Placebo
Effects in the Treatment of Ulcer Disease. Medical Anthropology Quarterly
14: 13-16
-
Moher D, Jadad AR, Nichol G, Penman M, Tugwell P, Walsh S (1995) Assessing
the Quality of Randomized Controlled Trials: An Annotated Bibliography
of Scales and Checklists. Controlled Clinical Trials 16:62-73
-
Stange R (1995) Placebos in klinischen Studien - ein historischer Versuch.
In: Hornung J (Hrsg.) Forschungsmethoden in der Komplementärmedizin.
Schattauer Verlag, Stuttgart, S. 98-108
-
Vogler-Hinze S (1995) Unkonventionelle Methoden in der Krebstherapie. Hippokrates
Verlag, Stuttgart
-
Walach H (1995): Verblindung in klinischen Homöopathie-Studien? In:
Hornung J (Hrsg.) Forschungsmethoden in der Komplementärmedizin. Schattauer
Verlag, Stuttgart, S. 1-16
-
Zelen M (1966) Diskussionsbemerkung in: Cutler SJ, Greenhouse JSW, Cornfield
J, Schneiderman MA (1966) The Role of Hypothesis Testing in Clinical Trials.
J Chron Diseases 19: 857-882, zitiert nach Scheider B: Kontrollierte Arzneimittelstudien
in Klinik und Praxis. In: Kleinsorge H (Hrsg.) (1986) Kontrollierte Arzneimittelstudien
und ihre Alternativen. G.Fischer Verlag, Stuttgart
|
|
©
copyright by Datadiwan E-mail:
webmeister@datadiwan.de