Signifikant - und sonst nichts?
Über die Bewertung
 
Autor: Hornung, Joachim
Keywords: Klinische Studien, Signifikanztest, Qualitätskriterien, Kriterienkatalog 
Abstract: Statistische Signifikanz kann kein alleiniges Qualitätskriterium für klinische Studien sein. Eine kurze Liste unverzichtbarer Forderungen wird gegeben. Die Problematik von Bewertungsskalen wird diskutierte. 
Copyright: Schattauer Verlagsgesellschaft mbH, Lenzhalde 3, 70192 Stuttgart, 1996 
7. Jun. 1996 
Summary. Statistical significance cannot be a general criterion for the validity of a clinical trial. Many further requirements must be fulfilled for a clinical trial to be valid. A short list of such basic requirements is given. Problems inherent in scores and checklists for evaluating the validity of a clinical trial are discussed.

Subject: Clinical Trials, Tests of Significance, Criteria of Methodological Quality, Scores, Checklists

veröffentlicht in: Forschung in der Komplementärmedizin, Hrsg.: Hornung, 1996, Schattauer Verlag, DM 49,00
 

Grundforderungen, die jede Studie erfüllen muß
Signifikanz - ein universelles Gütesiegel?
Literatur


Einleitung

Die Bedeutung der naturwissenschaftlichen Forschung für die Komplementärmedizin ist durchaus umstritten und ungeklärt [9]. Dennoch gibt es für fast alle Teilgebiete der Komplementärmedizin inzwischen klinische Studien von mehr oder weniger überzeugender methodischer Qualität, siehe z.B. [13, 17, 22]. Wird nun zu einem speziellen Thema eine Forschungsarbeit bekannt, so ist die erste Frage die, ob das Ergebnis signifikant positiv für das betreffende Therapiekonzept war oder nicht.

Statistische Signifikanz enthält zwei Botschaften zugleich:

  1. Das Ergebnis weist in eine bestimmte Richtung;
  2. der reine Zufall produziert ein solches Ergebnis nur in seltenen Fällen.
Wenn sich ein Untersuchungsergebnis als statistisch signifikant erwiesen hat, sagt man auch, es sei statistisch abgesichert. Diese Redeweise enthält den Keim eines Irrtums. Abgesichert wogegen?

Nehmen wir an, in einer klinischen Studie seien zwei Therapieformen A und B gegeneinander geprüft worden. Es habe sich zwischen den beiden Patientengruppen hinsichtlich des Behandlungserfolgs ein deutlicher Unterschied ergeben. Worauf kann der Unterschied beruhen? Es gibt folgende Möglichkeiten:

  1. Fehler in Planung, Durchführung, Auswertung und Interpretation der Studie;
  2. Unterschiede zwischen den Patientengruppen hinsichtlich Zusammensetzung, Erwartungshaltungen, Behandlung, Beobachtung und Beurteilung;
  3. zufällige Unterschiede infolge biologischer Variabilität und Meßfehlern;
  4. tatsächliche Unterschiede in der Wirksamkeit der beiden Therapieformen, die sich auch bei einer größeren Zahl von Patienten, die unter gleichen Umständen behandelt wurden, bestätigen ließen.
Man wünscht, den gefundenen Unterschied zwischen den Gruppen auf eine unterschiedliche Wirksamkeit der Therapien zurückzuführen. Dazu müssen die Fehlerquellen 1 ­ 3 ausgeschlossen werden. Die unter Punkt 3 genannte Zufallsbedingtheit der Unterschiede läßt sich durch einen Signifikanztest abschätzen. Wenn sich auf dem 5%-Niveau Signifikanz ergibt, so besagt dies, daß sich ein solcher Unterschied, wie er gefunden wurde, oder ein noch größerer Unterschied durch den reinen Zufall in weniger als 5% solcher Versuche ergibt.

Statistische Signifikanz sagt jedoch nichts über die in den Punkten 1 und 2 genannten methodischen Mängel aus, ob diese also existierten oder nicht. Es ist ein grober Fehler, sich mit der statistischen Signifikanz allein zu begnügen und die methodische Qualität der Untersuchung nicht zu hinterfragen. Dieser Fehler ist jedoch allgegenwärtig, und es fällt schwer, ihn nicht zu begehen. Wenn man z.B. hört, daß die 14 besten klinischen Studien zur Homöopathie in 9 Fällen ein signifikant positives Ergebnis pro Homöopathie erbrachten und nur in 5 Fällen ein Null-Ergebnis [9], so ist man versucht, den Wirksamkeitsnachweis für gegeben zu halten. Wie aber war die methodische Qualität der Studien?

Leider gibt es hierfür kein so einfaches Maß. Zahlreiche Bewertungsskalen sind entwickelt worden [20]. Diese unterscheiden sich in den Aspekten, die berücksichtigt werden, und in den Wertigkeiten, die den einzelnen Aspekten zugemessen werden. Fast nie erreicht eine Studie 100% der erreichbaren Punkte. Ab welcher Punktzahl ist eine Studie beweiskräftig, d.h., ab wann ist das Ergebnis nicht mehr durch methodische Mängel erklärbar?

Es ist zweifelhaft, ob eine additive Skala überhaupt das Gewünschte leisten kann. Wenn es z.B. 10 Forderungen gibt, die unabdingbar erfüllt sein müssen, dann kann man deren Punktzahlen nicht sinnvoll zusammenzählen. Es gibt nur zwei Möglichkeiten: Entweder sind alle essentiellen Forderungen erfüllt, oder sie sind es nicht.

Welches sind nun diese conditiones sine quibus non? Sind dies Doppelblindheit, Randomisation und Placebokontrolle?

1. Doppelblindheit. Diese wird allgemein für unverzichtbar gehalten, doch sind die meisten Therapieverfahren nicht (doppel-)blind prüfbar, so z.B. chirurgische, physikalische, diätetische, psychotherapeutische, sogar etliche medikamentöse Maßnahmen. Das Blindverfahren ist auch dort, wo es formell anwendbar ist, in vieler Hinsicht problematisch [4, 14]. Kann es daher generell gefordert werden? Walach geht in diesem Buch sehr detailliert auf diese Probleme ein [23].

2. Randomisation. Die Schwierigkeiten, die sich der Randomisation entgegenstellen, werden heute sowohl in der Schulmedizin als auch in der Komplementärmedizin gesehen [2, 5, 8, 15]. Die Gründe, die eine Randomisation oft untunlich oder gar undurchführbar erscheinen lassen, werden in diesem Buch von Abel und Windeler ausführlich benannt [1].

3. Placebokontrolle. Zum Verständnis des Placebo-Effektes ist offenbar eine vollständige Neuorientierung nötig [6, 16, 21]. De Craen und Kleijnen geben in diesem Buch hierzu richtungsweisende Ansätze [3].
 
 
zum Anfang1 Grundforderungen, die jede Studie erfüllen muß
 
Wenn schon diese drei Grundpfeiler der modernen Therapieforschung brüchig sind, welche Maßstäbe können dann verbindlich sein? Bei genauer Betrachtung zeigt sich, daß Verblindung, Randomisation und Placebokontrolle nicht Bestandteile jeder Therapieforschung sein müssen [8]. Vielmehr gibt es andere, grundlegendere Dinge, die größere Verbindlichkeit haben. Es sei hier eine kurze Aufzählung von 16 essentiellen Punkten gegeben. Einen sehr ausführlichen Katalog findet man in [11, 12], siehe auch [20].

  1. Die Methodik der Arbeit muß insgesamt auf einem hohen Niveau stehen und fehlerfrei sein.
  2. Therapie, Therapiedauer, Zielvariable und Beobachtungsdauer müssen im Hinblick auf die Fragestellung sinnvoll gewählt sein.
  3. In vielen Fällen wird eine individuelle Behandlung der Patienten mit flexibler Therapieführung bessere Erfolge zeigen als die in klinischen Studien meist verwendeten starren Schemata.
  4. Ein- und Ausschlußkriterien für die Patienten müssen exakt und zweckmäßig definiert und auch tatsächlich eingehalten werden.
  5. Die beteiligten Ärzte müssen für die angewandten Therapien kompetent und langjährig erfahren sein. Das Gegenteil ist oft der Fall [23]. Weiterhin müssen die Ärzte für beide im Vergleich stehenden Therapien in gleicher Weise engagiert sein.
  6. Alle Begleittherapien und Nebenwirkungen müssen vollständig und genau erfaßt werden.
  7. Die statistische Auswertung muß professionell, adäquat, verständlich und nachvollziehbar sein.
  8. Die Ergebnisse dürfen nicht absichtlich oder unabsichtlich gefälscht sein.
  9. Patient account, drop-out-Analyse und intention-to-treat-Auswertung müssen sorgfältig und vollständig nach heutigem Standard vorliegen.
  10. Die Problematik des multiplen Testens und des data-snooping muß den Autoren bewußt sein, und es muß damit Schluß gemacht werden. Konfirmative Studien(-anteile) sind von explorativen schon im Studienplan ausdrücklich zu unterscheiden.
  11. Da statistische Signifikanz auf dem 5%-Niveau allfällig ist, soll mindestens das 1%-Niveau eingehalten werden.
  12. Wichtiger sind jedoch medizinische Relevanz und Praxiskonformität. Die Therapieergebnisse innerhalb der Gruppen sind mindestens ebenso ausführlich zu diskutieren wie die Differenzen zwischen den Gruppen, vgl. [19].
  13. Jede Arbeit muß eine überzeugende Selbstkritik enthalten mit ausführlicher Diskussion der Lücken, Fehlerquellen, nicht-beantworteten Fragen und Vorschläge für folgende Arbeiten. Dort, wo die Autoren sich nur selbst loben, ist etwas nicht in Ordnung.
  14. Da alle Kataloge und Skalen formal vorgehen, ist zusätzlich der Überzeugungsgrad wichtig, den man beim Lesen bekommt. Auf diese Weise können auch nicht formalisierbare und auch spezielle Aspekte einer einzelnen Arbeit erfaßt werden. Wie ist der Gesamteindruck?
  15. Die Autoren selbst und auch unabhängige Forscherteams müssen in der Lage sein, das Ergebnis unter vergleichbaren Bedingungen zu reproduzieren.
  16. Zur Vermeidung des publication bias ist die Teilnahme an einem Präregister oder die Vorabveröffentlichung des Studienplans erforderlich.
 
zum Anfang2 Signifikanz - ein universelles Gütesiegel?
 
Der Sinn solcher Forderungen liegt darin, falsche und irreführende Forschungsergebnisse zu vermeiden. Statistische Signifikanz allein kann dies nicht garantieren. Bedauerlicherweise fungiert sie im heutigen medizinischen Forschungsbetrieb als nicht hinterfragbares Gütesiegel. Zelen schrieb hierzu schon 1966 [24]:

"Today, the way one draws an inference from a real set of data is taught in many classrooms of statistics in exactly the same way as one would teach geometry or algebra. The student learns that statistical methods consist of a body of formulas and fixed sets of rules, which once memorized, can be used throughout one's lifetime in drawing inference from data. We've learned one has only to determine whether to reject at the 5 per cent or 1 per cent level. Then the statistician can grandly draw obvious conclusions about data from any scientific field by proclaiming significance or nonsignificance. Such nonsense is taught usually by professors who have had minimal contact with the applications of statistical methods to scientific problems. As a result the number of scientific papers which use statistical methods for window dressing is increasing. It appears that the P value next to a contingency table is beginning to mean what the 'Seal of Good Housekeeping' means to the housewife."

Selbst wenn es bei der Bewertung einer klinischen Studie unter Außerachtlassung aller sonstigen Qualitätskriterien nur um die Abschätzung des Zufallseinflusses geht, ist der Signifikanztest immer noch ein schwaches Hilfsmittel, wie in [7] näher ausgeführt wird. Es gibt bessere mathematische Verfahren. Auf grundsätzliche Mißverständnisse bei der Anwendung von Signifikanztests auf klinische Studien wird in [10] hingewiesen. Es ist offenbar so, daß trotz der pandemischen Verbreitung der Signifikanztests ihre Anwender oft eine geringe Kenntnis über sie haben. Dies führt zu einer Überschätzung ihrer Aussagekraft. Für die Komplementärmedizin resultiert hieraus das Problem der richtigen Einschätzung der vorliegenden Forschungsergebnisse.
 
 
zum AnfangLiteratur

  1. Abel U, Windeler J (1995) Comprehensive Blinded Prognostic Rating - Eine Studienform für die nichtrandomisierte Bewertung von Therapien. In: Hornung J (Hrsg.) Forschungsmethoden in der Komplementärmedizin. Schattauer Verlag, Stuttgart, S. 153-163
  2. Dannehl K (1995) Naturwissenschaftliche Methode und (alternativ-)medizinische Forschung. In: Hornung J (Hrsg.) Forschungsmethoden in der Komplementärmedizin. Schattauer Verlag, Stuttgart, S. 176-188
  3. de Craen AJM, Kleijnen J (1995): The Role of Non-Specific Factors in Randomised Clinical Trials - Proposals for Future Research. In: Hornung J (Hrsg.) Forschungsmethoden in der Komplementärmedizin. Schattauer Verlag, Stuttgart, S. 109-120
  4. Hornung J (1989) Zur Problematik der Doppelblindstudien. therapeutikon 3 (No.12): 696-701
  5. Hornung J (1990) Zur Problematik der Doppelblindstudien - 2. Mitteilung: Unorthodoxe Studienpläne. therapeutikon 4 (No.6): 355-360
  6. Hornung J (1994) Was ist ein Placebo? Die Bedeutung einer korrekten Definition für die klinische Forschung. Forschende Komplementärmedizin 1 (No.4): 160-165
  7. Hornung J (1977) Kritik der Signifikanztests. Metamed 1: 325-345. Überarbeitete Fassung beim Autor
  8. Hornung J (1995) Mein wichtigstes Anliegen zur Methodologie. In: Hornung J (Hrsg.) Forschungsmethoden in der Komplementärmedizin. Schattauer Verlag, Stuttgart, S. 164-175
  9. Hornung J (1995) Quo vadis Homöopathieforschung. Über klinische Studien und Arzneimittelprüfung am Gesunden in der Homöopathie. In Vorbereitung für Forschende Komplementärmedizin
  10. Hornung J (1995) Über Randomisation und Signifikanztests in klinischen Studien. Forsch Komplementärmed 2:6-11
  11. Hornung J, Bartsch U, Schreiber O (1994) Kriterienkatalog für die methodische Qualität klinischer Therapieprüfungen, Teil 1, Forschende Komplementärmedizin 1 (No.1):44-49
  12. Hornung J, Bartsch U, Schreiber O (1994) Kriterienkatalog für die methodische Qualität klinischer Therapieprüfungen, Teil 2, Forschende Komplementärmedizin 1 (No.2):76-86
  13. Kiene H (1989) Klinische Studien zur Misteltherapie der Krebserkrankung. Eine kritische Würdigung. Dissertation, Universität Witten/Herdecke
  14. Kiene H (1993) Kritik der klinischen Doppelblindstudie. Medizin Verlag München
  15. Kiene H (1994) Komplementärmedizin-Schulmedizin. Der Wissenschaftsstreit am Ende des 20. Jahrhunderts. Schattauer Verlag, Stuttgart
  16. Kienle GS (1995) Der Placeboeffekt: Realität oder Illusion? In: Hornung J (Hrsg.) Forschungsmethoden in der Komplementärmedizin. Schattauer Verlag, Stuttgart, S. 84-97
  17. Kleijnen J, Knipschild P, ter Riet G (1991) Clinical Trials of Homoeopathy. The Berlin Journal on Research in Homoeopathy 1 (No.3): 175-194
  18. Kleinsorge H (Hrsg.) (1986) Kontrollierte Arzneimittelstudien und ihre Alternativen. Fischer Verlag, Stuttgart New York
  19. Moerman DE (1983) General Medical Effectiveness and Human Biology: Placebo Effects in the Treatment of Ulcer Disease. Medical Anthropology Quarterly 14: 13-16
  20. Moher D, Jadad AR, Nichol G, Penman M, Tugwell P, Walsh S (1995) Assessing the Quality of Randomized Controlled Trials: An Annotated Bibliography of Scales and Checklists. Controlled Clinical Trials 16:62-73
  21. Stange R (1995) Placebos in klinischen Studien - ein historischer Versuch. In: Hornung J (Hrsg.) Forschungsmethoden in der Komplementärmedizin. Schattauer Verlag, Stuttgart, S. 98-108
  22. Vogler-Hinze S (1995) Unkonventionelle Methoden in der Krebstherapie. Hippokrates Verlag, Stuttgart
  23. Walach H (1995): Verblindung in klinischen Homöopathie-Studien? In: Hornung J (Hrsg.) Forschungsmethoden in der Komplementärmedizin. Schattauer Verlag, Stuttgart, S. 1-16
  24. Zelen M (1966) Diskussionsbemerkung in: Cutler SJ, Greenhouse JSW, Cornfield J, Schneiderman MA (1966) The Role of Hypothesis Testing in Clinical Trials. J Chron Diseases 19: 857-882, zitiert nach Scheider B: Kontrollierte Arzneimittelstudien in Klinik und Praxis. In: Kleinsorge H (Hrsg.) (1986) Kontrollierte Arzneimittelstudien und ihre Alternativen. G.Fischer Verlag, Stuttgart
 
zum Anfang
 © copyright by Datadiwan  E-mail: webmeister@datadiwan.de