Statistische Bewertung neuer Methoden in der forensischen Anthropologie; Statistical assessment of...

7
Rechtsmedizin 2014 · 24:172–178 DOI 10.1007/s00194-014-0948-3 Online publiziert: 13. April 2014 © Springer-Verlag Berlin Heidelberg 2014 F. Ramsthaler 1  · M.A. Verhoff 2 1  Institut für Rechtsmedizin, Universität des Saarlandes, Homburg/Saar 2  Institut für Rechtsmedizin, Universität Frankfurt a. M., Frankfurt a. M. Statistische Bewertung  neuer Methoden in der  forensischen Anthropologie Experten schöpfen einerseits aus ihrem persönlichen Wissen und einem über die Zeit gewonnenen Er- fahrungsrepertoire und stützten ihre Aussagen andererseits auf Ergebnis- se unabhängiger Studien. Zusammen verleiht eine solche Kombination aus persönlichem und von individueller Erfahrung unabhängigem Wissen der Expertise wissenschaftliches Gewicht und Plausibilität. Die Verwendung etablierter und bewährter Metho- den garantiert dabei eine Standar- disierung und Wiederholbarkeit der Begutachtungspraxis und liefert ein übertragbares sowie für vergleich- bare Fälle allgemeingültiges Bewer- tungsinstrument. Viele Verfahren basieren als Grundprin- zip auf individuellen sowie systemati- schen Beobachtungen und Messungen, anhand derer schließlich eine Bewertung oder Beurteilung (z. B. Diagnose) erfolgen kann. Diese in unterschiedlicher Weise er- fassten stetigen oder nominal- bzw. ordi- nal-skalierten Merkmalsausprägungen können per Prinzip nur begrenzt genau sein, d. h., sie beinhalten unvermeidbar eine bestimmte Fehlerrate. D Eine Methode erbringt valide Ergeb- nisse, wenn die Befunderfassung  möglichst genau, wiederholbar  und untersucherunabängig ist. Auf der individuellen persönlichen Ebe- ne reflektieren Fehlerquoten die unter- schiedlichen Erfahrungshorizonte (z. B. beim Messen oder Klassifizieren) und Be- fähigungen des einzelnen Untersuchers. Die andere Ebene beinhaltet ein vom Be- obachter/Untersucher unabhängiges tech- nisches Attribut, wie genau und wieder- holbar eine Messmethode instrumentell sein kann. Besondere Aufmerksamkeit verdienen diese Überlegungen bei der Implementie- rung neuer Methoden: Neue Verfahren müssen sich nicht nur im Vergleich zum gegenwärtigen Goldstandard bewähren, sondern darüber hinaus ihre Praktikabili- tät und Untersucherunabhängigkeit unter Beweis stellen. Im Nachfolgenden wird auf das Pro- blem der Konkordanz, der Übereinstim- mung von Ergebnissen, sowohl bei der Verwendung unterschiedlicher Untersu- chungsmethoden an ein und demselben Untersuchungsobjekt (Methode A vs. Me- thode B) als auch der Anwendung einer einzelnen Methode durch verschiedene Untersucher (Untersucher A, B, C …) mit- hilfe der sog. Konkordanzanalysen einge- gangen. Zur Illustration dienen Beispiele aus der forensischen Anthropologie. Der Bezug zur forensischen Anthropologie ist kein willkürlicher, sondern ein auf beson- dere Weise relevanter, da für nahezu al- le physisch-anthropologischen Methoden ein starker Populationsbezug besteht [9]: Die entwickelten Methoden besitzen per se eingeschränkte Gültigkeit innerhalb der Population, an der sie entwickelt wur- den. Hieraus ergibt sich die Notwendig- keit der stetigen Neubewertung und Re- evaluation der verwendeten Methoden, sobald sie an einer anderen Gruppe ange- wendet werden sollen. Ein klassisches Bei- spiel stellt der Methodenkatalog zur Le- bensaltersschätzung dar, dessen einzelne Verfahren einer kontinuierlichen Über- prüfung unterzogen werden müssen, so- bald sie an einer nicht primär vergleichba- ren Bevölkerungsgruppe zur Anwendung gelangen sollen. „Interobserver“-Variabilität bei nichtstetigen Beobachtungen Untersucher gelangen bei ihren Bewer- tungen nominaler oder ordinaler Merk- malsausprägungen (. Tab. 1) aus unter- schiedlichen Gründen oft nicht zu iden- tischen Ergebnissen. Die Konsequenzen können insbesondere bei diagnostischen Verfahren ganz erheblich sein. Bezo- gen auf häufige forensische Fragestellun- gen werden das Ergebnis und somit auch denkbare juristische Folgen (z. B. volljäh- rig ja/nein) von dieser Untersucherabhän- gigkeit wesentlich beeinflusst. »   Untersucherabhängigkeit  beeinflusst auch mögliche  juristische Folgen Als Maß für diese Unsicherheit existieren verschiedene statistische Ansätze, von denen an dieser Stelle die Folgenden vor- gestellt werden sollen: F   prozentuale Übereinstimmung („overall percent agreement“, OPA) und F   κ-Statistik. Prozentuale Übereinstimmung Die Kalkulation von OPA ist simpel und ohne Statistik-Software möglich. Hierzu wird die Anzahl der Übereinstimmungen in den bestimmten Klassen summiert und durch die Gesamtzahl der Beobachtungen geteilt. 172 | Rechtsmedizin 3 · 2014 Leitthema

Transcript of Statistische Bewertung neuer Methoden in der forensischen Anthropologie; Statistical assessment of...

Page 1: Statistische Bewertung neuer Methoden in der forensischen Anthropologie; Statistical assessment of new methods in forensic anthropology;

Rechtsmedizin 2014 · 24:172–178DOI 10.1007/s00194-014-0948-3Online publiziert: 13. April 2014© Springer-Verlag Berlin Heidelberg 2014

F. Ramsthaler1 · M.A. Verhoff2

1 Institut für Rechtsmedizin, Universität des Saarlandes, Homburg/Saar2 Institut für Rechtsmedizin, Universität Frankfurt a. M., Frankfurt a. M.

Statistische Bewertung neuer Methoden in der forensischen Anthropologie

Experten schöpfen einerseits aus ihrem persönlichen Wissen und einem über die Zeit gewonnenen Er-fahrungsrepertoire und stützten ihre Aussagen andererseits auf Ergebnis-se unabhängiger Studien. Zusammen verleiht eine solche Kombination aus persönlichem und von individueller Erfahrung unabhängigem Wissen der Expertise wissenschaftliches Gewicht und Plausibilität. Die Verwendung etablierter und bewährter Metho-den garantiert dabei eine Standar-disierung und Wiederholbarkeit der Begutachtungspraxis und liefert ein übertragbares sowie für vergleich-bare Fälle allgemeingültiges Bewer-tungsinstrument.

Viele Verfahren basieren als Grundprin-zip auf individuellen sowie systemati-schen Beobachtungen und Messungen, anhand derer schließlich eine Bewertung oder Beurteilung (z. B. Diagnose) erfolgen kann. Diese in unterschiedlicher Weise er-fassten stetigen oder nominal- bzw. ordi-nal-skalierten Merkmalsausprägungen können per Prinzip nur begrenzt genau sein, d. h., sie beinhalten unvermeidbar eine bestimmte Fehlerrate.

D Eine Methode erbringt valide Ergeb-nisse, wenn die Befunderfassung möglichst genau, wiederholbar und untersucherunabängig ist.

Auf der individuellen persönlichen Ebe-ne reflektieren Fehlerquoten die unter-schiedlichen Erfahrungshorizonte (z. B. beim Messen oder Klassifizieren) und Be-fähigungen des einzelnen Untersuchers. Die andere Ebene beinhaltet ein vom Be-

obachter/Untersucher unabhängiges tech-nisches Attribut, wie genau und wieder-holbar eine Messmethode instrumentell sein kann.

Besondere Aufmerksamkeit verdienen diese Überlegungen bei der Implementie-rung neuer Methoden: Neue Verfahren müssen sich nicht nur im Vergleich zum gegenwärtigen Goldstandard bewähren, sondern darüber hinaus ihre Praktikabili-tät und Untersucherunabhängigkeit unter Beweis stellen.

Im Nachfolgenden wird auf das Pro-blem der Konkordanz, der Übereinstim-mung von Ergebnissen, sowohl bei der Verwendung unterschiedlicher Untersu-chungsmethoden an ein und demselben Untersuchungsobjekt (Methode A vs. Me-thode B) als auch der Anwendung einer einzelnen Methode durch verschiedene Untersucher (Untersucher A, B, C …) mit-hilfe der sog. Konkordanzanalysen einge-gangen. Zur Illustration dienen Beispiele aus der forensischen Anthropologie. Der Bezug zur forensischen Anthropologie ist kein willkürlicher, sondern ein auf beson-dere Weise relevanter, da für nahezu al-le physisch-anthropologischen Methoden ein starker Populationsbezug besteht [9]: Die entwickelten Methoden besitzen per se eingeschränkte Gültigkeit innerhalb der Population, an der sie entwickelt wur-den. Hieraus ergibt sich die Notwendig-keit der stetigen Neubewertung und Re-evaluation der verwendeten Methoden, sobald sie an einer anderen Gruppe ange-wendet werden sollen. Ein klassisches Bei-spiel stellt der Methodenkatalog zur Le-bensaltersschätzung dar, dessen einzelne Verfahren einer kontinuierlichen Über-prüfung unterzogen werden müssen, so-bald sie an einer nicht primär vergleichba-

ren Bevölkerungsgruppe zur Anwendung gelangen sollen.

„Interobserver“-Variabilität bei nichtstetigen Beobachtungen

Untersucher gelangen bei ihren Bewer-tungen nominaler oder ordinaler Merk-malsausprägungen (. Tab. 1) aus unter-schiedlichen Gründen oft nicht zu iden-tischen Ergebnissen. Die Konsequenzen können insbesondere bei diagnostischen Verfahren ganz erheblich sein. Bezo-gen auf häufige forensische Fragestellun-gen werden das Ergebnis und somit auch denkbare juristische Folgen (z. B. volljäh-rig ja/nein) von dieser Untersucherabhän-gigkeit wesentlich beeinflusst.

»  Untersucherabhängigkeit beeinflusst auch mögliche juristische Folgen

Als Maß für diese Unsicherheit existieren verschiedene statistische Ansätze, von denen an dieser Stelle die Folgenden vor-gestellt werden sollen:F  prozentuale Übereinstimmung

(„overall percent agreement“, OPA) und

F  κ-Statistik.

Prozentuale Übereinstimmung

Die Kalkulation von OPA ist simpel und ohne Statistik-Software möglich. Hierzu wird die Anzahl der Übereinstimmungen in den bestimmten Klassen summiert und durch die Gesamtzahl der Beobachtungen geteilt.

172 |  Rechtsmedizin 3 · 2014

Leitthema

Page 2: Statistische Bewertung neuer Methoden in der forensischen Anthropologie; Statistical assessment of new methods in forensic anthropology;

Beispiel 1. Zwei Untersucher sollen den Ossifikationsgrad der Crista iliaca nach Schmidt et al. [15] graduieren (. Tab. 1). Zu beachten ist dabei die ausgewoge-ne Besetzung der einzelnen Stadien in der Studienplanung, andernfalls können falsch-hohe OPA-Werte resultieren.

Beispiel 2. In einem Fußballteam sollen anhand von Orthopantomogrammen die Wurzelreifestadien nach Demirjian hin-sichtlich ihrer Untersucherübereinstim-mung nach der OPA-Methode getestet werden [5]. Aufgrund der a priori existie-renden Dominanz von erwachsenen Spie-lern wird man das einfach zu beurteilende Stadium H besonders häufig vorfinden. Selbst wenn in den niedrigen Stadien E und F deutliche Unsicherheiten zwischen den Observern existieren, wird der OPA-Wert hoch ausfallen.

»  Fallzahlplanung: Die seltenste Gruppe sollte 20 Beobachtungen nicht unterschreiten

In diesem Zusammenhang wird auf die Notwendigkeit einer nachvollziehbaren Fallzahlplanung hingewiesen [14]. Mit Einschränkungen kann als allgemeine Faustregel gelten, dass die seltenste Grup-pe 20 Beobachtungen nicht unterschrei-ten sollte.

κ-Statistik

Für die Bewertung der Untersucherüber-einstimmung ist es relevant abzuschät-zen, in welchem Umfang die Überein-stimmung den reinen Zufall übersteigt. Für diese Frage hat sich die κ-Statistik, wie sie erstmalig von Cohen 1960 beschrieben wurde [4], als Verfahren der Wahl durch-gesetzt. „κ“ berechnet, vereinfacht ausge-drückt, die Differenz zwischen beobach-teter und zufälliger Übereinstimmung [11]. Der κ-Wert ist eine Kennzahl, die das maximal mögliche Ausmaß beschreibt, in dem eine hohe Übereinstimmung jenseits des Zufalls durch Optimierung der Unter-

suchungsmethode (z. B. Schulung) zu er-langen ist:

Zur Bestimmung der zufälligen Überein-stimmung bedient man sich der theore-tischen Annahme einer vollkommenen Unabhängigkeit von Beurteilungen meh-rerer Untersucher.

Beispiel 3. Das Geschlecht einer Person soll anhand morphologischer Merkma-le des Schädels von 2 Untersuchern be-stimmt werden. Hieran ist das Grund-prinzip gut zu illustrieren (. Tab. 2, 3).

Die Wahrscheinlichkeit, dass bei-de Untersucher unabhängig voneinan-der, z. B. basierend auf verschiedenen Merkmalsausprägungen (. Tab. 4) einen Schädel als weiblich bezeichnen, beträgt 0,45 (Untersucher A) • 0,5 (Untersucher B) =0,225. Entsprechend beträgt die Wahr-scheinlichkeit der beiden Untersucher, einen Schädel als männlich zu bestim-men, 0,55 • 0,5=0,275. Aus purem Zufall

Tab. 1  Graduierung des Ossifikationsgrads der Crista iliaca nach Schmidt et al. [15] durch 2 Untersucher

    Untersucher 1

Untersucher 2   Stadium 1 Stadium 2 Stadium 3 Stadium 4

Stadium 1 A B C D

Stadium 2 E F G H

Stadium 3 I J K L

Stadium 4 M N O P

Tab. 2  Bestimmung des Geschlechts von 100 Schädeln anhand morphologischer Merkmale durch 2 Untersucher

  Untersucher A

Untersucher B   Weiblich Männlich |p|

Weiblich 40 10 50

Männlich 5 45 50

|p| 45 55 100

Tab. 3  Berechnung der Wahrscheinlichkeiten aus den Daten von . Tab. 1

  Untersucher A

Untersucher B   Weiblich Männlich |p|

Weiblich (0,4) (0,1) (0,5)

Männlich (0,05) (0,45) (0,5)

|p| (0,45) (0,55) (1,00)

Tab. 4  Merkmale, anhand derer die Ge-schlechtsschätzung der beiden unabhän-gigen Untersucher erfolgte

Untersucher A Untersucher B

Glabella Jochbeinstärke

Arcus superciliaris Processus mastoideus

Orbita-Form Foramen magnum

Mentum Kieferwinkel

Tab. 5  Software-Pakete, die Prozeduren für eine Berechnung von κ bereitstellen

Software Quelle

SPSS® MKAPPASC.SPS (externes Makro)

SAS® MAGREE.SAS (Makro)

Medcalc® Command ►Tests ►„Inter-rater agreement“

Excel-Sheet http://www.rechtsmedizin-homburg.de

http://www.ccit.bcm.tmc.edu/jking/homepage

173Rechtsmedizin 3 · 2014  | 

Page 3: Statistische Bewertung neuer Methoden in der forensischen Anthropologie; Statistical assessment of new methods in forensic anthropology;

resultieren somit 0,225+0,275=0,5 (d. h. 50 von 100 Bewertungen), 50%ige Über-einstimmung. Man kann aus den obigen Zahlen die OPA berechnen:

und hieraus ableiten, dass die Untersu-cherreliabilität 35% oberhalb des Zufalls

(85%−50%) liegt. Cohens κ berechnet sich somit im vorliegenden Fall

Für die Berechnung kann ein Excel-Tool verwendet werden, dass unter http://www.rechtsmedizin-homburg-saar.de von den Autoren bereitgestellt wurde (. Abb. 1).

Die Cohens κ-Statistik stellt ein er-probtes Werkzeug dar, wenn das Maß der Übereinstimmung zwischen 2 Untersu-chern beim kategorialen Bewerten von Sachen, Personen, Eigenschaften quanti-fiziert werden soll (. Abb. 2; [4]). Fleiss [6] sowie Fleiss et al. [7] erweiterten die Methode auf Fragestellungen mit multip-len Untersuchern (k >2).

Beispiel 4. Drei Untersucher beurtei-len 75 Schädel nach dem „Knussmann-

Zusammenfassung · Abstract

Rechtsmedizin 2014 · 24:172–178   DOI 10.1007/s00194-014-0948-3© Springer-Verlag Berlin Heidelberg 2014

F. Ramsthaler · M.A. Verhoff

Statistische Bewertung neuer Methoden in der forensischen Anthropologie

ZusammenfassungEine Methode kann nur dann valide Ergeb-nisse erbringen, wenn die Befunderfassung möglichst genau, wiederholbar und unter-sucherunabängig ist. Auf der individuellen persönlichen Ebene reflektieren Fehlerquo-ten die unterschiedlichen Erfahrungshorizon-te (z. B. beim Messen oder Klassifizieren) und Befähigungen des einzelnen Untersuchers. Die andere Ebene beinhaltet ein vom Beob-achter/Untersucher unabhängiges techni-sches Attribut, wie genau und wiederholbar eine Messmethode instrumentell sein kann. Besondere Aufmerksamkeit verdienen diese Überlegungen bei der Implementierung neu-er Methoden: Neue Verfahren müssen sich nicht nur im Vergleich zum gegenwärtigen Goldstandard bewähren, sondern darüber hi-naus auch ihre Praktikabilität und Untersu-cherunabhängigkeit unter Beweis stellen. Im Nachfolgenden wird anhand von Beispie-

len aus der forensischen Anthropologie auf Probleme der Konkordanz, der Übereinstim-mung von Ergebnissen, sowohl bei der Ver-wendung unterschiedlicher Untersuchungs-methoden an ein und demselben Untersu-chungsobjekt (Methode A vs. Methode B) als auch der Anwendung einer einzelnen Metho-de durch verschiedene Untersucher (Unter-sucher A, B, C …) mithilfe sog. Konkordanz-analysen eingegangen. Für die Prüfung der „Interobserver“-Variabilität bei nichtstetigen Beobachtungen haben sich die „overall per-centage agreement“ (OPA) und die κ-Stati-stik als geeignet erwiesen. Bei der „Inter“- und „Intraobserver“-Reliabilität von intervall-skalierten Daten sind die Intraklassenkorrela-tion(ICC)-Analyse und zunehmend die „Tech-nical-error-of-measurement“(TEM)-Analyse etabliert. Aus der Perspektive einer evidenz-basierten Forensik ist eine nachvollziehbare 

statistische Absicherung der Konkordanz so-wie der Inter- und Intraobserver-Abweichun-gen zwingend zu fordern. Da insbesondere die Osteologie in maßgeblicher Weise auf der Erhebung metrisch erfassbarer Merkmale be-ruht, deren unterschiedliche Merkmalsaus-prägungen als primäre Beschreibungsebene anthropologischer Kerneigenschaften wie Al-ter, Geschlecht oder Populationszugehörig-keit dienen, können bereits geringe Unsicher-heiten bei der Datenerhebung das Endergeb-nis beeinflussen.

SchlüsselwörterReproduzierbarkeit von Ergebnissen ·  Dateninterpretation, statistisch ·  Forschungsdesign · Observer-Variation ·  Poweranalysen

Statistical assessment of new methods in forensic anthropology

AbstractA method can only ensure valid results if it al-lows precise, reproducible, examiner-inde-pendent collection of data. On an individual person level, differences in the level of expe-rience (e.g. in measuring or classifying) and in the capability of individual examiners are re-flected in the error rate. On a second, obser-ver or examiner-independent level, the error rate is dependent on technical aspects of the method, i.e. the accuracy and reproducibility of instrumental measurements. These sour-ces of error particularly need to be kept in mind when implementing new methods. Not only does the value of new methods have to be proven in comparison to the current gold standard, but beyond that their practicabili-ty and observer-independence also need to 

be proven. In this article concordance analy-ses are used to consider the problem of con-cordance drawing on examples from the field of forensic anthropology, i.e. the agreement of results, for both the use of different meth-ods to measure the same object (method A versus method B) and the use of one method by different examiners (examiner A, B, C etc.). The overall percentage agreement (OPA) and κ statistics have proven to be suitable tools to assess interobserver variability in discon-tinuous observations. For interval scaled da-ta intraclass correlation (ICC) analyses and, in-creasingly, the use of technical error of mea-surement (TEM) have become established tools for assessing interobserver and intra-observer reliability. The need for transparent 

statistical validation of concordance as well as of interobserver and intraobserver variabil-ity must be considered crucial to evidence-based forensics. Because the field of osteol-ogy, in particular, relies heavily on the metric determination of features which, due to their variability, are used to describe key anthro-pological characteristics, such as age, sex, or ethnicity, even small discrepancies in the da-ta collection process can already have an im-pact on the final result.

KeywordsReproducibility of results ·  Data interpretation, statistical · Research  design · Observer variation · Power analysis

174 |  Rechtsmedizin 3 · 2014

Page 4: Statistische Bewertung neuer Methoden in der forensischen Anthropologie; Statistical assessment of new methods in forensic anthropology;

Schema“ hinsichtlich der verschiedenen Merkmale mit 2 bis 4 Ausprägungen, z. B. oberer Augenhöhlenrand (−2) flach; (−1) sichtbar; (0) indifferent; (+1) promi-nent; (+2) sehr prominent. Es stehen ei-nige Software-Pakete zur Verfügung, die entsprechende Prozeduren für eine Be-rechnung von κ bereitstellen (. Abb. 2; . Tab. 5).

Der kalkulierte κ-Wert kann infolge der Normierung Werte zwischen 0 und 1 annehmen, wobei 1 einer vollständigen Übereinstimmung entspräche. Schwieri-ger sind die Bewertung und Interpretation der gewonnenen κ-Werte. Wirtz u. Caspar [17] verweisen auf die umfangreiche Lite-ratur zum Thema und sehen ähnlich wie Fleiss und Cohen κ-Werte >0,75 als Indi-kator für eine sehr gute Übereinstimmung und 0,6< κ <0,75 als einen Wertebereich, der eine noch gute Übereinstimmung be-legt [1]. An dieser Stelle muss allerdings darauf hingewiesen werden, dass es sich hierbei eher um willkürliche Faustregeln handelt, die je nach Frage einer Studie und in Abhängigkeit von den zu erfassenden Merkmalsausprägungen unterschiedlich restriktiv gehandhabt werden sollten. Un-abhängig von diesen „Eichungsvorgän-gen“ ist die Verwendung von κ besonders beim Vergleich alternativer Methoden sehr hilfreich. Andererseits müssen Fehl-interpretationen vermieden werden, ins-besondere bei der Bewertung von Signi-fikanztests der gewonnenen κ-Werte. Für die Frage, ob eine Übereinstimmung auch aus der Perspektive einer reliablen Metho-denkritik ausreicht, genügt es demnach nicht, die Signifikanz zu „bescheinigen“, die im Grunde lediglich zum Ausdruck bringt, dass die verschiedenen Untersu-cher nicht nur zufällig in gleicher Weise gewertet und geurteilt haben.

„Inter“- und „Intra-observer“-Reliabilität bei intervallskalierten Daten

Die statistische Erfassung der Zwischen-beobachterreliabilität von Datensätzen mit intervallskalierten Eigenschaften er-folgt durch einen Vergleich zumeist phy-sikalischer Messungen (stetige Werte) der verschiedenen Untersucher. Das gleiche Prinzip gilt für Untersuchungen zur In-traobserver-Unabhängigkeit, bei denen

Abb. 2 9 „Inter-rater agreement“ (κ), Aus-gabemaske von Med-calc®, Beispiel 2 Unter-sucher, 3 Kategorien

Abb. 3 8 Screenshot über das Ausgabeprotokoll einer Intraklassenkorrelationsanalyse mithilfe der Statistiksoftware Medcalc®

Abb. 1 8 Excel-Tool zur Berechnung von κ, einschließlich Konfidenzintervall. (Download unter http://www.rechtsmedizin-homburg-saar.de)

175Rechtsmedizin 3 · 2014  | 

Page 5: Statistische Bewertung neuer Methoden in der forensischen Anthropologie; Statistical assessment of new methods in forensic anthropology;

Messwerte ein und desselben Untersu-chers an demselben Probenmaterial wie-derholt gemessen und an gleichen Objek-ten mit verschiedenen Methoden vergli-chen werden. Nachfolgend werden unter den zahlreichen Methoden die klassische „two-way“-unjustierte Intraklassenkorre-lation(ICC)-Analyse und die zunehmend häufig verwendete „Technical-error-of-measurement“(TEM)-Analyse vorgestellt.

Auf komplexere, in der industriel-len Messtechnik entwickelte und als Ins-trument des Qualitätsmanagements ein-gesetzte Verfahren der „Repeatability & Reproducibility“ (R&R), mit deren Hilfe gleichzeitig die Präzision und die Unter-sucherunabhängigkeit der Messmethode geprüft werden kann, soll an dieser Stel-le hingewiesen, jedoch nicht näher ein-gegangen werden. Besonders für paari-ge Messungen (Untersucher A, Unter-sucher B), bei denen die Reihenfolge der Messpaare eine Rolle spielt, hat sich die Bestimmung des Konkordanzkorrela-tionskoeffizienten bewährt [8].

Unabhängig davon, welche Metho-de zur Anwendung gelangen soll, ist bei der praktischen Durchführung der Versu-che zwingend auf eine Maskierung (Syno-nym Verblindung) der personen- und ob-jektbezogenen Daten zu achten. Bewährt hat sich die Verwendung „nichtsprechen-der Schlüssel“, worunter zu verstehen ist, dass die Untersuchungsobjekte eine ran-

domisierte Kennung erhalten, deren In-halt keinen Rückschluss auf das Objekt ermöglicht.

Sowohl die ICC-Methode als auch die TEM-Analyse sind Verfahren zur Quanti-fizierung der Beobachtungsübereinstim-mung.

D Die Messergebnisse werden als Indi-katoren der Reliabilität für überprüfte Beobachtungssysteme genutzt.

Beide Verfahren sind auf intervallska-lierte Beobachtungsdaten beschränkt. Die ICC basiert auf einem varianzanaly-tischen Ansatz. Dabei soll zwischen der Varianz zwischen(VARzwischen) den Beob-achtungsfällen, die auf die natürliche Va-riation der Merkmalsausprägungen zu-rückgeführt werden kann (Synonym sys-temische Varianz), und einer Fehlerstreu-ung der Messwerte innerhalb der Beob-achtungsfälle (VARinnerhalb), die auf eine unzureichende Beobachterübereinstim-mung hinweisen, unterschieden werden.

Hierbei ist n Anzahl der Messungen, k Anzahl der Untersucher, xij Messwert von Beobachter j im Beobachtungsfall i, ei Mittelwert eines Beobachtungsfalls i, g Mittelwert aller Messwerte xij; (Formeln nach [2]).

Bei der „two-way“-unjustierten ICC-Analyse werden die unterschiedlichen Messwerte nach dem Reliabilitätsmodell von Shrout und Fleiss bewertet [12, 16]. Bei diesem Verfahren wird dasjenige Maß der Zwischenbeobachterübereinstim-mung angegeben, bei dem die Unterschie-de zwischen den einzelnen Messungen an einem Untersuchungsobjekt durch belie-big viele Untersucher nicht aus der Fehler-varianz heraus gerechnet werden, sondern als Teile der Fehlervarianz erhalten blei-ben (. Abb. 3; [17]). Auch für die ICC gilt ein Wertebereich von [0≤ ICC ≤1].

Erfolgen paarweise lediglich jeweils 2 Messungen (2 unterschiedliche Verfah-ren an denselben Untersuchungsobjek-ten oder 2 Untersucher messen mit der-selben Methode jeweils ein Objekt), bie-tet es sich zunächst an, eine Visualisierung

42

40

40

38

38

36

36

34

34

32

32ObsB

Obs

A

30

30

28

2826

26

Abb. 4 8 Vergleichsplot einer doppelten Messung von Maximallängen des Processus mastoideus durch 2 Untersucher („observer“, ObsA, ObsB)

3

2

–1

1

–2

–325 30 35 40

Mittelwert ObsA und ObsB45

–2,4

2,3

–0,0

-1,96 SD

+1,96 SD

Mittelwert0

Abb. 5 8 Bland-Altmann-Diagramm illustriert eine Mittelwertlinie (blau) nahe bei 0 und Standardabweichungen der Messungen zweier Untersucher („observer“, ObsA und ObsB) bei ca. 2,4. Geht man von einer Standardnor-malverteilung der Daten aus, werden 95% der aus Messunsicherheiten re-sultierenden Abweichungen innerhalb von ±2,4 mm liegen

176 |  Rechtsmedizin 3 · 2014

Leitthema

Page 6: Statistische Bewertung neuer Methoden in der forensischen Anthropologie; Statistical assessment of new methods in forensic anthropology;

der Messunterschiede zwischen den bei-den unabhängigen Messvorgängen vorzu-nehmen. Dabei werden die beiden Mess-paare in einem Diagramm auf der Or-dinate gegen die Abszisse aufgetragen (. Abb. 4).

Kwiecien et al. empfehlen zur ergän-zenden Darstellung die sog. Bland-Alt-mann-Diagramme, die sich komfortabel z. B. mit der Software Medcalc® erstellen lassen. Bei dieser Darstellungsform wer-den die Mittelwerte der Messpaare gegen die Messdifferenzen aufgetragen und ein definierter Übereinstimmungsbereich dargestellt („limits of agreement“; [3, 11]; . Abb. 5).

Möchte man 2 Methoden miteinander vergleichen, bei denen die eine als Gold-

standard gilt, ergibt sich bei Verwendung derselben Datenpaare ein geringfügig ab-weichendes Diagramm (. Abb. 6).

Ob die festgestellte Abweichung ver-tretbar ist, hängt nicht nur vom Verhält-nis der Messabweichung vom absoluten Messwert, sondern von der konkreten Fragestellung der Studie ab.

Eine gute grafische Ergänzung bieten die „Mountain“-Diagramme, auch „fol-ded empirical cumulative distribution plot“ genannt. Diese können die Symme-trie der Verteilung der Messabweichun-gen oberhalb und unterhalb der Nullli-nie als Ausdruck falsch-hoher und falsch-niedriger Messresultate zwischen den bei-den Untersuchungen veranschaulichen (. Abb. 7; [10]).

Technical-error-of- measurement-Analyse

Eine in der Anthropometrie zunehmend häufig verwendete Methode zur Quanti-fizierung von technischen Fehlerraten ist die TEM-Analyse.

D Die Technical-error-of-measure-ment-Analyse kann als Gebrauchs-index für die Exaktheit einer Messreihe verwendet werden.

Mithilfe der TEM-Analyse kann eine Qualitätskontrolle in Fällen erfolgen, bei denen wiederholte Messungen mit ver-schiedenen Untersuchern notwendig wer-den [13]. Die TEM-Analyse ermöglicht darüber hinaus eine einfache statistische Interpretation von Vergleichen, z. B. wenn Messvorgänge trainiert werden und der Erfolg des Übens überprüft werden soll. Die Analysen erfolgen an dichotomen Da-tensets (z. B. 2 Untersucher) nach folgen-dem Schema (s. Gleichungen):

Hierbei ist n Anzahl der Messungen, D Differenz der Mittelwerte.

Beispiel 5. Ein Student vermisst die ma-ximale Schädellänge an (digitalen) Com-putertomographiedatensätzen und möch-te seine Interrater-Unabhängigkeit prü-fen, indem er randomisiert zu unabhängi-gen Zeiten die Messungen vornimmt. Die kalkulierten TEM-Ergebnisse besitzen dieselbe Einheit (hier Millimeter) wie die ursprünglichen Messungen. Nach der fol-genden Gleichung kann ein hiervon un-abhängiger Koeffizient berechnet werden:

50

40

30

20

Perz

entil

e

10

–4 –3 –2 –1 0 1 2 3Di�erenz zu Test 1

0

Test 2Test 3

Abb. 7 9 „Mountain“-Diagramm: Folgende Transformation erfolgt für alle Perzentilen >50: Perzentile =100−Perzentile. Diese wer-den gegen die Diffe-renzen zwischen je-weils 2 Methoden auf-getragen. Die überwie-gend negativen Mess-abweichungen im Test 3 (Messverfahren 3) sind gut erkennbar

3

2

–1

1

–2

–325 30 35 40

Test 1 45

–2,3

2,2

–0,0

-1,96 SD

+1,96 SD

Mittelwert0

Abb. 6 9 Bland-Alt-mann-Diagramm wie . Abb. 4, doch hier unter der Annah-me Test 1 gegen Test 2 mit Test 1 als Gold-standard. Beachte: ge-ring differierende Wer-te für die „limits of ag-reement“

177Rechtsmedizin 3 · 2014  | 

Page 7: Statistische Bewertung neuer Methoden in der forensischen Anthropologie; Statistical assessment of new methods in forensic anthropology;

Hierbei ist R Reliabilitätskoeffizient und SD quadrierte Standardabweichung aller Messungen.

Ein Wert von 0,85 (85%) bedeutet, dass 85% der festgestellten Varianz unabhän-gig von Messfehlern durch den Untersu-cher existieren.

Fazit für die Praxis

F  Jedes neu zu etablierende Verfahren bedarf der Prüfung durch sog. Kon-kordanzanalysen zur Frage der Über-einstimmung und Untersucherunab-hängigkeit (Intra- und Interobserver-Reliabilität) sowohl bei Mess- als auch bei klassifizierenden Beurteilungsver-fahren.

F  Um Fehler bei der Beurteilung von Befundergebnissen zu vermeiden, müssen die verwendeten Methoden nicht nur valide, sondern auch repro-duzier- und wiederholbare Ergebnis-se erbringen. Deshalb kommt den hier aufgeführten Methoden als Be-standteil jeder Studie hohe Bedeu-tung zu.

F  Aus der Perspektive einer evidenz-basierten Forensik ist die nachvoll-ziehbare statistische Absicherung der Konkordanz sowie der Inter-und Int-raobserver-Abweichungen zwingend zu fordern. Da insbesondere die Os-teologie in maßgeblicher Weise auf der Erhebung metrisch erfassbarer Merkmale beruht, deren unterschied-liche Merkmalsausprägungen als pri-märe Beschreibungsebene anthropo-logischer Kerneigenschaften wie Al-ter, Geschlecht oder Populationszuge-hörigkeit dienen, können bereits ge-ringe Unsicherheiten bei der Daten-erhebung das Endergebnis beeinflus-sen.

Korrespondenzadresse

Dr. F. RamsthalerInstitut für Rechtsmedizin,  Universität des SaarlandesGebäude 42, 66421 Homburg/[email protected]

Einhaltung der ethischen Richtlinien

Interessenkonflikt.  F. Ramsthaler und M. A. Verhoff geben an, dass kein Interessenkonflikt besteht.

Der Beitrag enthält keine Studien an Menschen oder Tieren.

Literatur

  1.  Altman DG, Bland JM (1983) Measurement in me-dicine – the analysis of method comparison stu-dies. Statistician 32:307–317

  2.  Asendorpf J, Wallbott HG (1979) Maße der Beob-achterübereinstimmung: Ein systematischer Ver-gleich. Z Soz Psych 10:243–252

  3.  Bland JM, Altman DG (1986) Statistical methods for assessing agreement between two methods of clinical measurement. Lancet 1:307–310

  4.  Cohen J (1960) A coefficient for agreement for no-minal scales. Educ Psychol Measur 20:37–46

  5.  Demirjian A, Goldstein H, Tanner JM (1973) A new system of dental age assessment. Hum Biol 54:211–227

  6.  Fleiss JL (1971) Measuring nominal scale agree-ment among many raters. Psychol Bull 76:378–382

  7.  Fleiss JL, Nee JC, Landis JR (1979) Large sample va-riance of kappa in the case of different sets of ra-ters. Psychol Bull 86:974–977

  8.  Grouven U, Bender R, Ziegler A, Lange S (2007) Vergleich von Messmethoden. Dtsch Med Wo-chenschr 132:69–73

  9.  Himes JH (1989) Reliability of anthropometric met-hods and replicate measurements. Am J Phys An-thropol 79:77–80

10.  Krouwer JS, Monti KL (1995) A simple, graphical method to evaluate laboratory assays. Eur J Clin Chem Clin Biochem 33:525–527

11.  Kwiecien R, Kopp-Schneider A, Blettner M (2011) Concordance analysis: part 16 of a series on eva-luation of scientific publications. Dtsch Arztebl Int 108:515–521

12.  McGraw KO, Wong SP (1996) Forming inferences about some intraclass correlation coefficients. Psy-chol Methods 1:30–46

13.  Perini TA, Olivera GL de, Santos Ornellas O dos, Oli-vera FP de (2005) Technical error of measurement in anthropometry. Rev Bras Med Esporte 11:86–90

14.  Ramsthaler F, Burkholder I, Kettner M, Verhoff MA (2013) Fallzahlberechnung in forensisch-anthropo-logischen Studien. Rechtsmedizin 23:100–107

15.  Schmidt S, Schmeling A, Zwiesigk P et al (2011) Sonographic evaluation of apophyseal ossificati-on of the iliac crest in forensic age diagnostics in li-ving individuals. Int J Legal Med 125:271–276

16.  Shrout P, Fleiss JL (1979) Intraclass correlations: uses in assessing rater reliability. Psychol Bull 86:420–428

17.  Wirtz M, Caspar F (2002) Beurteilerübereinstim-mung und Beurteilerreliabilität. Hogrefe, München

U. Hammer, A. BüttnerLeichenschauDifferenzialdiagnostik häufiger  BefundeStuttgart: Schattauer 2013, 1. Aufl., 160 S., (ISBN 978-3-7945-2964-3), 59.99 EUR

Angesichts des Buchtitels möchte man 

spontan meinen: Schon wieder ein Buch 

zur Leichenschau?! Auf den zweiten Blick 

muss man konstatieren: In dieser Form 

eben noch nicht! Die Autoren haben es ver-

standen, in einer Symbiose von knappen, 

aber informativen Text einerseits und zahl-

reichen instruktiven Bildern andererseits 

dem Leichenschauer ein hilfreiches Instru-

ment zur Interpretation der Befunde an die 

Hand zu geben. Die direkte Gegenüberstel-

lung von morphologisch zwar ähnlichen, 

hinsichtlich der Ursache und Interpretation 

und damit in ihrer Bedeutung völlig unter-

schiedlichen Befunde ermöglicht auch dem 

weniger Erfahrenen den Weg zur Differen-

tialdiagnose.

Hilfreich ist auch die klare Gliederung der 

Kapitel:

1-3 postmortale Veränderungen allgemein

4 Austritt von Körperflüssigkeiten 

5, 6  nach der Topographie geordnete  

Befunde

7 Auffindesituationen

8  Todesursachen und Todesart

9   Logistik (Meldewege, Feuerbestattungs-

leichenschau, Umgang mit der Leiche bei 

nicht natürlichem Tod

10  Fotodokumentation

11  Zusatzuntersuchungen

12  Befundinterpretation

Diese Kapitel sind, der Intention des Buches 

folgend, teils knapp, jedoch prägnant ge-

schrieben. 

Laut Umschlagstext wendet sich das Buch 

an Ärzte aller Fachrichtungen, Kriminal-

beamte und Medizinstudenten. Für diese 

Zielgruppen ist das Buch sicherlich sehr 

gut geeignet; ergänzend möchte man 

den angehenden Rechtsmediziner in der 

Weiterbildung gesondert benennen. Der 

Preis von rund 60,00 Euro ist angesichts der 

hervorragenden Druckqualität sicherlich 

angemessen.

M. Graw (München)

Buchbesprechungen

178 |  Rechtsmedizin 3 · 2014

Leitthema