Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten...

25
0 Copyright 2016 FUJITSU Human Centric Innovation in Action Fujitsu World Tour 2016 Schnelle Orientierung in Genomdaten – Big Data Analyse in der Krebsforschung Dr. Fritz Schinkel Manuel Thalhofer

Transcript of Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten...

Page 1: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

0 Copyright 2016 FUJITSU

Human Centric Innovationin Action

FujitsuWorld Tour 2016Schnelle Orientierung in Genomdaten –Big Data Analyse in der Krebsforschung

Dr. Fritz Schinkel

Manuel Thalhofer

Page 2: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

1 Copyright 2016 FUJITSU

Genomanalyse in der Krebstherapie

Page 3: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

2 Copyright 2016 FUJITSU

Schlaglichter auf Life Science / Genetik

Sequenzierung des Menschlichen Genoms: (1990-2001/2/3)

Funktionelles Verständnis des Menschlichen Genoms: ENCODE

Varianten innerhalb der Bevölkerung:1000-Genome-Project

Genome 10k Projekt (10.000 Arten) Kommerzielle Ansätze zur Diagnostik:

z.B. 23andMe

Page 4: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

3 Copyright 2016 FUJITSU

600 TB/day(blog on code.facebook.com, April 10th, 2014)

12 TB/day(Cloud Data Management; Liang Zhao et al., 2014)

10 TB/daySequencing@DKFZ Stephens ZD, Lee SY, Faghri F, et al. (2015) Big Data: Astronomical or Genomical?. PLoS Biol 13(7): e1002195. Stephens ZD, Lee SY, Faghri F, et al. (2015) Big Data: Astronomical or Genomical?. PLoS Biol 13(7): e1002195.

Entwicklung der Genomsequenzierung

Aktuelle Kapazität:>35 Pbp* p.a. W

eltw

eite

Seq

uenz

ierk

apaz

itätp

.a.

Sequ

enzi

erte

hum

ane

Geno

me

Bisheriger ZuwachsVerdopplung alle 7 Monate (historisch)Verdopplung alle 12 Monate (Illumina)Verdopplung alle 18 Monate (Moore’s Law)

Page 5: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

4 Copyright 2016 FUJITSU

Genome-basierte Krebstherapie

Patient

Therapie-Entscheidung

Blut

Tumor

“Keimbahn” DNS

Tumor DNS

Spezifische Vulnerabilitäten des Tumors

Bioinformatorische

Analysis

Whole Genome Sequencing

TumorspezifischeMutationen

Report

Page 6: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

5 Copyright 2016 FUJITSU

Kohorten-weite Analysen

Aktuelle Strategie: Datenreduktion

*) BAM = Komprimierte SAM Datei, SAM = Sequence Alignment Map

Abweichungen zumReferenzgenom 5 GB / Patient

Tumorspezifische Mutationen 50 MB / Patient

Alinierte Rohdaten(BAM* files) 200 GB / Patient

Page 7: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

6 Copyright 2016 FUJITSU

CCND3PIM1MYCTP53BCL2MLL2

CREBBP

Problem durch Datenreduktion:Was bedeutet “keine Mutation gefunden”?

“Keine Mutation gefunden”

Keine Mutation vorhanden

Mutation nicht detektierbar

Wegen Datenreduktion nicht unterscheidbar

Page 8: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

7 Copyright 2016 FUJITSU

Projektziele

Rohdaten: 104 Proben

ohne Datenreduktion

Performance: Analysevon ~900.000 Positionen

Gesucht: Krebsgene ohne ausreichendeAbdeckung zur verlässlichen

Identifikation von Mutationen

Page 9: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

8 Copyright 2016 FUJITSU

Neue Wege mit Big Data

Page 10: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

9 Copyright 2016 FUJITSU

Erwartungen an Big Data Lösungen

Gigantische Datenmengen–bezahlbare Rechner und Speicher

Aktuelle Daten mit Halbwertzeit–Echtzeitverarbeitung

Variable Datenquellen–flexible Analyse

Veränderliches Umfeld–agiles Modellieren und Lernen

Page 11: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

10 Copyright 2016 FUJITSU

Storage

Plattform für Genomdaten: HPC vs. Hadoop Cluster

BAM2 B2,1 B2,2 B2,3 B2,n...

BAM1 B1,1 B1,2 B1,3 B1,n...

BAM3 B3,1 B3,2 B3,3 B3,n...

BAMm Bm,1 Bm,2 Bm,3 Bm,n...

HPC - Cluster Hadoop - Cluster

BAM2

BAM1

BAM3

BAMm

Bi,j

Bi,j

Bi,j

Bi,j

...

...

...

B2,1

B3,1

Bm,1

B1,1

B2,2 B2,3 B2,n

B1,2 B1,3 B1,n

B3,2 B3,3 B3,n

Bm,2 Bm,3 Bm,n...

Page 12: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

11 Copyright 2016 FUJITSU

Big Data Wertschöpfung: Daten im Vordergrund

Sammlung

Referenzgenom

DiagnoseDNA Proben Analyse

Page 13: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

12 Copyright 2016 FUJITSU

Datenübernahme

Kohorten Table(HDFS)

BAM 104 DNS Proben

140.000.000.000 Records,14*1012 Basen45 TB Daten (18TB komprimiert)

Page 14: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

13 Copyright 2016 FUJITSU

Erster Blick auf die Daten / Histogramme

Page 15: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

14 Copyright 2016 FUJITSU

Schritt für Schritt: Analytische Pipeline in Spreadsheets

Page 16: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

15 Copyright 2016 FUJITSU

Businessgrafik: Lücken im Überblick

Zeile: Chromosom

Spalte: Patient

Zelle: Abdeckung• Vorhanden in beiden Proben• Fehlt in der Kontrolle• Fehlt im Tumor• Fehlt in beiden Proben

Geringe Lücken verteilt über die Chromosomen.

Page 17: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

16 Copyright 2016 FUJITSU

Neue Erkenntnisse

Page 18: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

17 Copyright 2016 FUJITSU

Hadoop: Ideale Plattform für Genomdaten

Große Patientenkohorten (Forschung) Kostengünstige Server / Storage Konsolidierung

Ohne Datentransport kürzere Gesamtlaufzeit

Beschleunigung von Analysen auf Rohdaten (~30%)

Skalierung: Kein Flaschenhals durch Datentransport

Analyse einzelner Patientendaten (Klinik) Parallele Analyse einzelner Patientendaten

Um Faktoren schnellere Voll- und Detailanalysen (~4 x)

Kosten

Durchsatz

Page 19: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

18 Copyright 2016 FUJITSU

Blinde Flecken auf Krebsgenen

Fehlstellenanteil (0-1) Durchschnitt für einzelne Exone (Genabschnitte) Kohorte von 52 Patienten

Top 100 von 2208 untersuchten Exonen

Page 20: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

19 Copyright 2016 FUJITSU

Abdeckung der Krebsgene in den RohdatenCh

rom

osom

en

Exon-Nummer (Genabschnitt)

Durchschnittlicher Anteil über Kohorte:• Fehlt in Kontrolle und Tumor• Fehlt in Kontrolle oder Tumor• Vorhanden in Kontrolle und Tumor

Starke Lückenhäufung

Page 21: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

20 Copyright 2016 FUJITSU

Blind Spots in Krebsgenen

Page 22: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

21 Copyright 2016 FUJITSU

Ergebnisse

Schnelle Umsetzung der Fragestellung:Spreadsheets für Fachanwender ohne Programmierkenntnisse

Schnelle Verarbeitung:Analyse der Rohdaten im Hadoop-Cluster parallel ohne Skalierungsprobleme

Schnelle Einsichten:Mehrere Regionen in Krebsgenen ohne ausreichende Sequenzierdaten zur Identifikation von Mutationen wurden identifiziert

Page 23: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

22 Copyright 2016 FUJITSU

Der Weg: Fujitsu Smart Data ServicesW

ert

Verstehen

Aktion

Daten

Information

Wissen

Quellen

Import

TransformationBereinigung

Datenbank, Datei, Sensor, Social, Intenet

Automatisierter Datenimport, Lifecycle Berechtigungen, Fujitsu Data Content

Bereinigte Daten, korrelierbare Daten,VisualisierungenEinfaches Reporting, Fujitsu Info Content

Automatisierte AnalysenInfografikenReportsExportierbare Regeln / SteuerungsbefehleVerteilung

EntscheidungshilfenAutomatisierte AbläufeEvent-ProcessingProzessoptimierung Performance-management

Analyse

Erkenntnis

Analytics Data science

Big Data Assessment Workshop

Big Data Strategische Beratung

Big Data Analytics ServicesIntegration Services

Data architecture System architectureBeratung

Service

Page 24: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

23 Copyright 2016 FUJITSU

Smart Data Services und PRIMEFLEX® for Hadoop

Software-Stack Hadoop Distribution mit Support Streaming und In-memory Visuelles Analytisches Framework

Plattform-Optionen On-Premise: Entry- und Rack-Optionen Off-Premise: Cloud Angebot Integrated Solution oder Referenzarchitektur

Smart Data Service und Consulting Sizing und Integrations-Services Daten- und System-Architektur Beratung Analytics und Datascience Services

Entry Rack Cloud

Big Data Management

Analytics

Analytic ServicesIntegration und Sizing Service

Datascience Services

Smar

t Dat

a Se

rvic

esSo

ftwar

eIn

fras

truc

ture

Page 25: Fujitsu World Tour 2016 Human Centric Innovation in Action · Schnelle Orientierung in Genomdaten – ... Hadoop: Ideale Plattform für Genomdaten Große Patientenkohorten (Forschung)

24 Copyright 2016 FUJITSU