Exercises to Introduction to Bioinformatics Assignment 5 ... · PDF file• Neben...

Post on 06-Feb-2018

216 views 1 download

Transcript of Exercises to Introduction to Bioinformatics Assignment 5 ... · PDF file• Neben...

Exercises toIntroduction to Bioinformatics Assignment 5: Protein interaction networks

Samira Jaeger

Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 2

Aufgabe 1 – Netzwerkzentralität (6P)

• In der Vorlesung haben Degree Centrality besprochen.

– Finde drei weitere etablierte Zentralitätsmaße und

diskutiere diese (Formel + Idee).

– In welchem Zusammenhang werden diese verwendet

und welche biologischen Aussagen können durch

Zentralitätsanalyse für biologische Netzwerke getroffen

werden ?

Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 3

Aufgabe 2 – Datenbanksuche (2P)

• Neben Protein-protein Interaktionen innerhalb einer Spezies gibt es auch spezies-übergreifende Interaktionen, z.B. Virus-Host-Interaktionen. HIV-1 oder das Epstein-Barr Virus infizieren Menschen über Virus-Host-Interaktionen. Spezifische Datenbanken erfassen und speichern diese Host-Virus-Interakionen, z.B. HIV-1, Human Protein Interaction Database (http://www.ncbi.nlm.nih.gov/RefSeq/HIVInteractions/index.html).

• Das HIV-1 Genom besteht aus 9 Genen die wiederum 19 Proteine kodieren, die in unterschiedlichster Art und Weise mit einer Vielzahl von menschlichen Proteinen interagieren, um verschiedene Pathways im menschlichen Organismus auszunutzen. – Welche Formen von Interaktionen zwischen HIV-1 und Mensch können

unterschieden werden ?

– Gibt es menschliche Proteine, die mit mehreren HIV-1 Proteinen interagieren ? Wenn ja, welche sind dies und welchen Pathways kommen diese vor?

Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 4

Aufgabe 3 – Analyse eines Proteininteraktionsnetzwerkes (12P)

• Auf der Vorlesungsseite ist das Proteininteraktionsnetzwerk der Fruchtfliege (Drosophila melanogaster) bereit gestellt, welches im Rahmen der Übung analysiert werden soll. Das Netzwerk ist im sif-format Formaten verfügbar.

• Das sif-format ist ein einfaches Textformat in dem Proteininteraktionen eines Netzwerkes/Graphens folgendermassen dargestellt werden. Jede Zeile steht für eine ungerichtete Kante und hat die Form:

– P1 pp P2

– P2 pp P3

– P2 pp P4

– Dabei sind Px und Py Proteinidentifier (UniProt Ids) und pp zeigt eine Protein-Protein-Interaktion an.

Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 5

Aufgabe 3.1 – Netzwerkeigenschaften (5P)

• Im ersten Teil der Aufgabe soll das Interaktionsnetzwerk in

Java eingelesen werden und anschließend seine

Eigenschaften bestimmt werden:

– Charakterisiere das Interaktionsnetzwerk: Wie viele Proteine und

Interaktionen umfasst es ? Bestimme die durchschnittliche Anzahl

Interaktionen pro Protein.

– Berechne die (a) Kantendichte und (b) den durchschnittlichen

Clusterkoeffizienten in obigem Fliege-Netzwerk.

– Berechne für jedes Protein die Degree Centrality und ordne die

Proteine nach ihrer Zentralität. Welches sind die 5 zentralsten

Proteine im Netzwerk (und welche funktionalen Aufgaben erfüllen

sie, Uniprot) ?

Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 6

Aufgabe 3.2 – Funktionale Module (7P)

• Im zweiten Teil der Aufgabe sollen funktionale Module identifiziert

werden. Funktionale Module oder Cluster sind in Netzwerken als stark

vernetzte Subgraphen zu finden. Die Identifizierung von k-cores in

Interaktionsnetzwerken ist eine Möglichkeit um solche stark vernetzten

Subgraphen zu detektieren. k-cores sind definiert als eine Gruppe von

Proteinen, in der jedes Protein mindestens k Interaktionen besitzt.

• Implementiere das vorgestellte Verfahren zur Identifizierung von k-

cores.

• Finde den größten k-core in dem Interaktionsnetzwerk und

visualisiere diesen.

• Wie viele Proteine enthält dieser k-core und wie viele Interaktionen

besitzt jedes Protein im k-core.

Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 7

Aufgabe 3.2 – Analyse von k-cores (2P)

• Analysiere die funktionalen Eigenschaften des Moduls

repräsentiert durch den identifizierten k-core.

• Tipp: Die funktionale Analyse kann mit Hilfe von DAVID

(http://david.abcc.ncifcrf.gov/) durchgeführt werden.

• DAVID ist ein Analyse-Tool mit dem Gruppen von

Genen und Proteinen anhand ihrer Funktion, Pathways

oder Domänen untersucht werden können, um

überrepräsentierte funktionale Eigenschaften in diesen

Gruppen zu finden.

Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 8

Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 9

Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 10

Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 11

Ulf Leser and Samira Jaeger: Bioinformatics, Wintersemester 2010/2011 12

Submission

• Submit all requested data as plain text by Thursday, 07.07.2011, 23.59

• Centrality measures, formulars, idea and discussion of potential

applications in biology/bioinformatics

• List of interaction types between HIV and human

• List of proteins that interaction with different HIV proteins and their

functions/pathways

• Program in source code

• Details of the k-core and functional description of its proteins found

in DAVID

• Approximate working time !

• Send by mail to me.