Ein GPU-basiertes Klassifikations-Framework: HIV Resistenzvorhersagen
Thema
Nach Schätzungen der WHO (World Health Organization) kam es im Jahre 2011 zu 2,7 Millionen Neuinfektionen mit HIV und 1,8 Millionen Menschen sind an den Folgen der HIV-Erkrankung gestorben. HIV ist damit, nach den Atemwegsinfektionen, die Infektionskrankheit mit den meisten Todesfällen. Mittlerweile sind mehr als 37 Millionen Menschen an AIDS gestorben.
Antivirale Behandlung kann die Virusreplikation in HIV-infizierten Patienten unterdrücken und somit das Fortschreiten der Infektion verhindern. Leider treten aufgrund der hohen Mutationsrate von HIV immer wieder Resistenzen auf, die die antivirale Behandlung unwirksam machen. Die hohe Mutationsrate führt zu einer schnellen Anpassung der Viren an die Medikamente und somit zu einer Entwicklung von resistenten Virusvarianten. Dies führt dann unweigerlich zu einem Versagen der antiviralen Behandlung.
Automatische Klassifikation und Vorhersage von Medikamentenresistenzen sind daher von großer Bedeutung sowohl für die HIV-Forschung als auch im klinischen Alltag. Eine neue Generation von Sequenziertechniken (next generation sequencing, NGS) macht es möglich mehrere Millionen Virus-Sequenzen aus einem Patienten zu isolieren. Mit diesen Sequenzen kann dann eine umfassende Analyse bereits vorhandener Medikamentenresistenzen erfolgen und eine optimale Auswahl an Behandlungen generiert werden. Durch die große Anzahl der Sequenzen ist aber eine iterative Vorhersage, aufgrund der dafür benötigten Zeit, nicht möglich.
In diesem Projekt soll ein Klassifikationssystem erstellt werden, indem auf Basis von NGS-Daten mit Hilfe von GPUs umfassende Vorhersagen zu Medikamentenresistenzen getätigt werden und anschließend eine optimale Behandlungsstrategie vorgeschlagen wird. Dafür ist es nötig die vorhandenen Klassifikatoren (siehe Literatur) für GPUs nutzbar zu machen und in ein benutzerfreundliches Framework einzubetten. Eine Auswahl von Klassifikationsalgorithmen soll implementiert werde, das Framework soll aber auch weitere Algorithmen, über feste Interfaces, zulassen können. Eine Schnittstelle zu R, beispielsweise über einen weiteren Layer, soll ebenfalls implementiert werden. Die eigentliche Implementierung soll aus Gründen der Performanz dann in C/C++ implementiert werden.
Literatur
- Heider D., Verheyen J., Hoffmann D.: Predicting Bevirimat resistance of HIV-1 from genotype, BMC Bioinformatics 2010, 11:37.
- Dybowski J. N., Heider D., Hoffmann D.: Prediction of co-receptor usage of HIV-1 from genotype, PLoS Computational Biology 2010, 6(4):e1000743.
- Dybowski J. N., Heider D., Hoffmann D.: Structure of HIV-1 quasi-species as early indicator for switches of co-receptor tropism, AIDS Research and Therapy 2010, 7(1):41.
- Heider D., Hoffmann D.: Interpol: An R package for protein sequence preprocessing, BioData Mining 2011, 4:16.
- Heider D., Verheyen J., Hoffmann D.: Machine learning on normalized protein sequences, BMC Research Notes 2011, 4:94.
- Sharp T.: Implementing Decision Trees and Forests on a GPU. ECCV 2008, Part IV, LNCS 5305, 595-608.
- Grahn H., Lavesson N., Hellborg Lapajne M., Slat D.: CudaRF: A CUDA-based Implementation of Random Forests. 9th IEEE/ACS International Conference on Computer Systems and Applications 2011, 95-101.
Umfang
Masterarbeit (6 Monate Bearbeitungszeit).
Student
Michael Olejnik
Betreuer
Dipl.-Inf. Michel Steuwer, PD Dr. habil. Dominik Heider (Universität Duisburg-Essen)