
Evolutionärer Algorithmus liefert passgenaue „molekulare Fingerabdrücke“

Um Machine Learning einsetzen zu können, müssen Forscher die Moleküle zunächst in eine computerlesbare Form übersetzen. Da sich bereits viele Arbeitsgruppen mit diesem Problem beschäftigt haben, gibt es dafür unterschiedliche Möglichkeiten. Allerdings ist schwer vorherzusagen, welche davon für die Beantwortung einer Frage am besten geeignet ist – zum Beispiel, um zu klären, ob eine chemische Verbindung für einen Menschen schädlich ist. Der neue Algorithmus soll helfen, den jeweils optimalen molekularen Fingerabdruck zu finden. Dafür wählt der Algorithmus aus vielen zufällig generierten molekularen Fingerabdrücken nach und nach jene aus, die in der Vorhersage die besten Ergebnisse erzielen. „Nach dem Vorbild der Natur setzen wir dabei Mutationen ein, also zufällige Veränderungen einzelner Bestandteile der Fingerabdrücke, oder rekombinieren Bestandteile zweier Fingerabdrücke“, erläutert Doktorand Felix Katzenburg.
„In anderen Studien werden Moleküle häufig durch quantifizierbare Eigenschaften beschrieben, die von Menschen ausgewählt und berechnet wurden“, ergänzt Frank Glorius. „Da der von uns entwickelte Algorithmus die jeweils relevanten Molekülstrukturen automatisch identifiziert, treten hier hingegen keine systematischen Verzerrungen durch menschliche Experimentatoren auf.“ Ein Vorteil sei außerdem, dass durch die Art und Weise der Encodierung nachvollziehbar bleibe, warum ein Modell eine bestimmte Vorhersage macht. So könne man zum Beispiel Rückschlüsse darauf ziehen, welche Teile eines Moleküls die Vorhersage über den Verlauf einer Reaktion positiv oder negativ beeinflussen, um diese relevanten Strukturen dann gezielt zu verändern.
Das münstersche Team stellte fest, dass seine neue Methode nicht in allen Fällen die besten Ergebnisse erzielte. „Wenn erhebliche menschliche Expertise in die Wahl besonders relevanter molekularer Eigenschaften geflossen ist oder sehr große Datenmengen zur Verfügung stehen, haben andere Methoden wie neuronale Netzwerke zum Teil die Nase vorn“, räumt Felix Katzenburg ein. Eines der zentralen Ziele der Studie sei es jedoch gewesen, eine Methode zur Encodierung von Molekülen zu entwickeln, die auf jeden molekularen Datensatz anwendbar ist und kein Expertenwissen über die zugrundeliegenden Zusammenhänge voraussetzt.
Die Deutsche Forschungsgemeinschaft unterstützte die Arbeit finanziell.
Originalveröffentlichung
Philipp M. Pflüger, Marius Kühnemund, Felix Katzenburg, Herbert Kuchen and Frank Glorius (2024): An evolutionary algorithm for interpretable molecular representations. Chem, DOI: 10.1016/j.chempr.2024.02.004