Vorhersage von Reaktionsergebnissen: Maschinen lernen Chemie
Künstliche Intelligenz hat in den vergangenen Jahren Einzug in den Alltag von Menschen gehalten – ob beim autonomen Fahren, der Übersetzung von Fremdsprachen oder in der medizinischen Diagnostik. Auch in der chemischen Forschung sind die Bestrebungen groß, künstliche Intelligenzen, maschinelles Lernen genannt, effektiv anzuwenden. Chemiker konnten solche Technologien bereits erfolgreich einsetzen, um die Eigenschaften einzelner Moleküle vorherzusagen – was es ihnen erleichtert, die herzustellenden Verbindungen auszuwählen.
Diese Herstellung, auch als Synthese bezeichnet, ist für gewöhnlich mit erheblichem Aufwand verbunden. Es gibt viele mögliche Syntheserouten, also Wege, um ein Zielmolekül herzustellen. Da der Erfolg jeder einzelnen Reaktion von zahlreichen Parametern abhängt, ist es selbst für erfahrene Chemiker nicht immer möglich vorherzusagen, ob eine Reaktion stattfindet und erst recht nicht, wie gut sie funktionieren wird. Um das zu ändern, hat sich ein Team aus Chemikern und Informatikern der Westfälischen Wilhelms-Universität Münster (WWU) zusammengeschlossen und eine Methode entwickelt, die auf Künstlicher Intelligenz basiert. Die Studie ist in der Fachzeitschrift „Chem“ erschienen.
Hintergrund und Methode:
„Eine chemische Reaktion ist ein hochkomplexes System“, erläutert Frederik Sandfort, Doktorand am Organisch-Chemischen Institut der WWU und einer der Erstautoren der Studie. „Im Gegensatz zur Vorhersage von Eigenschaften einzelner Verbindungen ist eine Reaktion das Zusammenspiel vieler Moleküle und somit ein multidimensionales Problem.“ Zudem gebe es keine klar definierten „Spielregeln“, die – wie bei modernen Schachcomputern – die Entwicklung von auf Künstlicher Intelligenz beruhenden Modellen vereinfachen. Aus diesem Grund basieren die bisherigen Ansätze zur akkuraten Vorhersage von Reaktionsergebnissen wie den Ausbeuten, also der Menge an gewonnenen Produkten, oder den Produkten selbst zumeist auf einem zuvor gewonnenen Verständnis über die molekularen Eigenschaften. „Die Entwicklung solcher Modelle ist mit einem hohen Aufwand verbunden. Zudem sind diese mehrheitlich hoch spezialisiert und nicht auf andere Problemstellungen übertragbar“, betont Frederik Sandfort.
Der Fokus der vorgestellten Arbeit lag daher besonders darauf, das Programm generell anwendbar zu machen, sodass es andere Chemiker leicht für ihre eigene Arbeit nutzen können. Um das zu gewährleisten, basiert das Modell direkt auf molekularen Strukturen. „Jede organische Verbindung kann wie ein Graph, quasi als Bild, dargestellt werden“, erläutert Informatiker Marius Kühnemund, ein weiterer Hauptautor. „Auf solchen Graphen können einfache Strukturabfragen vorgenommen werden, vergleichbar mit der Frage nach der Farbe oder Formen von Fotos. So können wir die sogenannte chemische Umgebung möglichst genau erfassen.“
Die Zusammenführung vieler aufeinanderfolgender Abfragen ergibt einen sogenannten molekularen Fingerabdruck. Solche einfachen Zahlenfolgen werden schon lange in der Chemoinformatik genutzt, um strukturelle Ähnlichkeit zu finden und eignen sich gut für computergestützte Anwendungen. In ihrem Ansatz verwendeten die Autoren eine Vielzahl solcher Fingerabdrücke, um die chemische Struktur jedes Moleküls möglichst genau darzustellen. „Auf diese Weise konnten wir ein robustes System entwickeln, das für die Vorhersage von ganz verschiedenen Reaktionsergebnissen genutzt werden kann“, ergänzt Marius Kühnemund. „Dasselbe Modell kann sowohl für die Vorhersage von Ausbeuten als auch von Stereoselektivitäten genutzt werden, was bisher weltweit einmalig ist.“
Dass ihr Programm insbesondere in Verbindung mit moderner Robotik leicht angewendet werden kann und genaue Vorhersagen ermöglicht, demonstrierten die Autoren an einem Datensatz, der ursprünglich nicht für maschinelles Lernen erzeugt wurde. „Dieser Datensatz enthält nur relative Umsätze der Startmaterialien und keine genauen Ausbeuten“, betont Frederik Sandfort. „Für genaue Ausbeuten müssen Kalibrationen erstellt werden. Aufgrund des hohen Aufwands wird dies in der Realität aber selten gemacht.“
Die Wissenschaftler wollen in Zukunft ihr Programm weiterentwickeln und mit neuen Funktionen ausstatten. Studienleiter Prof. Dr. Frank Glorius ist sich sicher: „Bei der Auswertung großer Mengen komplexer Daten ist der Computer uns grundsätzlich überlegen. Doch unser Ziel ist es nicht, synthetische Chemiker durch Maschinen zu ersetzen, sondern sie möglichst effektiv zu unterstützen. Modelle, die auf künstlicher Intelligenz basieren, können die Herangehensweise an chemische Synthesen zukünftig entscheidend verändern. Wir befinden uns aber noch ganz am Anfang.“
Förderung:
Die Studie erhielt finanzielle Unterstützung durch den Fonds der Chemischen Industrie und die Deutsche Forschungsgemeinschaft über den Leibnizpreis und das Schwerpunktprogramm 2102.
Originalpublikation:
F. Sandfort et al. (2020): A Structure-Based Platform for Predicting Chemical Reactivity. Chem, DOI: 10.1016/j.chempr.2020.02.017