Für eine effizientere Datenverarbeitung

Indivumed gelingt mit cloudbasierter Softwarelösung der nächste Schritt in der Krebsforschung

Die Analyse von Gewebeproben mit den neuesten technologischen Mitteln ist ein wichtiger Schritt bei der Entwicklung neuer Therapeutika für die Krebsmedizin. Die eingesetzten Verfahren sind hochkomplex und aufwändig – nicht zuletzt in Bezug auf die Anforderungen an geeignete Datenverarbeitungssysteme. Um hier noch effizienter zu arbeiten, entschied sich das Krebsforschungsunternehmen Indivumed für eine Zusammenarbeit mit Lufthansa Industry Solutions (LHIND). Das Ziel dieses Vorhabens war die Implementierung einer neuen Software, welche die Kosten senkt und die Qualität verbessert.

© Indivumed GmbH

Der Kunde

Die Indivumed GmbH zählt seit der Gründung 2002 zu den Innovationstreibern im Bereich der onkologischen Forschung. Das Unternehmen operiert mit Hauptsitz in Hamburg und einer weiteren Niederlassung in den USA. Darüber hinaus hat Indivumed ein stetig wachsendes, globales Clinical Network von Kliniken und medizinischen Einrichtungen etabliert.

Indivumed hat sich zum Ziel gesetzt, die Komplexität von Krebserkrankungen für die Entwicklung personalisierter Therapien zu entschlüsseln und die so gewonnenen Erkenntnisse therapeutisch nutzbar zu machen.

Für ein detailliertes Verständnis der individuellen Tumorbiologie ist es entscheidend, die Vielfalt an Informationen aus multi-omics Daten von Tumoren zu erschließen.

Hierzu hat Indivumed die weltweit erste und umfangreichste Multi-omics Database IndivuType entwickelt, die vielfältige molekularbiologische Informationen zum Genom, Transkriptom, Proteom und Phospoproteom sowie digitale histopathologische Daten mit umfangreichen klinischen Informationen von Tausenden von Patienten kombiniert.

Alle Fälle werden im globalen klinischen Netzwerk von Indivumed nach weltweit standardisierten Prozessen pseudonymisiert gesammelt, um die Konsistenz und Genauigkeit der biologischen Daten zu gewährleisten. Mit Tausenden von Fällen mehrerer Krebserkrankungen aus Europa, Amerika und Asien und einer hochentwickelten KI/ML-gestützten Datenanalyseplattform ist IndivuType ein einzigartiges Werkzeug für die onkologische Arzneimittel- und Diagnoseentwicklung.

Hieraus leitet sich der Anspruch ab, zunehmend schneller Wirkstoffe entwickeln zu können, deren individuell zugeschnittener Einsatz zu einer Verbesserung in der Behandlung von Krebs führt.

Leistungen von LHIND für Indivumed auf einen Blick:

  • Erarbeitung von Lösungsmöglichkeiten innerhalb eines eintägigen Workshops
  • Mehrmonatige Zusammenarbeit vor Ort beim Kunden
  • Unterstützung bei der Entwicklung aus einer im wissenschaftlichen Kontext entstandenen Software zu einer zeitgemäßen produktionsreifen Lösung
  • Definition der Recheninfrastruktur für die Entwicklung, die Validierung und den Betrieb der Software
  • Migration der alten Software in eine andere Programmiersprache
  • Technische Begleitung während der Validierungsphase der neuen Software
  • Unterstützung beim Betrieb der Recheninfrastruktur und dessen Überwachung
© Indivumed GmbH

Die Herausforderung

Ausgewählte Partnerunternehmen übernehmen in diesem Prozess für IndivuType einen Teil der Vorbereitung, insbesondere die Durchführung von Genom-, Transkriptom- und Proteomanalysen. Als Ergebnis dieser Verfahren erhält Indivumed hochkomplexe und umfangreiche Daten zurück, die mit computergestützten Verfahren weiterverarbeitet werden.

Da die rechnergestützten Analysen ein hohes Maß an Rechen- und Speicherkapazität erfordern, war es das Anliegen des Forschungsunternehmens, bei diesen entscheidenden Aspekten langfristig effektiver und kostengünstiger sowie auf den neuesten Technologien zu arbeiten. Somit kam es zur Zusammenarbeit mit LHIND.

Allein die Größe der Whole-Genome-Sequencing-Daten, welche durch die Partnerunternehmen an Indivumed übermittelt werden, stellt eine Herausforderung dar. Denn bei jedem einzelnen Datensatz geht es um Datengrößen im dreistelligen Gigabyte-Bereich.

Ziel der Zusammenarbeit mit LHIND war die Entwicklung einer produktionsreifen Lösung, welche die bisher verwendete, im wissenschaftlichen Umfeld entwickelte Software ablöst und mit der Indivumed in der Lage ist, mehrere zehntausend Gewebeproben pro Jahr zu verarbeiten. Des Weiteren sollte der einzuplanende Aufwand an Zeit und Kosten reduziert werden. Der angestrebte Gewinn an Skalierfähigkeit bei gleichzeitiger Kostenersparnis konnte mit einer komplett neuen Softwarearchitektur gelingen, wobei im Ergebnis eine exakte Vergleichbarkeit und gleichbleibende Qualität der Resultate gewährleistet werden sollte. Die neue Lösung musste dynamisch Rechenressourcen skalieren können und alle Verarbeitungsprozesse sollten automatisiert ablaufen.

© Indivumed GmbH

Die Lösung

Die von Indivumed und LHIND gemeinsam erarbeitete Lösung wurde unter dem Projektnamen MOCCA (Multi-Omics for Cancer and Clinical Analytics) umgesetzt.

Um die enormen Datenmengen und rechenintensiven Prozesse zu bewältigen und gleichzeitig eine skalierbare Lösung zu schaffen, brauchte es von einem Cloud-Anbieter angemietete Rechen- und Speicherkapazitäten. Zusätzliche Flexibilität entsteht durch das dynamische Modell, das hinter der Nutzung der Cloud steckt. Ressourcen werden nicht mehr vorab reserviert und gekauft, sondern es findet eine automatische Skalierung des Rechenverbundes statt, bei der immer nur die benötigten Kapazitäten angefragt werden. Indivumed arbeitet zu diesem Zweck mit Amazon Web Services (AWS) zusammen.

Als Rechenverbund wird ein dynamisch provisionierter Kubernetes-Cluster eingesetzt, der ausgesprochen effizient und kostengünstig im Betrieb ist. Die vom Cluster verwendeten Ressourcen verteilen sich dynamisch auf mehrere physikalisch voneinander getrennte Rechenzentren des Cloud-Anbieters AWS. Anstatt reservierte und vorab bezahlte Instanzen zu nutzen, verwendet der Kubernetes-Cluster ausschließlich so genannte Spot Instances. Dabei handelt es sich um überschüssige Rechenleistung, die von anderen AWS-Kunden zu günstigeren Preisen an einer Art elektronischen Börse gehandelt werden.

Nach der Erarbeitung dieser neuen Lösung wurde die neue Software aufwendig geprüft und validiert, um eine gleichbleibende Datenqualität und Vergleichbarkeit sicherzustellen.

Eingesetzte Technologien und Tools

  • Cloud-Plattform: Amazon Web Services (AWS)
  • Speicher: Amazon S3 (Amazon Simple Storage Service)
  • Programmiersprachen: Python, Shell, Perl, R
  • Datenbanken: MySQL, SQLite
  • Cluster-Management: AWS Elastic Kubernetes Service (EKS)
  • Workflow-Prozessierung: Argo Workflow Engine
  • Monitoring-Software: Prometheus, Grafana
  • Continuous Integration/Continuous Delivery (CI/CD)-System: Drone

Der Kundennutzen

Das Analyseverfahren für die digitalen Datensätze läuft mit Hilfe der neu etablierten Lösung schneller, effizienter und kostengünstiger ab als bisher. Schon innerhalb des ersten Monats der Nutzung der neuen Software konnten 1.800 Gebewebeproben verarbeitet werden. In der Spitze sind mehr als 800 automatisch und dynamisch hinzugeschaltete Rechenknoten dabei, die riesigen Datenmengen zu verarbeiten.

Die Verwendung von Cloud Computing mit AWS und die dynamische Skalierung haben eine signifikante Leistungssteigerung in allen relevanten Kategorien ermöglicht und bieten Indivumed ein technologisches Fundament, mit dem das Forschungsunternehmen nicht nur einen wichtigen Beitrag zur Entwicklung neuer Krebstherapien leistet, sondern auch für die zukünftigen Herausforderungen innerhalb der Branche ideal aufgestellt ist.

Auf einen Blick: Das hat die LHIND Lösung Indivumed gebracht:

  • Signifikante Leistungssteigerung durch automatische und dynamische Skalierung
  • Nutzung aktueller Cloud-Computing-Verfahren
  • Analyse von 1.800 Gewebeproben im ersten Monat
  • Reduzierung der Kosten je Patientenprobe und damit der Gesamtbetriebskosten
  • Ein technologisches Fundament, das auch für zukünftige Projekte genutzt werden kann

„Unsere Daten-Pipeline ermöglicht eine hochskalierbare Analyse großer Krebsgenom-Datensätze. Es handelt sich dabei um eine Neuimplementierung der bisher von Indivumed eingesetzten QuickNGS-Pipelines auf einem modernen, cloud-nativen Technologie-Stack. Damit lassen sich zehntausende Patientengenome jährlich verarbeiten. Gleichzeitig konnten wir die Kosten des Cloud-Betriebs für die Genomanalyse deutlich senken. Lufthansa Industry Solutions hat diese Bemühungen vorangetrieben, indem die hochrelevante Cloud-Engineering-Expertise des Unternehmens in das hauseigene Software-Entwicklungsteam von Indivumed eingebracht wurde.”

Dr. Peter Frommolt
Senior Director Bioinformatics