Proteomik Datensätze für KI

Sammlung öffentlicher und kategorisierter Datensätze aus dem Bereich Proteomik

Ziel des Projektes ist es, eine «All-in-One» Standard Sammlung von vorselektionierten öffentlich zugänglichen Datensätzen im Bereich der Proteomik aufzubauen und diese für Anwendungen im Bereich des maschinellen Lernens zur Verfügung zu stellen. Die Datensätze werden vorgängig kategorisiert, erschlossen und bereinigt, damit sie für entsprechende Projekte sofort anwendbar sind.

Es gibt viele öffentlich zugängliche Datensätze, jedoch sind sie nicht an einem Ort zusammengefasst. Zudem ist die Beschreibung der Datensätze oft mangelhaft und sie sind nicht entsprechend nach ihrem Teilbereich, z. B: Proteomik kategorisiert und somit unstrukturiert und schlecht nutzbar.

Die in diesem Projekt erstelle Datensatzsammlung wird Datensätze aus Proteomik-Teilbereichen mit ihren beschreibenden Metadaten in Kategorien zusammenfassen. Auf diese Weise können Forscher und / oder Kommilitonen im Bereich der Biochemie die entsprechenden Kategorien / Pakete direkt über einen “Python”- oder “R”-Befehl laden und somit für das maschinelle Lernen als Trainings- und Testdatensätze verwenden.

In der Publikation von (Mann et al., 2021) wird die steigende Notwendigkeit von Transferlernen und die Ausarbeitung transparenter öffentlicher-Datenbank Architekturen, welche auch eine Kombination von verschiedenen Daten ermöglichen, diskutiert. Insbesondere im OMICS-Bereich ist der Bedarf der Daten-Kombination sehr wichtig, da dieser im grossen Umfang in der personalisierten Medizin Anwendung findet.

Bis heute erfolgt die Suche nach geeigneten öffentlich zugänglichen Datensätzen und deren Bereinigung manuell, und für jedes Projekt von neuem (es sei denn die Forschungsgruppe hat sich eine eigene intern Datenbank erstellt). Diese Vorgehensweise ist sehr zeitaufwändig und nicht effektiv und bringt auch gewisse Fehler und Unregelmässigkeiten mit sich, da jede Forschungsgruppe und Institution unterschiedliche Daten für das Training und Testen der AI/ML Modelle verwendet. Dieses Dilemma kann gelöst werden, in dem man eine standardisierte Sammlung solcher OMICS-Datensätze anlegt und diese über Kategorien leicht zugänglich macht, was auch das Endziel dieses Projektes ist.

Projektverantwortliche

Kristina Djordjevic

Masterstudentin in Medical Informatics an der FHNW in Muttenz

Wir verwenden Cookies auf unserer Website, um Ihnen die bestmögliche Nutzererfahrung bieten zu können. Wenn Sie Ihren Besuch auf der Website fortsetzen, stimmen Sie der Verwendung von Cookies zu. Weitere Informationen zum Datenschutz finden Sie hier.

Annehmen