Es gibt viele öffentlich zugängliche Datensätze, jedoch sind sie nicht an einem Ort zusammengefasst. Zudem ist die Beschreibung der Datensätze oft mangelhaft und sie sind nicht entsprechend nach ihrem Teilbereich, z. B: Proteomik kategorisiert und somit unstrukturiert und schlecht nutzbar.
Die in diesem Projekt erstelle Datensatzsammlung wird Datensätze aus Proteomik-Teilbereichen mit ihren beschreibenden Metadaten in Kategorien zusammenfassen. Auf diese Weise können Forscher und / oder Kommilitonen im Bereich der Biochemie die entsprechenden Kategorien / Pakete direkt über einen “Python”- oder “R”-Befehl laden und somit für das maschinelle Lernen als Trainings- und Testdatensätze verwenden.
In der Publikation von (Mann et al., 2021) wird die steigende Notwendigkeit von Transferlernen und die Ausarbeitung transparenter öffentlicher-Datenbank Architekturen, welche auch eine Kombination von verschiedenen Daten ermöglichen, diskutiert. Insbesondere im OMICS-Bereich ist der Bedarf der Daten-Kombination sehr wichtig, da dieser im grossen Umfang in der personalisierten Medizin Anwendung findet.
Bis heute erfolgt die Suche nach geeigneten öffentlich zugänglichen Datensätzen und deren Bereinigung manuell, und für jedes Projekt von neuem (es sei denn die Forschungsgruppe hat sich eine eigene intern Datenbank erstellt). Diese Vorgehensweise ist sehr zeitaufwändig und nicht effektiv und bringt auch gewisse Fehler und Unregelmässigkeiten mit sich, da jede Forschungsgruppe und Institution unterschiedliche Daten für das Training und Testen der AI/ML Modelle verwendet. Dieses Dilemma kann gelöst werden, in dem man eine standardisierte Sammlung solcher OMICS-Datensätze anlegt und diese über Kategorien leicht zugänglich macht, was auch das Endziel dieses Projektes ist.