Invited Talk - Exploration and Classification of Breast Cancer Stages based on Genomic Data

Описание к видео Invited Talk - Exploration and Classification of Breast Cancer Stages based on Genomic Data

The Institute of Informatics & Telecommunications hosted invited speaker Elina Syrri for a talk titled Exploration and Classification of Breast Cancer Stages based on Genomic Data on Friday 19 July 2024 at 14.00, Athens time.

About the talk: Cancer staging is the process of determining the growth and spread of cancer throughout the body. It serves as a critical prerequisite in clinical practice for treatment planning and prognosis assessment. Despite existing methods for cancer staging detection, limitations persist, necessitating the exploration of innovative approaches. This thesis investigates the development of a model based on genomic data for classification of patients' pathological stages, focusing on distinguishing between stages I, II, and III of breast cancer. To address this problem, five different methodologies were examined, utilizing both classical machine learning algorithms and neural network techniques, such as Convolutional Neural Networks (CNN) and Multi-Layer Perceptrons (MLP). The inherent challenges of biomedical data, particularly gene expression data, include high dimensionality and imbalanced class distribution. To tackle these challenges, feature engineering techniques are employed, such as transforming genomic data into biological pathways using Gene Set Enrichment Analysis (GSEA), and leveraging patients' clinical metadata to reduce heterogeneity within the dataset. Additionally, synthetic data generation techniques are applied to augment the training set. Another method tested involves the transformation of the problem into a stage transition classification task is tested to refine the focus on changes between consecutive stages. The study's results highlight the inherent challenges and limitations in achieving the desired level of accuracy and reliability in stage classification based on genomic data. Despite the difficulties, the proposed methodology can be extended to other cancer types with lower heterogeneity compared to breast cancer. In summary, this thesis proposes a set of models for breast cancer staging classification based on genomic data and derived biological insights. It evaluates the effectiveness and limitations of various methodologies and technologies, offering a basis for future research and potential advancements in the field.

--------------------
Διερεύνηση και Ταξινόμηση Σταδίων Καρκίνου του Μαστού βάσει Γονιδιακών Δεδομένων

Η σταδιοποίηση του καρκίνου είναι η διαδικασία προσδιορισμού της ανάπτυξης και της εξάπλωσης του σε όλο το σώμα, και χρησιμεύει ως κρίσιμη προϋπόθεση στην κλινική πρακτική για τον σχεδιασμό της θεραπείας και την αξιολόγηση της πρόγνωσης. Παρά τις υπάρχουσες μεθόδους ανίχνευσης σταδίου καρκίνου, παρουσιάζονται περιορισμοί που καθιστούν αναγκαία την εξερεύνηση καινοτόμων προσεγγίσεων. Η παρούσα διπλωματική εργασία διερευνά την ανάπτυξη ενός μοντέλου βασισμένου σε γονιδιακά δεδομένα για την ταξινόμηση των παθολογικών σταδίων των ασθενών. Η εστίαση είναι στη διαφοροποίηση μεταξύ των σταδίων I, II και III του καρκίνου του μαστού. Στο πλαίσιο αυτό, εξετάστηκαν πέντε διαφορετικές μεθοδολογίες για την επίλυση του προβλήματος, χρησιμοποιώντας τόσο κλασσικούς αλγόριθμους μηχανικής μάθησης όσο και τεχνικές νευρωνικών δικτύων, όπως Συνελικτικά Νευρωνικά Δίκτυα (CNN) και Πολλαπλών Επιπέδων Perceptrons (MLP). Τα εγγενή προβλήματα των βιοϊατρικών δεδομένων, και ειδικότερα των δεδομένων γονιδιακής έκφρασης, περιλαμβάνουν την υψηλή διαστασιμότητα και την άνιση κατανομή ανά τις κλάσεις. Για την αντιμετώπιση αυτών των προκλήσεων, χρησιμοποιούνται τεχνικές επιλογής χαρακτηριστικών, όπως η μετατροπή των γονιδιακών δεδομένων σε βιολογικά μονοπάτια με ανάλυση εμπλουτισμού συνόλων γονιδίων (GSE), καθώς και η χρήση των κλινικών μεταδεδομένων των ασθενών για τη μείωση της ετερογένειας εντός του συνόλου. Επιπλέον, για τον εμπλουτισμό του συνόλου εκπαίδευσης, εφαρμόζονται τεχνικές δημιουργίας συνθετικών δεδομένων. Παράλληλα, μια άλλη μέθοδος αφορά τον μετασχηματισμό του προβλήματος ταξινόμησης σταδίων σε πρόβλημα ταξινόμησης μεταβάσεων σταδίων. Τα αποτελέσματα της μελέτης υπογραμμίζουν τις εγγενείς προκλήσεις και τους περιορισμούς στην επίτευξη του επιθυμητού επιπέδου ακρίβειας και αξιοπιστίας στην ταξινόμηση σταδίων βάσει γονιδιωματικών δεδομένων. Παρά τις δυσκολίες, η προτεινόμενη μεθοδολογία μπορεί να επεκταθεί σε άλλα είδη καρκίνων με μικρότερο βαθμό ετερογένειας σε σχέση με τον καρκίνο του μαστού. Συνοψίζοντας, η παρούσα εργασία προτείνει ένα σύνολο μοντέλων ταξινόμησης σταδίων του καρκίνου του μαστού που βασίζονται σε γονιδιακά δεδομένα και παράγωγα τους, αξιολογώντας την αποτελεσματικότητα και τους περιορισμούς διαφορετικών μεθοδολογιών και τεχνολογιών, και παρέχει μια βάση για μελλοντική έρευνα και βελτιώσεις στο πεδίο αυτό.

Комментарии

Информация по комментариям в разработке