Navigating knowledge scape: learning higher-order structures from data | Любовь Тупикина

Описание к видео Navigating knowledge scape: learning higher-order structures from data | Любовь Тупикина

17.08.2024

Мы поговорим о математических задачах, которые возникают при обработке больших данных. В частности, о задаче вложения пространств высокой размерности в пространства низкой размерности. Если действовать стандартными методами, при вложении данных часто можно столкнуться с серьезными проблемами, например, глобальная структура таких данных не представится точно, и что еще важнее — метрики низкоразмерного пространства выбираются «по умолчанию». Нас будет интересовать вопрос, какую модель вложения использовать в этих ситуациях [1,5], и вообще, когда этот вопрос для данных можно решить.

Мы исследуем т. н. латентное пространство (latent space) методов вложения, используя комбинацию двух подходов: вложения гиперграфов и техник уменьшения размерности [1,2,3]. В качестве одного из приложений нашего подхода мы рассмотрим данные текстов статей на arXiv.org, чтобы понять, как ландшафт знаний можно охарактеризовать с помощью представления данных высшей арности (гиперграфов) [1,3]. Мы также обсудим открытые проблемы, такие как вопрос о том, как такое представление данных в виде гиперграфа может быть связано с объяснимостью архитектуры моделей встраивания типа BERT и/или автокодировщиков [4]. Мы также затронем некоторые темы из Лектория: лекции по математическим основам машинного обучения    • Математика в машинном обучении   и некоторые базовые понятия топологии    • Конструктивные методы в алгебре и топ...   .

[1] C. Singh, L. Tupikina, M. Starnini, M. Santolini “Charting mobility patterns in the scientific knowledge landscape” (https://epjdatascience.springeropen.c...) EPJ data science (2024)
[2] C. Singh, E. Barme, R. Ward, L. Tupikina, M. Santolini “Quantifying the rise and fall of scientific fields" (https://journals.plos.org/plosone/art...) Plos One 17(6): (2022)
[3] A. Bretto "Hypergraphs theory: An Introduction" (https://www.math.ucdavis.edu/~saito/d...) Springer, 2192-4732 (2013)
[4] M. Grootendorst "BERTopic: Neural topic modeling with a class-based TF-IDF procedure" (http://arxiv.org/abs/2203.05794)
[5] C. Fefferman, S. V. Ivanov, M. Lassas, H. Narayanan "Fitting a manifold to data in the presence of large noise" (https://arxiv.org/abs/2312.10598)

Комментарии

Информация по комментариям в разработке