80 ТБ астрономических данных теперь доступны на обычном ноутбуке с 4 ГБ памяти
Обработка 80 ТБ астрономических данных требует всего 4 ГБ оперативной памяти, полностью исключая необходимость в дорогих вычислительных кластерах. Переход на потоковую архитектуру ломает барьеры входа в науку, позволяя исследователям мгновенно запускать сложные вычисления на стандартных ноутбуках.
Коллектив UniverseTBD и Hugging Science переработали формат хранения данных проекта Multimodal Universe (MMU), объединяющего более 80 ТБ информации из 30 астрономических обзоров. Ранее для сопоставления наблюдений одних и тех же объектов (кросс-матчинга) требовалось скачивать огромные объемы данных на локальный диск, что было доступно только владельцам мощных серверов. После конвертации в формат HATS и интеграции с библиотекой LSDB выполнение сложных вычислений стало возможным на стандартном ноутбуке с 4 ГБ оперативной памяти. Это устраняет необходимость в выделенных кластерах и позволяет исследователям мгновенно работать с потоковыми данными через экосистему Hugging Face.
Важный нюанс: Переход на потоковую обработку данных снижает порог входа в профессиональную астрономию, делая доступными задачи, которые ранее требовали институциональной инфраструктуры.
Техническая реализация и архитектура данных
Основная проблема исходной версии MMU заключалась в использовании формата HDF5, который требовал полной загрузки данных на диск перед началом анализа. Новая архитектура опирается на формат HATS (Hierarchical Adaptive Tiling Scheme), который разбивает небесную сферу на тайлы формата HEALPix. Каждый тайл сохраняется в отдельном файле Apache Parquet. Такая структура позволяет системе загружать в память только те сегменты данных, которые перекрываются между сравниваемыми каталогами, полностью игнорируя пустые участки неба.
Библиотека LSDB управляет этим процессом, используя параллельную обработку через Dask и ленивые вычисления. Запрос на сопоставление создает граф задач, но фактическая обработка начинается только по команде пользователя. Интерфейс CatalogStream выдает результаты порциями, что предотвращает переполнение памяти.
Ключевые характеристики новой системы:
- Объем данных: Более 80 ТБ (включая изображения галактик, спектры, временные ряды переменных звезд).
- Требования к памяти: Пиковое потребление составляет около 4 ГБ даже при сопоставлении каталогов разного масштаба.
- Скорость: Первые результаты появляются менее чем за 4 секунды, полное сопоставление крупных наборов занимает менее 20 минут.
- Масштабируемость: Тестирование на паре SDSS (800 тыс. объектов) и Gaia (122 млн объектов) показало, что увеличение объема данных в 150 раз не привело к росту потребления памяти.
Стоит учесть: Динамическое разбиение на тайлы позволяет сохранять баланс между плотными и разреженными областями неба, избегая создания неуправляемо больших файлов данных.
Научная ценность и применение в машинном обучении
Возможность быстрого сопоставления данных из разных источников открывает новые направления для исследований. Кросс-матчинг позволяет связывать изображения, спектры и фотометрические данные одного и того же объекта, что критически важно для выявления редких явлений. Например, в исследовании остатков сверхновых сопоставление данных из пяти разных обзоров позволило отобрать всего 19 уникальных кандидатов из 70 000, демонстрируя аномальное радиосвечение спустя годы после взрыва.
Особый интерес проект представляет для проверки «Платоновской гипотезы представлений» (PRH) в области искусственного интеллекта. Гипотеза предполагает, что нейросети, обученные на разных типах данных, сходятся к единой статистической модели реальности. Астрономические данные служат идеальной тестовой площадкой: изображения галактик, их спектры и фотометрия рассматриваются как разные «тени» одного физического объекта.
Исследования с использованием MMU показали, что с ростом размера моделей их внутренние представления (эмбеддинги) становятся все более схожими, независимо от типа входных данных. Это подтверждает возможность использования предобученных фундаментальных моделей (foundation models) для астрономических задач без необходимости их обучения с нуля.
На фоне этого: Успешное применение кросс-матчинга подтверждает, что астрономия может эффективно использовать инвестиции сообщества open-source ИИ, адаптируя существующие модели под специфические научные задачи.
Операционные последствия и скрытые риски
- Доступность инструментов: Исследователям больше не требуется доступ к высокопроизводительным вычислительным кластерам (HPC) или бюджетам на хранение данных для выполнения базовых аналитических задач. Работа возможна на личном оборудовании при наличии стабильного интернет-соединения.
- Зависимость от экосистемы: Эффективность работы напрямую зависит от стабильности платформы Hugging Face и библиотек LSDB и datasets. Любые изменения в API или доступности хранилищ могут повлиять на воспроизводимость экспериментов.
- Сложность конвертации: Хотя процесс конвертации данных в формат HATS упрощен библиотекой
hats-import, исследователи, работающие с нестандартными наборами данных, должны учитывать время и ресурсы, необходимые для подготовки информации к загрузке. - Ограничения потоковой обработки: Хотя система оптимизирована для экономии памяти, скорость получения результатов может варьироваться в зависимости от пропускной способности канала связи и задержек при запросах к удаленному хранилищу.
Важный нюанс: Переход на формат Parquet и потоковую обработку требует пересмотра подходов к валидации данных, так как проверка целостности теперь происходит в процессе чтения, а не после полной загрузки.