Проект Aging Delta нацелен на создание комплексной графовой модели изменений в биологических путях при старении, объединяя данные из ведущих баз знаний (KEGG, Reactome, WikiPathways) и реальных профилей экспрессии (GTEx). Архитектура проекта разделена на инфраструктурно-программную и биологическо-аналитическую части, предусматривающие сбор данных, их структурирование, построение графов, статистический/ML-анализ и, наконец, биологическую интерпретацию результатов. Использование методов доменно-ориентированного проектирования (DDD) помогает команде формировать единый язык (ubiquitous language) и эффективно взаимодействовать на стыке программирования, геронтологии и биоинформатики.
Описание
Aging Delta — это междисциплинарный проект, ориентированный на исследование процессов старения на уровне генов, сигнальных путей и клеточных взаимодействий.
Проект объединяет данные из нескольких типов ресурсов:
Структурные базы знаний о путях (pathways) и сигнальных каскадах (KEGG, WikiPathways, Reactome), где хранится обобщённая информация о том, как взаимодействуют гены, белки и метаболиты.
База данных реальной экспрессии (GTEx), содержащая результаты биопсий от разных доноров, что позволяет понять, насколько активно «включён» или «выключен» каждый ген в различных тканях и при разных возрастах.
Цель
Создать интегрированную сетевую модель (граф/графы) процесса старения с учётом возрастных изменений.
Оценить вклад отдельных генов и путей (pathways) в развитие патологических процессов (онкология, нейродегенерация и др.) и сформулировать гипотезы о «таргетах» (конкретных генах/белках) для потенциальных вмешательств (модуляции).
Задачи
Агрегировать данные из структурных баз (KEGG, WikiPathways, Reactome) и сопоставить их с реальными данными экспрессии (GTEx).
Построить два или более графов (для разных возрастных групп) либо один общий граф с различными весами (силами связей) в зависимости от возраста.
Выполнить “фит рёбер” (определение силы взаимодействия/корреляции) на основе статистических или ML-методов (см. статью из PubMed, 37021935).
Анализировать полученные сети с целью выявить ключевые изменения в сигнальных путях, их потенциальный вклад в возраст-ассоциированные заболевания и определить мишени для дальнейших исследований (например, белки, которые можно модулировать химически или эпигенетически — метилированием, ацетилированием, ингибиторами и т. д.).
Pathway (путь) — последовательность биохимических реакций или сигнальных событий (например, mTOR pathway, MAPK pathway и т. д.).
Ген — участок ДНК, кодирующий белок или функциональную РНК.
Белок (протеин) — продукт экспрессии гена, выполняющий структурные, ферментативные, регуляторные и другие функции.
Экспрессия гена — активность гена в клетке (определяется количеством РНК или белка).
Таргеты (targets) — потенциальные точки приложения, на которые могут воздействовать лекарства (например, гиперактивный белок, который нужно ингибировать).
Метилирование/Ацетилирование — основные эпигенетические механизмы модуляции активности генов или белков.
Граф — математическая модель сети взаимодействий, где узлы (nodes) — это гены/белки, а рёбра (edges) — их связи (корреляция экспрессии, прямые физические взаимодействия и т. п.).
Фит рёбер — процесс подбора или вычисления «веса» взаимодействия между двумя узлами, основываясь на экспериментальных данных (например, из RNA-seq).
KEGG (Kyoto Encyclopedia of Genes and Genomes)
Содержит тщательно аннотированные карты путей, метаболизмов и информации о взаимодействиях между генами и белками.
WikiPathways
Краудсорсинговая платформа, где специалисты и энтузиасты совместно поддерживают и обновляют пути.
Reactome
База данных сигнальных путей с тщательной ручной аннотацией и ссылками на первичную литературу.
Из этих баз мы берём топологию (кто с кем связан) и общую информацию о функциональных взаимодействиях.
Описание
Содержит «сырые» данные экспрессии генов (RNA-seq) из биопсий разных доноров, а также метаданные (возраст, пол, ткань и т. д.).
Значимость
Позволяет увидеть, как реально экспрессируются гены в разных тканях и возрастах.
Данные нужны для «подгонки» веса связей (рёбер) в графе, а также для выявления паттернов, характерных для старения.
Часть A. (Домен программирования и архитектуры)
Сбор (возможно, с помощью скриптов и API) и очистка данных из баз.
Организация хранения данных (БД, файловые хранилища).
Реализация логики агрегации (усреднение, фильтрация, нормализация).
Построение графов (структура + веса рёбер) для разных возрастных групп или одного общего графа с несколькими наборами весов.
Визуализация сетей (JS/Canvas, D3.js или Cytoscape.js).
Поддержка веб-интерфейса (управляющие панели, выгрузка/загрузка результатов).
Часть B. (Био-химия, геронтология, статистический/ML-анализ)
Применение методов статистики и машинного обучения (WGCNA, дифференциальная экспрессия, ко-экспрессионный анализ).
Биологическая интерпретация полученных сетей: поиск ключевых модулей, генов, сигнальных путей.
Формирование гипотез о таргетах (какой белок при старении проявляет гиперактивность или наоборот).
Предложение стратегий модуляции таргета (ингибирование, активация, метилирование и т. д.).
Финальная проверка результатов в биологических экспериментах (in vitro, in vivo).
Фаза: Системный и доменный анализ
Сбор требований, изучение предметной области, практики доменно-ориентированного проектирования (DDD).
Фаза: Проектирование архитектуры
Разработка схемы баз данных, определение форматов для хранения графов, протокол взаимодействия между Частью A и Частью B.
Фаза: Создание прототипа
Поднятие минимального окружения (Docker, сервер БД, PHP/JS-фронтенд).
Импорт тестовых наборов данных (KEGG, GTEx).
Фаза: Агрегация данных с учётом возрастных групп
Разделение доноров в GTEx по возрастным когортам.
Если нужно — объединение (усреднение) экспрессии внутри каждой возрастной группы.
Создание (или обновление) графа (два графа «Молодой/Старый» или один с разными весами).
Фаза: Нормализация данных (при необходимости)
Устранение технических артефактов, приведение экспрессий к единому масштабу.
Фаза: Усреднение экспрессий, дифференциальная корреляция или WGCNA
Методика зависит от выбранной стратегии анализа (классическая дифференциальная экспрессия или построение ко-экспрессионных сетей).
Фаза: Сравнение (pinpoint) для разных тканей
Поиск изменений топологических свойств: потеря центральности, изменение кластеризации и др.
Фаза: Оптимизация (по необходимости)
Улучшение производительности (большие графы, обработка больших объёмов данных).
Фаза: Визуализация
Разработка интерактивных средств отображения (Canvas, D3.js, Cytoscape.js).
Подсветка изменений между возрастами.
Фаза: Статистический анализ и/или ML-методы
Поиск закономерностей, кластеров, ключевых узлов.
Использование алгоритмов обучения (классификация, регрессия, random forest, нейросети).
Фаза: Мануальный био-клинический анализ
Интерпретация результатов специалистами-геронтологами.
Уточнение, какие пути реально связаны с онкологией, нейродегенерацией и т. д.
Фаза: Построение гипотез о таргетах
Формирование списка потенциальных генов/белков (например, гиперактивный белок, который нужно ингибировать).
Фаза: Гипотезы модуляции таргетов
Предложение конкретных вмешательств (ингибиторы, метилирование, ацетилирование) на молекулярном уровне.
Фаза: Экспериментальная валидация
In vitro эксперименты (использование клеточных линий, приборы: проточный цитофлуориметр для анализа, qPCR для подтверждения экспрессии, Western blot).
In vivo эксперименты (модельные животные, наблюдение за изменениями фенотипа).
Human Ageing Genomic Resources (HAGR)
Содержит GenAge (база генов, связанных со старением), AnAge (данные о продолжительности жизни видов).
Помогает выделить «кандидатные» гены для нашего анализа.
AgeFactDB
Ссылка (временно на реконструкции)
База данных факторов, влияющих на продолжительность жизни разных организмов.
Open Targets
Проект для поиска и приоритизации лекарственных мишеней, но не чисто про старение, а про болезни в целом.
Aging.ai
Модель для предсказания возраста по биомаркерам крови, меньше фокус на сетевых путях.
Geroprotectors.org
База потенциальных геропротекторов, но без глубокой сетевой аналитики.
Все эти ресурсы дают частичную информацию (гены, продолжительность жизни, факторы), но не предоставляют комплексной «графовой» модели, которую мы хотим создать в Aging Delta.
Интеграция данных
Разнородные форматы и идентификаторы (гены по Ensembl, HGNC, NCBI и т. д.).
Возрастные срезы
Часто нет чётких лонгитюдных данных по одному человеку, приходится усреднять по группам.
Отсутствие реальной динамики
Старение — процесс, а в базах мы обычно имеем статичные «срезы».
Шумы и неполнота
RNA-seq и другие методы дают варьирующие данные, необходима статистическая фильтрация.
Интерпретация причин и следствий
Связь гена с возрастом не означает причинно-следственную зависимость.
Мультидисциплинарность
Требуются компетенции в программировании, математике, геронтологии, биоинформатике.
Операционные среды и инструменты
Linux (серверное окружение), Docker (контейнеризация), Bash (скрипты автоматизации).
Языки
PHP (фреймворк Yii/Laravel) — бэкенд для веб-приложения.
SQL (MySQL) — реляционная база данных для хранения агрегированной информации.
HTML/CSS/JavaScript — фронтенд, визуализация через Canvas, D3.js или Cytoscape.js.
Архитектурные решения
Микросервисный подход или монолит с чётким разделением модулей (DDD — “bounded contexts”).
REST API или GraphQL (опционально) для обмена с аналитическим модулем.
Языки и библиотеки
Python: pandas, NumPy, SciPy, scikit-learn, PyTorch/TensorFlow (для ML при необходимости).
R: Bioconductor (edgeR, DESeq2, limma), WGCNA, iGraph.
Подходы к анализу
Дифференциальная экспрессия (DESeq2), ко-экспрессия (WGCNA).
Построение корреляционных сетей, методов “фита рёбер” (статья PubMed 37021935).
Графовый анализ: центральность, кластеризация, поиск модулей.
Дополнительные инструменты
Jupyter Notebooks/R Markdown — воспроизводимые исследования.
Git — версионирование кода и данных.
Инфографика и схемы
Создание промо-материалов (в Figma) для привлечения волонтёров, инвесторов.
Схематическое объяснение архитектуры, принципа работы.
Раздел сайта
Агрегация информации о проекте, документация, FAQ.
UX/UI-дизайн управляющих интерфейсов (просмотр графов, фильтрация, отчёты).
Презентация
Подготовка слайдов, постеров для научных конференций или питчей для инвесторов.
Ubiquitous Language
Использование единых терминов (ген, путь, экспрессия, вес ребра, таргет) и понимание их одинаково командой разработчиков и биологов.
Bounded Context
Разделение проекта на модули:
«Data Aggregation Context» (загрузка и нормализация данных),
«Network Construction Context» (построение графов),
«Biological Analysis Context» (WGCNA, статистика, ML),
«Visualization & UX Context» (веб-интерфейс).
Context Mapping
Определение, как эти модули взаимодействуют (API, форматы данных, промежуточные CSV/TSV или SQL-таблицы).
Domain Events
События, такие как «данные по возрастной группе обновлены», «граф пересчитан», «новый модуль сети обнаружен» — могут быть оформлены как доменные события, влияющие на логику проекта.
KEGG
WikiPathways
Reactome
GTEx Portal
PubMed (метод фита весов рёбер)
Human Ageing Genomic Resources (HAGR)
https://genomics.senescence.info/
AgeFactDB
https://agefactdb.unikoeln.de/
Open Targets
Aging.ai
Geroprotectors.org
Википедия (термины, определения)