Subárea 6: Epigenómica y cáncer

Una de los aspectos más interesantes de la biología es la regulación de la expresión génica como base de cualquier identidad celular. Las preguntas que despiertan mi curiosidad son: ¿cómo se codifican los programas de expresión génica a nivel (epi)genómico?, ¿de dónde procede su flexibilidad, por ejemplo durante la diferenciación celular?, ¿y en cáncer? Los trabajos expuestos en este área estudian los factores que determinan este potencial integrando datos epigenéticos mediante estrategias innovadoras.


Dr. Izaskun Mallona

Software: http://imallona.bitbucket.io
Publicaciones: https://scholar.google.com/citations?user=kMfxCIYAAAAJ
Contacto: imallona %at% uoc.edu, izaskun.mallona %at% dmmd.uzh.ch
Número máximo de estudiantes por semestre: 3
Docencia en castellano, catalán o inglés

Método de trabajo / Requisitos

Los proyectos ofertados requieren programación, estadística y conocimientos básicos de biología. Por razones de transparencia y reproducibilidad, todo análisis debe realizarse en un lenguaje y/o entorno libre (R/Bioconductor, python, perl...). En cuanto a las buenas prácticas, es imprescindible emplear sistemas de control de versiones (git, svn, etc.) y programación literaria (knitr/markdown, python notebooks, etc.) bajo licencias abiertas, de libre distribución y con reconocimiento a los autores (por ejemplo GPL). Debido a la disponibilidad de multitud de herramientas bioinformáticas de código abierto y al pequeño-moderado tamaño de los datos de partida (ficheros de texto de decenas de MB a pocos GB), es muy recomendable instalar y administrar un sistema GNU/Linux para trabajar en la línea de comandos (bash, awk, sed). 

Minería de datos epigenómicos pancáncer

1.1. La regulación del genoma: la aproximación epigenética

La epigenética estudia las alteraciones reversibles del material genético que provocan cambios en la expresión génica. La epigenómica, a similitud de la genómica o la proteómica, estudia los cambios (en este caso epigenéticos) en su conjunto. Entre las modificaciones epigenéticas más estudiadas se incluyen la metilación del DNA y las modificaciones de las histonas.
El abaratamiento de las tecnologías de microchips de DNA y de secuenciación masiva y su disponibilidad sin restricción para la academia (de forma gratuita) ofrecen uno de los campos con mayor proyección de minería de datos biológicos. En el caso de la epigenética, con el interés añadido de poder estudiar la modulación de la expresión génica en contextos muy variados, tanto en condiciones fisiológicas (¿de dónde procede la diversidad celular de un organismo, si la secuencia de su DNA es el misma para todas las células?) como en las patológicas (¿cómo son los patrones de expresión génica durante la progresión tumoral?, ¿hay pautas comunes en distintos tipos de cánceres?, ¿en qué difieren del tejido normal adyacente?).

1.2. El reto de integrar datos epigenómicos en distintos tipos de cáncer

Los distintos tipos de cáncer presentan características moleculares y clínicas distintivas, aun dentro de su heterogeneidad. Con el propósito de entender sus bases moleculares el consorcio internacional The Cancer Genome Atlas (TCGA) está realizando un esfuerzo continuo de caracterización de 11000 pacientes de hasta 33 tipos de cáncer y ofrece miles de casos con datos completos de expresión génica (RNA Seq) y epigenómicos (metilación de DNA), entre otros (clínicos, mutaciones, copy number, proteínas...).
La integración de estos datos permite buscar pautas con tres objetivos: mejorar el diagnóstico, tratamiento y prevención del cáncer.
Para ello TCGA ofrece datos normalizados y altamente procesados de forma totalmente libre y gratuita. Estos datos agregan GB de lecturas de secuenciación y microarrays en ficheros de texto estructurados, con, por ejemplo, una lectura de metilación o de expresión para cada gen para cada paciente, lo que facilita enormemente su análisis.
Los proyectos propuestos plantean preguntas biológicas simples y directas; por tanto, son asumibles sin grandes necesidades de cálculo y, potencialmente, pueden ser publicados en una revista científica.

1.3 Proyectos relacionados con datos pancáncer

1.3.1 Disponibilidad de factores de transcripción

Premisa: La expresión de los factores de transcripción afecta a su disponibilidad y su potencial regulatorio.
Aproximación: Descripción de los perfiles de expresión y metilación del DNA de todos los genes que codifican factores de transcripción; y subsecuente desarrollo de un sistema clasificación pancáncer (incluyendo todos los tipos de TCGA: cáncer de colon, adrenocortical, pancreático, sarcoma...).
Tipos de datos a emplear: Procesados de metilación de DNA (DNA methylation arrays) y expresión génica (RNA Seq agregado por gen); secuencias (análisis de motivos).

1.3.2 Efectos de la metilación de DNA en el splicing

Premisa: La metilación del DNA afecta al splicing y a la elección del inicio y fin de transcripción.
Aproximación: Exploración del impacto de la metilación del DNA en la regulación (expresión) de las distintas isoformas de transcritos en los distintos tipos de cánceres de TCGA; y desarrollo de una clasificación pancáncer a partir de estos datos.
Tipos de datos a emplear: Procesados de metilación de DNA (DNA methylation arrays) y expresión génica (RNA Seq agregado por isoformas).

1.3.3 De la metilación del DNA a la expresión de RNA y proteína

Premisa: para cada gen, el estado de metilación del ADN, la transcripción y la traducción a proteína guardan relación; en cáncer, esta ligazón puede cambiar de forma o perderse.
Aproximación: Integración de datos y modelización. Análisis de similitudes y divergencias en los distintos tipos de cáncer.
Tipos de datos a emplear: Procesados del estado de metilación de los promotores génicos (DNA methylation arrays), expresión génica (RNA Seq agregado por gen) y proteínas (protein arrays).2. Integración de datos de single cell RNA y metilación de DNA

Minería de datos de tecnologías single-cell

2.1 La revolución del scRNASeq

La mayoría de las técnicas de evaluación de la expresión génica (RNAseq, microarrays) analizan el RNA procedente de múltiples células, por lo que las medidas son en realidad promedios. Esto es especialmente problemático en el caso de muestras heterogéneas compuestas por multitud de tipos y estados celulares (posiblemente este sea el caso de la mayoría de los estudios). Como alternativa, las técnicas de scRNA permiten potencialmente evaluar cada célula por separado, con lo que es posible ir más allá en la disección de la expresión génica.

2.2 La variabilidad de la expresión génica y su control epigenético

Los genes pueden clasificarse según sus pautas de expresión. Algunos se expresan en todas las células (funciones esenciales de mantenimiento) y otros son muy específicos de algunos tipos celulares, o estados celulares. Por esto mismo, las células pueden clasificarse según su perfil transcripcional. El estudio transcriptómico de células concretas (scRNA) permite abordar la heterogeneidad transcriptómica/celular de poblaciones celulares tan complejas como las que componen los tumores.

Nuevamente, para cada célula, el grado de activación de cada gen está íntimamente relacionado con el estado epigenómico del locus en el que se encuentra; esta flexibilidad y diálogo entre la expresión y las características de cada locus es uno de los campos más excitantes de la biología computacional actual.

2.3 Proyectos relacionados con single cell transcriptomics

2.3.1 Asociación entre la variación en la metilación del DNA y la heterogeneidad de la expresión génica

Premisa: Las lecturas de metilación de DNA dan idea de la heterogeneidad epigenética, puesto que los valores intermedios (aquellos que no reflejan un estado metilado/desmetilado en ambos alelos) reflejan la variación a nivel poblacional. En cambio, para evaluar esto mismo a nivel transcriptómico es preciso analizar scRNA.
Aproximación: Reanálisis de Li et al. https://www.nature.com/articles/ng.3818 e integración con datos procedentes de TCGA.
Tipos de datos a emplear: Procesados de estado de metilación de los promotores génicos (DNA methylation arrays), expresión génica (RNA Seq agregado por gen) y datos crudos de scRNA de Li et al.

2.3.2 Evaluación de la expresión de elementos repetitivos empleando datos de scRNA-Seq

Premisa: La mitad del genoma humano posee un carácter repetitivo. Por otro lado, algunos elementos repetitivos son transcritos RNA; no obstante, la variabilidad en su expresión a nivel celular es una gran desconocida.  
Aproximación: Análisis de datos de Smart-Seq2 (single-cell RNASeq) para caracterizar la expresión de repeticiones (agrupadas por familias) y a nivel de instancia (cuando el mapaje sea posible).
Tipos de datos a emplear: Datos crudos (fastq) de bases de datos públicas (GEO); Repbase.

Otros proyectos

  1. Aplicación de modelización estadística y/o machine learning a otros problemas del ámbito de la epigenómica y la expresión en cualquier sistema (por ejemplo en plantas).
  2. Aplicación de modelización estadística y/o machine learning a otros problemas fuera del ámbito de la epigenómica, especialmente si tiene que ver con expresión no convencional o elementos repetitivos.
  3. Generación de repositorios centralizados de datos para facilitar benchmarks, especialmente para datos de expresión.
  4. Diseño de aplicaciones Web para la visualización de datos epigenómicos (R/shiny).

Heu d'iniciar la sessió per afegir gadgets que només vós pugueu veure