Proyecto 1er mes#

Para iniciar el proceso de evaluación de conocimientos, se propone a continuación un problema que pretende evaluar, de manera individual, lo aprendido hasta el momento.

Así, se espera que se sigan los pasos descritos y se entregue un link de Github donde reposará la solución del proyecto.

La evaluación de este proyecto se dividirá en” 50% (códigos) y 50% (análisis de resultados).

La fecha máxima de entrega será el día lunes 23 de marzo a las 23:59. La entrega se deberá realizar enviando un link de su repositorio de Github a través del siguiente link: Link

Proyecto: “Ciencia de Datos Abierta y Reproducible”#

Modalidad: Individual.

Objetivo: Construir un pipeline (flujo de trabajo) completamente automatizado que ingeste datos astronómicos públicos, construya una base de datos relacional local, genere visualizaciones estadísticas y culmine con un análisis físico de los resultados.

Instrucciones para el Estudiante#

Has sido contratado como Investigador Junior. Tu supervisor requiere que analices un conjunto de datos astronómicos, pero con una condición estricta: Tu trabajo debe ser 100% reproducible. Si tu supervisor clona tu repositorio de GitHub y ejecuta un solo script en su terminal, su computador debe repetir exactamente tu mismo análisis y generar tus mismas gráficas sin intervención humana.

Paso 1: Elige tu Misión#

Escoge UNA de las siguientes misiones astronómicas. Cada una tiene un endpoint de descarga y un problema físico a resolver.

Opción

Misión

URL para wget

Problema Físico a Resolver

A

NASA (Exoplanetas)

Endpoint

Problema: Transición Planetaria: Graficar Masa vs Radio. Identificar dónde los planetas dejan de ser rocosos densos y pasan a ser gigantes gaseosos esponjosos.

B

Gaia DR3 (Evolución Estelar)

Endpoint

Problema: Arqueología Galáctica: Construir el Diagrama de Hertzsprung-Russell (Color vs Magnitud Absoluta). Identificar la Secuencia Principal y las Gigantes Rojas.

C

SDSS DR18 (Cosmología)

Endpoint

Problema: Expansión del Universo: Graficar Índice de Color (g-r) vs Redshift (z). Separar y analizar cómo se distribuyen las Galaxias Locales frente a los Quásares primordiales.

Paso 2: Los Entregables#

Debes crear un repositorio público en GitHub que contenga exactamente los siguientes 4 archivos:

  1. pipeline.sh: Un script de Bash que automatice todo. Debe descargar el CSV, ejecutar el script de bases de datos y luego el de graficación.

  2. constructor_db.py: Un script de Python que use Pandas para leer el CSV crudo, lo limpie de ser necesario, y lo guarde en una base de datos local SQLite llamada datos_mision.db.

  3. analisis_visual.py: Un script de Python que se conecte a datos_mision.db, extraiga los datos usando una consulta SQL, realice los cálculos matemáticos y genere una imagen (resultado.png).

  4. README.md: Un documento escrito en formato tipo Markdown donde se presente la imagen generada y respondas físicamente al problema planteado en la tabla de misiones.