Anuncios de la página

Instrucciones para poder ver los detalles de cada curso.

de Administrador Lumia -

Los cursos que indican "Vídeo" ya están (Tratamiento de datos, Estadística bayesiana, Aprendizaje Estadístico y Estadística No paramétrica) o estarán en las próximas semanas  disponibles para poder tomarlos en su totalidad a través de vídeos. Sin embargo, para estos y todos los cursos, tenemos la opción presencial-virtual (sujeto a un cierto número de estudiantes por curso).

La información disponible por curso es: 1) Nombre del curso, 2) Descripción del curso, 3) Lo que serás capaz de realizar al finalizar el curso, 4) Descarga de temarios  y  5) Información  sobre dónde pueden obtenerse informes. Algunos cursos incluyen vídeo de una clase muestra o una explicación general  del curso.

Si aún no estás inscrito a algún curso, el proceso para acceder a esta información desde esta página es:

  • Dar click al curso de interés:

  • Ingresa como invitado (si no se había ingresado antes):

  • El temario está disponible antes de la de la sección Informes:

  • Para ver más cursos y regresar a la página de inicio del sitio dar click a >Página principal del sitio y repetir el proceso (alternativamente puedes ingresar a >Mis cursos y luego a >Cursos para acceder a la información de cada curso o regresar a la página principal https://lumialearning.com/) :


Cursos disponibles

 

 

Sin duda el incremento y la disponibilidad de un mayor número de datos e información hace cada vez más fácil el poder efectuar análisis para responder los cuestionamientos que empresas, gobiernos e individuos se plantean. Sin embargo, el manejo adecuado de la información es lo que puede dar validez a los análisis y conclusiones que hagamos. De nada sirve la aplicación de un buen modelo si desde un comienzo la información no ha sido analizada y preparada adecuadamente.

En este curso se analiza el manejo adecuado de la información, empezando con los pasos necesarios que hay que seguir cuando queremos analizar los datos. Posteriormente, a lo largo de los siguientes temas se introducen técnicas de preprocesamiento de la información, así como de modelos que pueden utilizarse para resolver problemas relacionados con su manejo. Estos problemas incluyen la presencia de datos perdidos o muy diferentes al resto, técnicas para mejorar la calidad de la información al reducir su variabilidad, problemas de escala en los datos, selección de las variables adecuadas según el tipo de análisis deseado, etc. Todo esto, desde la perspectiva de aplicar el modelo o proceso adecuado según el tipo de datos. Cada uno de los Temas se ilustran a través de datos y código en Python.  

El objetivo de este curso va más allá del conocimiento de las técnicas y su aplicación de forma sistemática. Más allá de lo anterior, el objetivo final de este curso es el de que el estudiante sea capaz preguntarse cuando y por qué debe usar cada uno de los métodos. Dando este paso será posible entonces aplicar con confianza los modelos modernos o clásicos que quieran efectuarse.

Al final de este curso serás capaz de:

  • Saber la diferencia entre análisis de datos, minería de datos y otra terminología usada en ciencia de datos. Saber cuáles análisis preliminares deben aplicarse sobre los datos antes de modelar.
  • Realizar análisis descriptivo de información considerando el tipo de variable estudiada, cuantitativa o cualitativa, y realizar análisis exploratorio bivariado (Python).
  • Saber cómo eliminar datos duplicados (observaciones y variables). Aplicar las técnicas apropiadas para rellenar o eliminar información con la que no se cuenta según el tipo de pérdida.
  • Transformar los datos para que estén en una escala comparable. Modificar y transformar los datos para su manejo apropiado en modelos; e.g. construcción de variables dummies (one-hot encoding).
  • Aplicar técnicas apropiadas para identificar y eliminar ruido. Usar técnicas univariadas y multivariadas para determinar observaciones muy diferentes al resto (outliers).
  • Aplicar técnicas para sintetizar las variables en un menor número conservado la variabilidad original de los datos. Construir variables latentes (no observadas) que sintetizan en ciertas dimensiones la información de los datos originales. Representar los datos dados en varias dimensiones en un plano.
  • Aplicar técnicas apropiadas según el tipo de análisis deseado para seleccionar las variables más relevantes, eliminando así la necesidad de usar todas, y pudiendo mejorar el desempeño de los modelos.
  • Entender lo que es una base de datos y aplicar las funciones apropiadas en Python para unir apropiadamente distintos conjuntos de datos.

Descargar Temario


INFORMES: lumialearning@gmail.com

Sin duda el incremento y la disponibilidad de un mayor número de datos e información hace cada vez más fácil el poder efectuar análisis para responder los cuestionamientos que empresas, gobiernos e individuos se plantean. Sin embargo, el manejo adecuado de la información es lo que puede dar validez a los análisis y conclusiones que hagamos. De nada sirve la aplicación de un buen modelo si desde un comienzo la información no ha sido analizada y preparada adecuadamente.

En este curso se analiza el manejo adecuado de la información, empezando con los pasos necesarios que hay que seguir cuando queremos analizar los datos. Posteriormente, a lo largo de los siguientes temas se introducen técnicas de preprocesamiento de la información, así como de modelos que pueden utilizarse para resolver problemas relacionados con su manejo. Estos problemas incluyen la presencia de datos perdidos o muy diferentes al resto, técnicas para mejorar la calidad de la información al reducir su variabilidad, problemas de escala en los datos, selección de las variables adecuadas según el tipo de análisis deseado, etc. Todo esto, desde la perspectiva de aplicar el modelo o proceso adecuado según el tipo de datos. Cada uno de los Temas se ilustran a través de datos y código en Python.  

El objetivo de este curso va más allá del conocimiento de las técnicas y su aplicación de forma sistemática. Más allá de lo anterior, el objetivo final de este curso es el de que el estudiante sea capaz preguntarse cuando y por qué debe usar cada uno de los métodos. Dando este paso será posible entonces aplicar con confianza los modelos modernos o clásicos que quieran efectuarse. 

Al final de este curso serás capaz de:

  • Saber la diferencia entre análisis de datos, minería de datos y otra terminología usada en ciencia de datos. Saber cuáles análisis preliminares deben aplicarse sobre los datos antes de modelar.
  • Realizar análisis descriptivo de información considerando el tipo de variable estudiada, cuantitativa o cualitativa, y realizar análisis exploratorio bivariado (Python).
  • Saber cómo eliminar datos duplicados (observaciones y variables). Aplicar las técnicas apropiadas para rellenar o eliminar información con la que no se cuenta según el tipo de pérdida.
  • Transformar los datos para que estén en una escala comparable. Modificar y transformar los datos para su manejo apropiado en modelos; e.g. construcción de variables dummies (one-hot encoding).
  • Aplicar técnicas apropiadas para identificar y eliminar ruido. Usar técnicas univariadas y multivariadas para determinar observaciones muy diferentes al resto (outliers).
  • Aplicar técnicas para sintetizar las variables en un menor número conservado la variabilidad original de los datos. Construir variables latentes (no observadas) que sintetizan en ciertas dimensiones la información de los datos originales. Representar los datos dados en varias dimensiones en un plano.
  • Aplicar técnicas apropiadas según el tipo de análisis deseado para seleccionar las variables más relevantes, eliminando así la necesidad de usar todas, y pudiendo mejorar el desempeño de los modelos.
  • Entender lo que es una base de datos y aplicar las funciones apropiadas en Python para unir apropiadamente distintos conjuntos de datos.

Descargar Temario


INFORMES: lumialearning@gmail.com

En Aprendizaje Estadístico (AE) se utilizan modelos con los cuales a partir de un conjunto de variables podamos predecir otras, sin importar su tipo, evaluando después el poder predictivo del modelo. Además de este enfoque predictivo o supervisado, en AE podemos hacer análisis no supervisado. En este, todas las variables son analizadas simultáneamente, obteniendo por ejemplo grupos de individuos similares o permitiendo reducir de dimensión a la información. Así mismo, en AE se generalizan técnicas en Estadística clásica al introducir no linealidad, como por ejemplo en algunas variaciones de modelos no lineales de regresión o métodos de clasificación con fronteras de separación entre clases no lineales.

En Ciencia de Datos la relevancia de AE radica en que se introducen modelos, conceptos y el tipo de enfoque estadístico en el que se fundamentan las técnicas de Deep Learning. Así, las redes neuronales introducidas en el curso son el fundamento para generar modelos sofisticados, como aquellos usados en clasificación de imágenes, procesamiento de lenguaje natural o la modelación de secuencias. 

Al final de este curso serás capaz de:

  • Entender lo que es el problema de Aprendizaje.
  • Determinar cómo puede medirse la capacidad predictiva de un modelo en datos nuevos, considerando modelos que dependen de un conjunto de variables (inputs) para determinar el valor de otra variable (output). Implementar estos métodos en software (Python).
  • Implementar componentes principales (R) como un método para reducir la cantidad de variables utilizadas en un análisis.
  • Implementar a partir de medidas de distancia entre las características de los individuos, la generación de grupos de individuos similares (Python y R).
  • Implementar (Python) algoritmos de machine learning como árboles de clasificación o máquinas de soporte vectorial, considerando en el primer caso una alternativa para outputs cuantitativos y en el segundo la no linealidad a través de kernels.
  • Entender lo que es una red neuronal, como el ladrillo necesario para aplicar Deep learning. Ser capaz de implementar un perceptrón multicapa (Python). Entender e implementar algunos modelos (arquitecturas) básicos de Deep learning.
  • Entender e implementar (Python) clasificadores basados en análisis discriminante, así como modelos no lineales de regresión no paramétrica (R)  


Descargar Temario


INFORMES: lumialearning@gmail.com

En Aprendizaje Estadístico (AE) se utilizan modelos con los cuales a partir de un conjunto de variables podamos predecir otras, sin importar su tipo, evaluando después el poder predictivo del modelo. Además de este enfoque predictivo o supervisado, en AE podemos hacer análisis no supervisado. En este, todas las variables son analizadas simultáneamente, obteniendo por ejemplo grupos de individuos similares o permitiendo reducir de dimensión a la información. Así mismo, en AE se generalizan técnicas en Estadística clásica al introducir no linealidad, como por ejemplo en algunas variaciones de modelos no lineales de regresión o métodos de clasificación con fronteras de separación entre clases no lineales.

En Ciencia de Datos la relevancia de AE radica en que se introducen modelos, conceptos y el tipo de enfoque estadístico en el que se fundamentan las técnicas de Deep Learning. Así, las redes neuronales introducidas en el curso son el fundamento para generar modelos sofisticados, como aquellos usados en clasificación de imágenes, procesamiento de lenguaje natural o la modelación de secuencias. 

Al final de este curso serás capaz de:

  • Entender lo que es el problema de Aprendizaje.
  • Determinar cómo puede medirse la capacidad predictiva de un modelo en datos nuevos, considerando modelos que dependen de un conjunto de variables (inputs) para determinar el valor de otra variable (output). Implementar estos métodos en software (Python).
  • Implementar componentes principales (R) como un método para reducir la cantidad de variables utilizadas en un análisis.
  • Implementar a partir de medidas de distancia entre las características de los individuos, la generación de grupos de individuos similares (Python y R).
  • Implementar (Python) algoritmos de machine learning como árboles de clasificación o máquinas de soporte vectorial, considerando en el primer caso una alternativa para outputs cuantitativos y en el segundo la no linealidad a través de kernels.
  • Entender lo que es una red neuronal, como el ladrillo necesario para aplicar Deep learning. Ser capaz de implementar un perceptrón multicapa (Python). Entender e implementar algunos modelos (arquitecturas) básicos de Deep learning.
  • Entender e implementar (Python) clasificadores basados en análisis discriminante, así como modelos no lineales de regresión no paramétrica (R)  

Descargar Temario


INFORMES: lumialearning@gmail.com

En la actualidad el uso de herramientas que permiten a una máquina reproducir el comportamiento humano, inteligencia artificial o IA, ha tomado cada vez mayor relevancia. Como un área integral de IA tenemos el aprendizaje máquina o Machine Learning (ML), el cual permite enseñar a las computadoras y mejorar su aprendizaje.  Finalmente, dentro de ML, el aprendizaje profundo o Deep Learning (DL), es un tipo aprendizaje basado en el uso de redes neuronales profundas.

En este curso se presentan los conceptos fundamentales utilizados en DL, así como las arquitecturas más importantes y algunas de sus aplicaciones, por ejemplo, en clasificación de imágenes o en la generación de agentes autónomos. En este curso se conjugan conceptos estadísticos, probabilísticos, computacionales y de manejo de datos que nos ayudarán a entender bien los aspectos detrás de cada modelo y ser capaces de modificar el código y modelos para obtener mejores resultados al entender a fondo cada modelo. El objetivo es así que el estudiante no solo sea capaz de aplicar el código sino entender lo que está siendo implementado.

Los conocimientos adquiridos permitirán entender y aplicar implementaciones de DL, como es la IA generativa, la tecnología basada en reconocimiento de voz o rostro, las herramientas que permiten la identificación de fraudes, la tecnología detrás de los automóviles autónomos, y en general la generación de agentes o robots que pueden efectuar tareas a través de un proceso de aprendizaje basado en recompensas (aprendizaje reforzado).

Al final de este curso serás capaz de:

  • Identificar donde se encuentra ubicado Deep learning dentro de IA y las arquitecturas más usadas.
  • Entender cuáles son los frameworks disponibles en Python para implementar DL y el concepto de tensor como el elemento matemático en el cual se basa toda el álgebra necesaria para aplicar DL. Implementar modelos simples en software (TensorFlow por sí mismo y usando Keras y Pytorch)
  • Entender el funcionamiento e intuición detrás de los modelos de clasificación de imágenes, así como el significado de sus partes, las cuales pueden modificarse al entrenar el modelo. Implementar redes convolucionales en reconocimiento de imágenes.
  • Entender e implementar modelos recurrentes basados en que la información de una neurona puede reusarse. Aplicar los modelos para análisis de series temporales.
  • Entender el procedimiento para el ajuste de los modelos de DL y cambiar el algoritmo con el fin de entrenar mejor a los modelos.
  • Entender e implementar métodos que mejoran tanto el poder predictivo en datos nuevos (evitar sobreajuste) como la convergencia de los algoritmos.
  • Implementar métodos para obtener ciertas constantes (hiperparámetros) que se fijan en los modelos y algoritmos de DL, los cual permite obtener mejores resultados.
  • Entender e implementar modelos generativos, unos basados en tratar de reconstruir la información original, y otros basados en poner a competir dos redes dentro de un mismo modelo.
  • Ser capaz de generar un agente, por ejemplo, un agente que juega por sí mismo un videojuego de Atari, usando Deep reinforcement learning. Ejemplificar ChatGPT como una tecnología híbrida basada en parte en este tipo de aprendizaje.

Descargar Temario


INFORMES: lumialearning@gmail.com

 

 

A través de la Estadística bayesiana se realiza inferencia, paramétrica o no, predice, clasifica, y en general se aplican modelos en los cuales se usa información o conocimientos a priori, los cuales se actualizan. Los análisis se realizan con los resultados actualizados, o a posteriori, después de observar los datos de una muestra. 

Además, existen métodos análogos a lo de Estadística clásica o frecuentista. Incluso, dado que se tiene la opción de usar a prioris no informativas es posible tener resultados similares a los del análisis clásico, especialmente si el tamaño de muestra es grande. De hecho, el enfoque bayesiano puede tener un mejor desempeño a las técnicas clásicas si el tamaño de la muestra es pequeño. Así mismo, existen métodos en estadística bayesiana, como son las redes bayesianas, las cuales basadas en la ley de bayes permiten expresar asociaciones direccionales o no entre un conjunto de variables. Otro ejemplo son las técnicas de optimización bayesiana basadas en procesos gaussianos y simulaciones que permiten optimizar funciones no lineales complejas sin necesidad de evaluar todos los valores de la función.  

 Existen muchos métodos usados en Ciencia de datos que se basan en el enfoque bayesiano. Por ejemplo, con la optimización bayesiana es posible encontrar los hiperparámetros óptimos asociados a una red neuronal. Este enfoque se recomienda especialmente cuando contamos con información preliminar que nos puede ser útil para mejorar nuestros resultados.

Al final de este curso serás capaz de:

  • Entender la diferencia entre la estadística clásica y la bayesiana, usando en la última el conocimiento previo para mejorar la inferencia.
  • Entender e implementar modelos básicos bayesianos, algunos apropiados para datos cuantitativos, otros para conteos, fenómenos binarios que incluyen éxitos y fracasos, e incluso considerando algunos apropiados para cuando la información de un individuo está anidada. Por ejemplo, la información de calificaciones de alumnos dentro de salones contenidos dentro de escuelas.
  • Entender e implementar distintos algoritmos que permiten aproximar numéricamente la distribución que se tendría una vez que observamos datos (a posteriori) para actualizar el conocimiento previo (a priori).
  • Entender e implementar modelos en los cuales a partir de un conjunto de variables se determina el valor de otra variable, sin importar si esta es cuantitativa o cualitativa. Implementar métodos bayesianos para analizar datos que involucran fenómenos a lo largo del tiempo (series temporales).
  • Implementar modelos bayesianos libres de un supuesto distribucional.
  • Implementar y entender el proceso usado para definir las redes bayesianas, siendo estas modelos que pueden usarse para entender relaciones direccionales entre variables o como clasificadores.
  • Implementar clasificadores bayesianos y ser capaz de optimizar una función complicada sin necesidad de evaluar todos sus puntos.
  • Predecir bajo un modelo bayesiano.

Descargar Temario


INFORMES: lumialearning@gmail.com

 

 

A través de la Estadística bayesiana se realiza inferencia, paramétrica o no, predice, clasifica, y en general se aplican modelos en los cuales se usa información o conocimientos a priori, los cuales se actualizan. Los análisis se realizan con los resultados actualizados, o a posteriori, después de observar los datos de una muestra. 

Además, existen métodos análogos a lo de Estadística clásica o frecuentista. Incluso, dado que se tiene la opción de usar a prioris no informativas es posible tener resultados similares a los del análisis clásico, especialmente si el tamaño de muestra es grande. De hecho, el enfoque bayesiano puede tener un mejor desempeño a las técnicas clásicas si el tamaño de la muestra es pequeño. Así mismo, existen métodos en estadística bayesiana, como son las redes bayesianas, las cuales basadas en la ley de bayes permiten expresar asociaciones direccionales o no entre un conjunto de variables. Otro ejemplo son las técnicas de optimización bayesiana basadas en procesos gaussianos y simulaciones que permiten optimizar funciones no lineales complejas sin necesidad de evaluar todos los valores de la función.  

 Existen muchos métodos usados en Ciencia de datos que se basan en el enfoque bayesiano. Por ejemplo, con la optimización bayesiana es posible encontrar los hiperparámetros óptimos asociados a una red neuronal. Este enfoque se recomienda especialmente cuando contamos con información preliminar que nos puede ser útil para mejorar nuestros resultados.

Al final de este curso serás capaz de:

  • Entender la diferencia entre la estadística clásica y la bayesiana, usando en la última el conocimiento previo para mejorar la inferencia.
  • Entender e implementar modelos básicos bayesianos, algunos apropiados para datos cuantitativos, otros para conteos, fenómenos binarios que incluyen éxitos y fracasos, e incluso considerando algunos apropiados para cuando la información de un individuo está anidada. Por ejemplo, la información de calificaciones de alumnos dentro de salones contenidos dentro de escuelas.
  • Entender e implementar distintos algoritmos que permiten aproximar numéricamente la distribución que se tendría una vez que observamos datos (a posteriori) para actualizar el conocimiento previo (a priori).
  • Entender e implementar modelos en los cuales a partir de un conjunto de variables se determina el valor de otra variable, sin importar si esta es cuantitativa o cualitativa. Implementar métodos bayesianos para analizar datos que involucran fenómenos a lo largo del tiempo (series temporales).
  • Implementar modelos bayesianos libres de un supuesto distribucional.
  • Implementar y entender el proceso usado para definir las redes bayesianas, siendo estas modelos que pueden usarse para entender relaciones direccionales entre variables o como clasificadores.
  • Implementar clasificadores bayesianos y ser capaz de optimizar una función complicada sin necesidad de evaluar todos sus puntos.
  • Predecir bajo un modelo bayesiano.

Descargar Temario


INFORMES: lumialearning@gmail.com

En muchas áreas es común el seguimiento de información a través del tiempo. Por ejemplo, el seguimiento del precio de las acciones de una empresa, el número de defunciones por una enfermedad o la cantidad de producto vendido en una cadena de autoservicio. En estos casos se analizan las llamadas series temporales.

Un objetivo al analizar una serie temporal puede ser predecir su comportamiento a futuro. Esto puede abordarse a través del uso de modelos estadísticos clásicos que consisten en modelar el comportamiento a través de una descomposición de la serie en su tendencia y comportamientos estacionales. Otra opción es una modelación desde el enfoque de un tipo de proceso estocástico. Algunas veces también es posible contar con la información de otras series temporales, las cuales pueden usarse para obtener mejores predicciones, ya sea a través de un modelo de regresión o de una modelación multivariada. En el primer caso, la modelación podría tener un enfoque explicativo, para así determinar cómo algunas variables afectan a la serie de interés. Por otra parte, la presencia de volatilidad en nuestros datos puede hacer necesario la inclusión de modelos, los cuales, de forma individual o en combinación con cualquiera de los otros, pueden ayudarnos a obtener mejores resultados.

Además, pueden adaptarse algunas técnicas no supervisadas para encontrar grupos de series temporales similares, por ejemplo, series temporales de defunción en distintas localidades que son similares. Otro problema consiste en el análisis de datos que se siguen longitudinalmente, por ejemplo, en encuestas aplicadas a los mismos individuos a lo largo de los años. Finalmente, existen modelos basados en redes neuronales profundas que pueden usarse en este tipo de datos.

Todos estos temas son estudiados en este curso. La idea es que al terminar este, el alumno sea capaz de explorar series temporales usando el enfoque adecuado a su problema particular.

Al final de este curso serás capaz de:

  • Entender porque existe la necesidad de modelos específicos para series temporales.
  • Calcular la distancia entre distintas series temporales. Utilizar métodos para generación de conglomerados o clusters de series temporales (jerárquicos y de partición)
  • Aplicar métodos para pronosticar series basados en la descomposición de la tendencia que siguen los datos y de ciertas estructuras repetidas en el tiempo (estacionalidad).
  • Entender el concepto de una serie estacionaria y ser capaz de transformar una serie adecuadamente hasta que lo sea mediante la aplicación de algoritmos y operadores.
  • Saber lo qué es un modelo ARMA y la importancia de que se aplique sobre series estacionarias. Ser capaz de ajustar un modelo ARMA adecuado a la estructura de nuestros datos. Obtener predicciones a futuro de un fenómeno. Verificar cada uno de los supuestos del modelo.
  • Entender el significado de un modelo SARIMA, como generalización de un modelo ARMA al considerar la estacionalidad asociada a los datos.
  • Ajustar modelos en los cuales los valores de una serie dependen de otras series, considerando además el hecho de la falta de independencia inherente a un seguimiento de algo en el tiempo. Por ejemplo, se tienen dos series temporales, una de la inflación y otra de aspectos climáticos y quiere verse cómo afectan estas a la serie temporal del precio de un producto.
  • Ajustar modelos apropiados y obtener predicciones cuando se consideran simultáneamente varias series asociadas a distintas variables las cuales se impactan mutuamente. Por ejemplo, se tienen series temporales de la cantidad de piezas vendidas de distintos productos y quieren obtenerse predicciones para cada una pues se considera que las series se afectan entre sí.
  • Ajustar modelos apropiados para series temporales en presencia de volatilidad, i.e. en los cuales la variabilidad de los datos en el tiempo cambia. Ajustar modelos para series temporales en presencia de series que pueden considerarse como explicativas, considerando además la correlación temporal de los datos y la volatilidad, combinando así varios modelos vistos.
  • Modelar datos longitudinales, correspondientes a una variable que se sigue a través del tiempo junto con otros posibles inputs, mejorando así la inferencia.
  • Entender porque una red neuronal recurrente (RNN) es capaz de modelar datos para series temporales. Usar Deep learning con RNN para hacer predicciones de series temporales.

Descargar Temario


INFORMES: lumialearning@gmail.com

El uso de software para analizar datos e información ha tomado más relevancia que nunca. Sin duda, uno de los lenguajes más utilizados y cuyo uso va incrementándose cada vez más es definitivamente Python.

Python permite implementar una gran gama de análisis y modelos, desde el manejo de datos, análisis de datos estadístico tradicional, programación avanzada, hasta llegar a análisis asociados a Deep learning, desarrollo de aplicaciones, e incluso la creación de juegos. Es difícil que un analista de datos o información se considere completo si no incluye dentro de su repertorio el manejo de este software. 

A lo largo del curso, se aprenderán los fundamentos del lenguaje, incluyendo su instalación, sintaxis básica, estructuras de datos, programación funcional e introducción a aquella orientada a objetos, así como técnicas para manipulación y visualización de datos.

El curso también aborda buenas prácticas de programación, manejo de archivos, creación de entornos virtuales y gestión de paquetes. Además, se incluye una introducción a la visualización con Matplotlib y Seaborn, así como conceptos básicos de pipelines.


TEMARIO: Python Básico

INFORMES: lumialearning@gmail.com

El uso de software adecuado para realizar análisis es fundamental en Ciencia de datos. Sin duda, uno de los programas más usados para el análisis de datos es R. Este lenguaje tiene la ventaja de ser de acceso libre y gratuito, así como abierto a que las personas generen sus propios paquetes para realizar el análisis que ellos deseen. Esto ha hecho que la cantidad de librerías y posibles análisis que pueden hacerse usándolo sea prácticamente ilimitado. Podemos encontrar desde paquetes asociados a técnicas clásicas de análisis hasta aquellos relacionados con los últimos artículos de investigación, o desde paquetes propios de análisis en demografía, econometría o bioestadística hasta aquellos relacionados con las más modernas técnicas en Machine Learning.

 

El objetivo de este curso es proporcionar una introducción básica a R, desde su instalación, manejo y lectura de distintos tipos de datos hasta la elaboración de gráficas básicas. Su objetivo no es que el estudiante se vuelva un maestro en R, sino la de servir como una introducción para empezar a adquirir confianza en su uso. Así, una vez que se quieran hacer análisis específicos, se pueden entender los fundamentos con los cuales entender la estructura general del programa, para que que entonces la estructura particular asociada a un paquete de interés sea menos difícil de entender.


Al final de este curso serás capaz de:

  • Tener nociones básicas sobre el uso de R.
  • Instalar R.
  • Saber cómo se instala una librería.
  • Aplicar operaciones aritméticas básicas.
  • Introducir vectores y matrices.
  • Entender lo que es una función y cómo puede uno generar funciones.
  • Manejo básico de datos usando R base: filtrar datos, generar nuevas variables, manejar valores perdidos, etc.
  • Practicar a través de análisis descriptivos básicos en conjuntos de datos.

Descargar Temario


INFORMES: lumialearning@gmail.com

La disponibilidad e importancia del análisis de datos georreferenciados es más relevante que nunca. Por ejemplo, en epidemiología, los análisis espaciales son empleados para modelar riesgos y tasas asociados con enfermedades y su mortalidad, considerando información agregada a algún nivel geográfico, por ejemplo, por localidad. A través de análisis espaciales podemos identificar espacialmente ubicaciones en las que estas medidas son mayores o menores, estimar las medidas en ubicaciones en las que no hay información disponible, o identificar variables que están significativamente asociadas con las medidas, considerando para esto las relaciones de acuerdo con la posición geográfica y espacial que existen entre las observaciones.

 

El propósito de este curso es motivar a los estudiantes a utilizar análisis espaciales, permitiéndoles identificar algunos ejemplos de técnicas disponibles.

 

Primero presentamos ideas generales sobre la información espacial y su importancia. Después de eso, presentamos algunos análisis descriptivos espaciales y ejemplos de medidas utilizadas para identificar y medir la asociación espacial, así como la agrupación espacial tanto global como local. Luego, presentamos técnicas utilizadas para interpolar información espacial para unidades espaciales en las que la información no está disponible. Posteriormente, presentamos algunos modelos lineales que consideran la naturaleza espacial de la información permitiendo obtener inferencias correctas, estos son parte de los análisis usados en econometría espacial. Finalmente, hablamos de algunos modelos en los cuales la información se sigue tanto de forma espacial como temporal, esto es, cuando tenemos variables que para una misma unidad geográfica se siguen a través de varios años.


Al final de este curso serás capaz de:

  • Entender la diferencia entre distintos tipos de datos georreferenciados y manejar archivos .shp. Hacer análisis descriptivos básicos (GeoDa) a través de mapas, e.g. mapas de los cuartiles asociados a una variable con distintos colores.
  • Obtener distintos tipos de matriz de vecindad entre unidades espaciales de un territorio (R y GeoDa), tanto basadas en distancias como en la contigüidad.
  • Calcular una medida de correlación para una sola variable o entre pares de variables en información georreferenciada usando matrices de pesos espaciales construidas a partir de las matrices de vecindad. Obtener mapas de calor que permitan determinar asociación significativa entre las mediciones de una región con las de regiones próximas (R y Python); e.g. conglomerados de regiones con alta pobreza rodeadas significativamente de regiones con alta pobreza.
  • Obtener un diagrama de la correlación de una variable con ella misma de acuerdo con la distancia entre dos regiones (variograma). Estimar modelos para esa correlación, los cuales son utilizados en otros modelos.
  • Interpolar los valores de una variable sobre una región diferente a aquellas en las que se tienen mediciones.
  • Ajustar modelos lineales de distintos tipos que consideren la relación espacial, ya sea usando un variograma o matrices de pesos espaciales.
  •  Ajustar regresiones que consideren la posibilidad de efectos diferenciales de cada input sobre el output de acuerdo con la región (regresiones geográficamente ponderadas). Esto efectos pueden mapearse; e.g. en el norte del país la asociación de un índice de marginación con la tasa de defunción por una enfermedad es mayor que en el sur.
  • Aplicar análisis descriptivos en datos que no solo involucran el aspecto espacial sino también temporal. Ajustar algunos modelos lineales para esta clase de datos; e.g. aspectos climáticos que se miden por localidad y se siguen por varios años, de los cuales se quiere ver cómo afectan la producción de maíz.

Descargar Temario


INFORMES: lumialearning@gmail.com

Las redes bayesianas son parte de los llamados modelos gráficos probabilísticos (MGP). Estos modelos mezclan conceptos de teoría de gráficas y de modelos probabilísticos. Una de las características de estos modelos es que pueden representarse gráficamente, lo cual puede ayudar a entender mejor un fenómeno.

Los MGP y redes bayesianas tienen múltiples usos:

  • Entender las asociaciones entre variables tanto en términos gráficos como probabilísticos. En este último caso, determinando las independencias marginales y condicionales que están detrás de las relaciones de las variables en un conjunto de datos.
  • El gráfico puede ser de utilidad para entender cómo están relacionadas o la importancia de algunas variables. Por ejemplo, en el caso de un modelo no dirigido, podemos ligar el gráfico con conceptos de análisis de redes sociales para determinar cuáles variables son centrales. Por otra parte, en el caso de un modelo dirigido, podemos determinar el tipo de relaciones direccionales que mediante trayectorias dirigidas ligan a ciertas variables.
  • Podemos usar las redes bayesianas para obtener las probabilidades marginales de cada variable bajo el modelo o para asignar valores fijos a ciertas variables y ver cómo se modifican las probabilidades condicionado a estos valores (evidencia)
  • Podemos usar las redes bayesianas como clasificadores, modelos que nos permitirían determinar a cuál categoría de una variable de tipo output (salida) existe más probabilidad de pertenecer cuando asignamos valores al resto de las variables.

·             El objetivo de este curso es tener un panorama global de todos estos conceptos y aplicaciones.


TEMARIOTemario Redes Bayesianas

INFORMES: lumialearning@gmail.com

En muchas áreas es de interés analizar la relación entre un conjunto de variables explicativas o inputs con una variable respuesta u output. Así, mismo puede ser relevante obtener predicciones del output a partir de los inputs. Los modelos lineales más conocidos para realizar estas tareas son los de regresión simple y múltiple; sin embargo, existen una gran variedad de modelos similares y el uso del modelo apropiado según nuestro problema puede ayudarnos a obtener mejores resultados. Estos corresponden a los Modelos Lineales Generalizados (MLG).

En regresión simple hay una sola variable explicativa, mientras que en múltiple hay un conjunto de variables explicativas, todas ellas cuantitativas. Cuando hay una sola variable explicativa y esta es categórica se estudia un ANOVA de un factor. Este modelo puede generalizarse y se obtienen modelos que se relacionan con diseños factoriales en experimentos. En diseño de experimentos se plantea el experimento apropiado para comprobar una hipótesis, por ejemplo, si un medicamento es efectivo. Finalmente, en el caso general es posible variables explicativas categóricas y continuas.

 

Por otra parte, cuando la variable respuesta corresponde a un conteo o se quiere modelar una tasa, la distribución asociada es Poisson o multinomial (regresión Poisson y modelos loglineales). Los modelos loglineales permiten además identificar relaciones de independencia marginal o condicional en un conjunto de variables categóricas (tablas de contingencia) y se ligan con teoría de gráficas.

 

Cuando la variable respuesta es categórica, de tal modo que la distribución asociada es por ejemplo Bernoulli, Binomial o multinomial, pueden usarse un MLG como por ejemplo la regresión logística. Esta permite construir un clasificador aún más general que en un análisis discriminante. Los MLG en su planteamiento más general, en los cuales los outputs tienen distribuciones asociadas a la familia exponencial, abarcan otros modelos, e. g. Probit, log-log, etc.

 

Los MLG son empleados para explicar y predecir en áreas muy diversas: Econometría, Bioestadística, Geografía, Finanzas y Seguros, etc.  En este curso se introducen cada uno de los distintos tipos de modelos y se dan ejemplos de aplicaciones.


Al final de este curso serás capaz de:

  • Saber lo que es un modelo lineal generalizado (MLG), siendo modelos que permiten hacer inferencia (análisis explicativos) o análisis predictivos según el tipo de output (variable respuesta) y de inputs (variables explicativas).
  • Aplicar MLGs correctos para cuando el output es cuantitativo y se asume normal:  1) Ajustar regresiones lineales múltiples, 2) Ajustar regresiones que incluyen inputs cualitativos, incluyendo modelos que se utilizan al diseñar experimentos (ANOVA de uno y varios factores).
  • Probar cada uno de los supuestos estadísticos que deben satisfacer los modelos del punto previo para obtener resultados válidos. Tener nociones de cómo pueden afrontarse la falta de cumplimiento en algunos supuestos.
  • Aplicar MLGs correctos para cuando el output es cuantitativo y corresponde a un conteo o tasa; e..g. total de defunciones, considerando cualquier tipo de input. Ajustar modelos y aplicar algunas pruebas cuando todos los inputs son cualitativos, siendo estas pruebas que generalizan la noción de independencia entre variables, y que las ligan con los modelos gráficos probabilísticos.
  • Saber interpretar los parámetros asociados a los modelos del punto previo; e.g. el incremento en el número esperado de clientes deudores es de 3 veces al pertenecer al grupo de edad de 18 a 24. Probar supuestos estadísticos y poder cambiar el tipo de modelo cuando hay violación de supuestos, e.g. usar una regresión binomial negativa.
  • Aplicar MLGs correctos para cuando el output es cualitativo, binario o con varias categorías, a través de modelos logísticos, considerando cualquier tipo de input.
  • Saber interpretar los parámetros asociados a los modelos del punto previo en términos de momios y riesgo relativo; e.g. el incremento en los momios de muerte por una enfermedad es 2 veces en hombres. Probar supuestos estadísticos.
  • Saber cómo se pueden generalizar los MLG para poder estudiar otro tipo de inputs; e.g. una variable continua con valores no negativos. Entender cuál es el proceso y cómo funciona el algoritmo que permite ajustar un MLG.
  • En regresión simple hay una sola variable explicativa, mientras que en múltiple hay un conjunto de variables explicativas, todas ellas cuantitativas. Cuando hay una sola variable explicativa y esta es categórica se estudia un ANOVA de un factor. Este modelo puede generalizarse y se obtienen modelos que se relacionan con diseños factoriales en experimentos. En diseño de experimentos se plantea el experimento apropiado para comprobar una hipótesis, por ejemplo, si un medicamento es efectivo. Finalmente, en el caso general es posible variables explicativas categóricas y continuas.
  • Por otra parte, cuando la variable respuesta corresponde a un conteo o se quiere modelar una tasa, la distribución asociada es Poisson o multinomial (regresión Poisson y modelos loglineales). Los modelos loglineales permiten además identificar relaciones de independencia marginal o condicional en un conjunto de variables categóricas (tablas de contingencia) y se ligan con teoría de gráficas.
  • Cuando la variable respuesta es categórica, de tal modo que la distribución asociada es por ejemplo Bernoulli, Binomial o multinomial, pueden usarse un MLG como por ejemplo la regresión logística. Esta permite construir un clasificador aún más general que en un análisis discriminante. Los MLG en su planteamiento más general, en los cuales los outputs tienen distribuciones asociadas a la familia exponencial, abarcan otros modelos, e. g. Probit, log-log, etc.
  • Los MLG son empleados para explicar y predecir en áreas muy diversas: Econometría, Bioestadística, Geografía, Finanzas y Seguros, etc.  En este curso se introducen cada uno de los distintos tipos de modelos y se dan ejemplos de aplicaciones.

Descargar Temario


INFORMES: lumialearning@gmail.com

En muchas áreas es de interés analizar la relación entre un conjunto de variables explicativas o inputs con una variable respuesta u output. Así, mismo puede ser relevante obtener predicciones del output a partir de los inputs. Los modelos lineales más conocidos para realizar estas tareas son los de regresión simple y múltiple, así como los modelos tipo ANOVA de uno o varios factores. Todos estos modelos están basados en una variable respuesta cuantitativa, la cual para poder realizar inferencia (construcción de intervalos de confianza y pruebas de significancia) se asume normal. Sin embargo, existen datos para los cuales el supuesto de independencia entre las observaciones de la muestra no se satisface. Esto ocurre, por ejemplo, cuando se hace un estudio en los cuales se entrevistan miembros de una misma familia, de tal forma que se esperaría que estos tengan muchas características en común.

 

En este curso se estudian modelos que incluyen variables aleatorias, efectos aleatorios, dentro del conjunto de variables explicativas. Estos modelos se utilizan para modelar adecuadamente la variabilidad y así obtener mejores resultados. Estos modelos se utilizan en datos longitudinales, espaciales y datos aglomerados o anidados (e.g. alumnos dentro de escuelas). Los modelos lineales son empleados para explicar y predecir en áreas muy diversas: Econometría, Bioestadística, Geografía, etc. Por ejemplo, el los llamados modelos de áreas pequeñas, los MLM son el fundamento a partir del cual puede obtenerse una estimación a niveles geográficos en los cuales una encuesta no fue construida, por ejemplo, obtener estimaciones a nivel localidad de una encuesta construida a nivel provincia o estado.


Al final de este curso serás capaz de:

  • Entender la diferencia entre un efecto fijo y uno aleatorio y en cuales casos utilizar el segundo.
  • Entender en que contexto puede tener sentido agregar efectos aleatorios, por ejemplo, al considerar anidamiento entre las observaciones, e.g. calificaciones de alumnos dentro de salones que a su vez están dentro de escuelas.
  • Sabes formular un modelo lineal mixto (MLM) con dos niveles en su forma escalar, vectorial y matricial. Proporcionar los supuestos del modelo.
  • Entender el significado de un modelo marginal asociado a un MLM.
  • Entender cómo estimar los efectos fijos considerando que la estructura de correlación es conocida.
  • Conocer las estructuras de correlación más comunes, e.g. en datos longitudinales considerar estructuras autorregresivas.
  • Conocer cuáles son los métodos para poder estimar los efectos fijos y aleatorios.
  • Entender qué tipo de inferencia puede hacerse en un MLM: efectos fijos y sobre la estructura de correlación.
  • Comprender los supuestos qué deben verificarse para un MLM.
  • Ajustar en R distintos MLMs en modelos aglomerados de al menos dos niveles, así como para datos longitudinales.  

Descargar Temario


INFORMES: lumialearning@gmail.com

El fundamento de una gran mayoría de las técnicas avanzadas de análisis de datos se encuentra en la estadística. Por ejemplo, los llamados variational autoencoders son redes neuronales profundas usadas como modelos generativos y que contienen importantes bases probabilísticas y estadísticas. Por ejemplo, dentro de una de sus capas incluyen parámetros para la media y la dispersión. Ni que decir de muchos modelos en machine learning, como la regresión logística o el análisis discriminante, los cuales nacieron como modelos en esa área. Incluso técnicas indispensables en el preprocesamiento de información, como la estandarización, las técnicas de manejo de datos perdidos, así como la selección de variables, requieren amplios conocimientos en Estadística. Incluso si nuestro interés es solo predictivo, el entendimiento de porque las predicciones tienen cierta variabilidad y con mayor razón, determinar a cuál corresponde, se fundamenta en conceptos estadísticos.  Por lo tanto, es difícil pretender tener una carrera completa en Ciencia de Datos si nos faltan los cimientos indispensables para ello dados en la Estadística.

 

El objetivo de este curso es introducir al estudiante en el área de la estadística. Se parte desde el análisis exploratorio de datos, parte importante para entender tanto numéricamente como gráficamente a un conjunto de datos. Posteriormente, se determinan estimadores puntuales asociados a los parámetros de una distribución, por ejemplo, la media en una distribución normal. Estos son funciones de los valores asociados a una muestra aleatoria y que por lo tanto poseen cierta variabilidad. Por lo tanto, uno se pregunta si cualquier función de la muestra o estimador es igual de bueno para estimar un parámetro. Este cuestionamiento hace necesario el plantear cuáles propiedades debería de cumplir un estimador puntual para considerarse bueno. Dada la variabilidad que un estimador posee, uno se cuestiona también si no es más conveniente dar un rango de posibles valores que puede tomar el parámetro en lugar de solo un valor, esta es la estimación intervalar. Finalmente, uno puede preguntarse si nuestra noción de que un parámetro según nuestro conocimiento debe de tomar un valor o valores específicos es respaldada por nuestros datos, las pruebas de hipótesis permiten realizar este paso.


Al final de este curso serás capaz de:

  • Realizar análisis exploratorio sobre cualquier tipo de datos, cuantitativos o cualitativos, tanto gráficos como a través de medidas numéricas. Analizar cada variable por sí misma o en pares, determinando si hay asociación entre ellas.
  • Estimar puntualmente los parámetros asociados a datos correspondientes a una muestra de observaciones que se asume corresponden a alguna distribución, e.g. normal. Estimar parámetros usando la función de verosimilitud o a partir de los momentos poblacionales, e.g. estimar la media y varianza de unos datos que se asumen normales.  
  • Entender cada una de las propiedades deseables en un estimador puntual, como por ejemplo que en promedio nos acerquemos al valor real o que no haya tanto margen de error de atinarle al valor real.
  • Saber cuáles son las propiedades que satisface un estimador máximo verosímil en muestras grandes, los cuales lo hacen deseable y justifican su uso en estadística y ciencia de datos.
  • Obtener algebraicamente y con software algunos intervalos que nos indiquen con un cierto grado de confianza sobre que valores se mueve el valor de un parámetro de acuerdo con la información dada por los datos. En particular, aplicar distintos tipos de intervalos para cuando se asume que los datos provienen de una distribución normal.
  • Plantear hipótesis del valor o conjunto de valores que un parámetro puede tomar, por ejemplo, probar que la estatura media es de 1.67. Obtener funciones de la muestra que nos indican si se rechaza o no una prueba, así como la regla necesaria para tomar esa decisión. Plantear las hipótesis más usadas en el caso de datos provenientes de una muestra normal y resolverlas con software.
  • Entender el concepto de p-valor o nivel crítico y saber leerlo al realizar un ajuste estadístico en software.  

Descargar Temario


INFORMES: lumialearning@gmail.com

La estadística inferencial clásica se basa en supuestos distribucionales en los datos, esto puede limitar su aplicación a cuando los datos satisfacen estos supuestos o cuando la muestra es muy grande. Por lo anterior, existen una gran variedad de técnicas y procedimientos que no asumen ninguna distribución sobre los datos. Estas técnicas pueden ser más fácil de aplicar en contextos reales, en los cuales además de que es común la presencia de variables cualitativas, muchas técnicas paramétricas no pueden aplicarse.

 

En este curso veremos distintas técnicas no paramétricas, algunas de ellas similares a las existentes en el caso paramétrico. Por ejemplo, podemos determinar si la distribución en dos o más grupos independientes de muestras aleatorias de individuos es similar, como análisis equivalentes a los de una prueba t de diferencia de medias o a una ANOVA de un factor, respectivamente. También podemos hacer pruebas para determinar si hay aleatoriedad en unos datos, determinar si hay asociación entre dos variables cualitativas o determinar si en un experimento en el cual a un individuo se le mide una variable, e.g. la presión sanguínea, a distintas dosis tiene o no efecto. Así mismo, es posible determinar si nuestros datos tienen o no una distribución específica, por ejemplo, determinar si nuestros datos tienen o no una distribución normal. Incluso es posible aproximar no paramétricamente la forma de una distribución o definir técnicas de regresión de tipo no paramétrico.


Al final de este curso serás capaz de:

  • Entender la diferencia entre un análisis paramétrico y no paramétrico.
  • Aplicar pruebas exactas para determinar si la proporción de éxitos para un evento toma ciertos valores; e.g., la proporción de gente con acceso a servicios básicos es de 0.75. Aplicar una prueba, sin asumir normalidad, para determinar el valor alrededor del cual se encuentran los valores asociados a una muestra.
  • Aplicar pruebas para ver si hay o no aleatoriedad en unos datos.
  • Aplicar pruebas para determinar, sin asumir normalidad, si en dos muestras de observaciones tomadas de forma independiente su distribución, comportamiento, o mediana son similares.     
  • Aplicar pruebas para determinar, sin asumir normalidad, si en dos muestras de observaciones relacionadas, e.g. una medición tomada para cada individuo dos veces, la distribución o comportamiento son similares. Analizar un caso similar, pero para datos binarios.
  • Aplicar pruebas para determinar, sin asumir normalidad, si en varias muestras de observaciones tomadas de forma independiente su distribución, comportamiento, o mediana son similares. Incluir análisis en el cual el orden de las muestras tiene significado, e.g. a través del tiempo hay un incremento en la variable.
  • Aplicar pruebas para determinar, sin asumir normalidad, si en varias muestras de observaciones relacionadas, e.g. una medición tomada para cada individuo varias veces, la distribución o comportamiento son similares. Analizar el caso cuando los valores posibles son binarios.
  • Aplicar pruebas para determinar si en varias muestras las proporciones obtenidas en cada una de las categorías de una variable son las mismas; e.g. determinar si la proporción de personas que fuman en una muestra de hombres y otra de mujeres es la misma.
  • Aplicar pruebas para determinar si dos variables categóricas están asociadas o son independientes; e.g. ver si hay una asociación entre el nivel socioeconómico y la región en la que se vive dentro de una provincia.
  • Aplicar pruebas para determinar si unos datos tienen una distribución específica, e.g una distribución normal. Aplicar pruebas para determinar si la distribución de dos muestras de datos es similar; e.g. la distribución del ingreso es similar entre dos países A y B.
  • Obtener medidas de asociación adecuadas entre variables cualitativas.
  • Ajustar modelos que permitan determinar relaciones no lineales entre dos variables, un input y un output.  

Descargar Temario


INFORMES: lumialearning@gmail.com

La estadística inferencial clásica se basa en supuestos distribucionales en los datos, esto puede limitar su aplicación a cuando los datos satisfacen estos supuestos o cuando la muestra es muy grande. Por lo anterior, existen una gran variedad de técnicas y procedimientos que no asumen ninguna distribución sobre los datos. Estas técnicas pueden ser más fácil de aplicar en contextos reales, en los cuales además de que es común la presencia de variables cualitativas, muchas técnicas paramétricas no pueden aplicarse.

 

En este curso veremos distintas técnicas no paramétricas, algunas de ellas similares a las existentes en el caso paramétrico. Por ejemplo, podemos determinar si la distribución en dos o más grupos independientes de muestras aleatorias de individuos es similar, como análisis equivalentes a los de una prueba t de diferencia de medias o a una ANOVA de un factor, respectivamente. También podemos hacer pruebas para determinar si hay aleatoriedad en unos datos, determinar si hay asociación entre dos variables cualitativas o determinar si en un experimento en el cual a un individuo se le mide una variable, e.g. la presión sanguínea, a distintas dosis tiene o no efecto. Así mismo, es posible determinar si nuestros datos tienen o no una distribución específica, por ejemplo, determinar si nuestros datos tienen o no una distribución normal. Incluso es posible aproximar no paramétricamente la forma de una distribución o definir técnicas de regresión de tipo no paramétrico.


Al final de este curso serás capaz de:

  • Entender la diferencia entre un análisis paramétrico y no paramétrico.
  • Aplicar pruebas exactas para determinar si la proporción de éxitos para un evento toma ciertos valores; e.g., la proporción de gente con acceso a servicios básicos es de 0.75. Aplicar una prueba, sin asumir normalidad, para determinar el valor alrededor del cual se encuentran los valores asociados a una muestra.
  • Aplicar pruebas para ver si hay o no aleatoriedad en unos datos.
  • Aplicar pruebas para determinar, sin asumir normalidad, si en dos muestras de observaciones tomadas de forma independiente su distribución, comportamiento, o mediana son similares.     
  • Aplicar pruebas para determinar, sin asumir normalidad, si en dos muestras de observaciones relacionadas, e.g. una medición tomada para cada individuo dos veces, la distribución o comportamiento son similares. Analizar un caso similar, pero para datos binarios.
  • Aplicar pruebas para determinar, sin asumir normalidad, si en varias muestras de observaciones tomadas de forma independiente su distribución, comportamiento, o mediana son similares. Incluir análisis en el cual el orden de las muestras tiene significado, e.g. a través del tiempo hay un incremento en la variable.
  • Aplicar pruebas para determinar, sin asumir normalidad, si en varias muestras de observaciones relacionadas, e.g. una medición tomada para cada individuo varias veces, la distribución o comportamiento son similares. Analizar el caso cuando los valores posibles son binarios.
  • Aplicar pruebas para determinar si en varias muestras las proporciones obtenidas en cada una de las categorías de una variable son las mismas; e.g. determinar si la proporción de personas que fuman en una muestra de hombres y otra de mujeres es la misma.
  • Aplicar pruebas para determinar si dos variables categóricas están asociadas o son independientes; e.g. ver si hay una asociación entre el nivel socioeconómico y la región en la que se vive dentro de una provincia.
  • Aplicar pruebas para determinar si unos datos tienen una distribución específica, e.g una distribución normal. Aplicar pruebas para determinar si la distribución de dos muestras de datos es similar; e.g. la distribución del ingreso es similar entre dos países A y B.
  • Obtener medidas de asociación adecuadas entre variables cualitativas.
  • Ajustar modelos que permitan determinar relaciones no lineales entre dos variables, un input y un output.  

Descargar Temario


INFORMES: lumialearning@gmail.com

En construcción.


INFORMES: lumialearning@gmail.com

En construcción.


INFORMES: lumialearning@gmail.com

En construcción.


INFORMES: lumialearning@gmail.com

 

 

Sin duda el incremento y la disponibilidad de un mayor número de datos e información hace cada vez más fácil el poder efectuar análisis para responder los cuestionamientos que empresas, gobiernos e individuos se plantean. Sin embargo, el manejo adecuado de la información es lo que puede dar validez a los análisis y conclusiones que hagamos. De nada sirve la aplicación de un buen modelo si desde un comienzo la información no ha sido analizada y preparada adecuadamente.

En este curso se analiza el manejo adecuado de la información, empezando con los pasos necesarios que hay que seguir cuando queremos analizar los datos. Posteriormente, a lo largo de los siguientes temas se introducen técnicas de preprocesamiento de la información, así como de modelos que pueden utilizarse para resolver problemas relacionados con su manejo. Estos problemas incluyen la presencia de datos perdidos o muy diferentes al resto, técnicas para mejorar la calidad de la información al reducir su variabilidad, problemas de escala en los datos, selección de las variables adecuadas según el tipo de análisis deseado, etc. Todo esto, desde la perspectiva de aplicar el modelo o proceso adecuado según el tipo de datos. Cada uno de los Temas se ilustran a través de datos y código en Python.  

El objetivo de este curso va más allá del conocimiento de las técnicas y su aplicación de forma sistemática. Más allá de lo anterior, el objetivo final de este curso es el de que el estudiante sea capaz preguntarse cuando y por qué debe usar cada uno de los métodos. Dando este paso será posible entonces aplicar con confianza los modelos modernos o clásicos que quieran efectuarse.

Al final de este curso serás capaz de:

  • Saber la diferencia entre análisis de datos, minería de datos y otra terminología usada en ciencia de datos. Saber cuáles análisis preliminares deben aplicarse sobre los datos antes de modelar.
  • Realizar análisis descriptivo de información considerando el tipo de variable estudiada, cuantitativa o cualitativa, y realizar análisis exploratorio bivariado (Python).
  • Saber cómo eliminar datos duplicados (observaciones y variables). Aplicar las técnicas apropiadas para rellenar o eliminar información con la que no se cuenta según el tipo de pérdida.
  • Transformar los datos para que estén en una escala comparable. Modificar y transformar los datos para su manejo apropiado en modelos; e.g. construcción de variables dummies (one-hot encoding).
  • Aplicar técnicas apropiadas para identificar y eliminar ruido. Usar técnicas univariadas y multivariadas para determinar observaciones muy diferentes al resto (outliers).
  • Aplicar técnicas para sintetizar las variables en un menor número conservado la variabilidad original de los datos. Construir variables latentes (no observadas) que sintetizan en ciertas dimensiones la información de los datos originales. Representar los datos dados en varias dimensiones en un plano.
  • Aplicar técnicas apropiadas según el tipo de análisis deseado para seleccionar las variables más relevantes, eliminando así la necesidad de usar todas, y pudiendo mejorar el desempeño de los modelos.
  • Entender lo que es una base de datos y aplicar las funciones apropiadas en Python para unir apropiadamente distintos conjuntos de datos.

Descargar Temario


INFORMES: lumialearning@gmail.com

En Aprendizaje Estadístico (AE) se utilizan modelos con los cuales a partir de un conjunto de variables podamos predecir otras, sin importar su tipo, evaluando después el poder predictivo del modelo. Además de este enfoque predictivo o supervisado, en AE podemos hacer análisis no supervisado. En este, todas las variables son analizadas simultáneamente, obteniendo por ejemplo grupos de individuos similares o permitiendo reducir de dimensión a la información. Así mismo, en AE se generalizan técnicas en Estadística clásica al introducir no linealidad, como por ejemplo en algunas variaciones de modelos no lineales de regresión o métodos de clasificación con fronteras de separación entre clases no lineales.

En Ciencia de Datos la relevancia de AE radica en que se introducen modelos, conceptos y el tipo de enfoque estadístico en el que se fundamentan las técnicas de Deep Learning. Así, las redes neuronales introducidas en el curso son el fundamento para generar modelos sofisticados, como aquellos usados en clasificación de imágenes, procesamiento de lenguaje natural o la modelación de secuencias. 

Al final de este curso serás capaz de:

  • Entender lo que es el problema de Aprendizaje.
  • Determinar cómo puede medirse la capacidad predictiva de un modelo en datos nuevos, considerando modelos que dependen de un conjunto de variables (inputs) para determinar el valor de otra variable (output). Implementar estos métodos en software (Python).
  • Implementar componentes principales (R) como un método para reducir la cantidad de variables utilizadas en un análisis.
  • Implementar a partir de medidas de distancia entre las características de los individuos, la generación de grupos de individuos similares (Python y R).
  • Implementar (Python) algoritmos de machine learning como árboles de clasificación o máquinas de soporte vectorial, considerando en el primer caso una alternativa para outputs cuantitativos y en el segundo la no linealidad a través de kernels.
  • Entender lo que es una red neuronal, como el ladrillo necesario para aplicar Deep learning. Ser capaz de implementar un perceptrón multicapa (Python). Entender e implementar algunos modelos (arquitecturas) básicos de Deep learning.
  • Entender e implementar (Python) clasificadores basados en análisis discriminante, así como modelos no lineales de regresión no paramétrica (R)  

Descargar Temario


INFORMES: lumialearning@gmail.com

 

 

A través de la Estadística bayesiana se realiza inferencia, paramétrica o no, predice, clasifica, y en general se aplican modelos en los cuales se usa información o conocimientos a priori, los cuales se actualizan. Los análisis se realizan con los resultados actualizados, o a posteriori, después de observar los datos de una muestra. 

Además, existen métodos análogos a lo de Estadística clásica o frecuentista. Incluso, dado que se tiene la opción de usar a prioris no informativas es posible tener resultados similares a los del análisis clásico, especialmente si el tamaño de muestra es grande. De hecho, el enfoque bayesiano puede tener un mejor desempeño a las técnicas clásicas si el tamaño de la muestra es pequeño. Así mismo, existen métodos en estadística bayesiana, como son las redes bayesianas, las cuales basadas en la ley de bayes permiten expresar asociaciones direccionales o no entre un conjunto de variables. Otro ejemplo son las técnicas de optimización bayesiana basadas en procesos gaussianos y simulaciones que permiten optimizar funciones no lineales complejas sin necesidad de evaluar todos los valores de la función.  

 Existen muchos métodos usados en Ciencia de datos que se basan en el enfoque bayesiano. Por ejemplo, con la optimización bayesiana es posible encontrar los hiperparámetros óptimos asociados a una red neuronal. Este enfoque se recomienda especialmente cuando contamos con información preliminar que nos puede ser útil para mejorar nuestros resultados.

Al final de este curso serás capaz de:

  • Entender la diferencia entre la estadística clásica y la bayesiana, usando en la última el conocimiento previo para mejorar la inferencia.
  • Entender e implementar modelos básicos bayesianos, algunos apropiados para datos cuantitativos, otros para conteos, fenómenos binarios que incluyen éxitos y fracasos, e incluso considerando algunos apropiados para cuando la información de un individuo está anidada. Por ejemplo, la información de calificaciones de alumnos dentro de salones contenidos dentro de escuelas.
  • Entender e implementar distintos algoritmos que permiten aproximar numéricamente la distribución que se tendría una vez que observamos datos (a posteriori) para actualizar el conocimiento previo (a priori).
  • Entender e implementar modelos en los cuales a partir de un conjunto de variables se determina el valor de otra variable, sin importar si esta es cuantitativa o cualitativa. Implementar métodos bayesianos para analizar datos que involucran fenómenos a lo largo del tiempo (series temporales).
  • Implementar modelos bayesianos libres de un supuesto distribucional.
  • Implementar y entender el proceso usado para definir las redes bayesianas, siendo estas modelos que pueden usarse para entender relaciones direccionales entre variables o como clasificadores.
  • Implementar clasificadores bayesianos y ser capaz de optimizar una función complicada sin necesidad de evaluar todos sus puntos.
  • Predecir bajo un modelo bayesiano.

Descargar Temario


INFORMES: lumialearning@gmail.com

Asesorías en proyectos que involucren cualquier aspecto en Ciencia de datos y Estadística, incluyendo trabajos de investigación, ya sea para un trabajo de posgrado (maestría, doctorado o posdoctoral), así como para artículos que van a someterse en alguna revista nacional o internacional indexada o no.


INFORMES: lumialearning@gmail.com

Asesorías y clases personalizadas basadas en cualquier aspecto en Ciencia de Datos y Estadística.


INFORMES: lumialearning@gmail.com