Documentos de Trabajo 2016-2015 – Instituto de Estadística de la Facultad de Ciencias Económicas y de Administración, Universidad de la República

Documentos de Trabajo 2016

DT_16_01 “ Inferencia Bayesiana para el análisis estadístico de datos de fatiga de materiales metálicos”.

- Ivo Babuska; Zaid Sawlan; Marco Scavino; Barna Szabo; Raúl Tempone
- Diciembre 2016

Descargar

Este trabajo está basado en el artículo «Bayesian inference and model comparison for metallic fatigue data«, con I. Babuska, Z. Sawlan, B. Szabó y R. Tempone, publicado en https://arxiv.org/abs/1512.01779. En este trabajo exponemos un tratamiento estadístico de datos extraídos de un conjunto de registros de experimentos de fatiga que se realizaron en las aleaciones de aluminio 75S-T6. Nuestro objetivo principal es predecir la vida de fatiga de materiales, proporcionando un enfoque sistemático para la calibración y clasificación de los modelos propuestos con referencia a los datos de fatiga. A tal efecto, consideramos varios modelos estadísticos con limite de fatiga y con límite de fatiga aleatorio adecuados para el tratamiento de datos censurados a la derecha. En primer lugar, ajustamos los modelos a los datos por el método de máxima verosimilitud y estimamos las cuantías de la distribución de vida de las aleaciones. La robustez de dichas estimaciones es evaluada por medio de intervalos de confianza obtenidos con una técnica de remuestreo estratificado respecto del ciclo de carga repetida. Una primera clasificación de los modelos adoptados es llevada a cabo a través de medidas clásicas de ajuste basadas en criterios de información. En segundo lugar, ampliamos el alcance de nuestro estudio considerando un enfoque Bayesiano. Dado el escenario a priori seleccionado por el usuario para incorporar el conocimiento disponible sobre los parámetros físicos de interés, se obtienen las distribuciones a posteriori aproximadas de dichos parámetros basadas en técnicas de simulación. Para clasificar los modelos Bayesianos y determinar qué modelo sería preferible para un determinado escenario a priori, hemos aplicado tanto métodos basados en la estimación de la verosimilitud marginal como en modernos criterios de información de tipo predictivo,cuya aplicación requiere el uso de técnicas de validación cruzada.

Palabras claves: Calibración y clasificación de modelos Bayesianos, datos de fatiga, modelos con límite de fatiga aleatorio, precisión predictiva de modelos Bayesianos, predicción de vida de fatiga.

DT_16_02 “ Determinación de regiones de imputación para datos espaciales utilizando el algoritmo PCNM: un ejemplo de aplicación a los datos del Censo 2011”

- Eugenia Riaño
- Diciembre 2016

Descargar

En general, la calidad y cobertura de los Censos de Población y Vivienda del año 2011 fue calificada como positiva, cumpliendo con los estándares exigidos internacionalmente. Sin embargo, su implementación no estuvo exenta de inconvenientes. No se cuenta con información de determinados hogares cuyo domicilio fue relevado, y para algunos se cuenta con sólo información parcial relativa a la composición del hogar.

La omisión censal se concentra en zonas socioeconómicamente vulnerables. Esto afectaría la construcción del mecanismo utilizado por el Ministerio de Desarrollo Social para seleccionar a la población beneficiaria de los programas de transferencia monetaria. Este mecanismo se basa en la Encuesta Continua de Hogares cuyo marco muestral es el del Censo, y refleja los problemas de omisión.

Para el caso de Montevideo, el patrón espacial de la población objetivo y de la propia omisión indican que es necesario definir regiones de imputación, dado que la distribución espacial no es continua en el mapa. La selección de los modelos a utilizar para la imputación es muy sensible a la escala del mapa, por lo que la definición de las regiones condiciona la selección del modelo final a utilizarse para realizar la imputación.

El objetivo de este trabajo es construir las regiones a partir del algoritmo PCNM (Principal Coordinates of Neighbour Matrices). El método consiste en aplicar Análisis de Componentes principales a una matriz de distancias truncada entre las observaciones. Así se obtiene un conjunto de variables explicativas que captan la variabilidad espacial en diferentes escalas. A partir de ellas pueden construirse las posibles regiones de imputación, y mediante un modelo de regresión, analizar cuáles son las escalas que se encuentran más asociadas con la variable de respuesta.

Palabras claves:Análisis de Componentes Principales, Estadística Espacial, Índice de Moran, Modelos de Regresión Poisson,

DT_16_03 “Elaboración De Patrones Espirométricos Normales en Niños Uruguayos Mediante Modelos GAM Y GAMLSS:Parte 1-Identificación de la distribución de la variable de respuesta”.

- Ramón Álvarez Vaz; Pablo Palamarchuk; Eugenia Riaño
- Diciembre 2016

Descargar

En un estudio sobre valores de espirometría es necesario identificar un modelo que permita caracterizar curvas percentilares de respuesta espirométricas por edad, sexo y demás características individuales de los participantes.

El presente estudio está siendo llevado adelante por un grupo de investigadores del Centro Hospitalario Pereira Rossell, teniendo como población ni\~nos de 6 a 12 años, de escuelas públicas y privadas de Montevideo y del interior del país.En este documento se han utilizado los datos basados en una muestra de aproximadamente 450 niños que, al ser incompleta, no permite determinar la tasa de no respuesta y eventuales sesgos de selección. Aquíi se presentan los resultdos preliminares , obtenidos mediante métodos de remuestreo, acerca de la identificación de varias familias de distribuciones paramétricas como posibles alternativas para la modelización de las las variables de respuesta.

El principal objetivo del estudio es identificar los modelos GAM (General Additive Models) y GAMLSS (Generalized Additive Models for Localization, Scale and Shape), que son un conjunto de modelos de regresión semi-paramétricos que permiten trabajar con una gran cantidad de distribuciones para las variables de respuesta, de tipo discreto, continuo y mixto, con la ventaja de poder considerar distribuciones que presentan censura o truncamiento. Esta clase de modelos se usa en datos de tipo longitudinal, particularmente en las curvas de crecimiento en humanos.

Las Técnicas empleadas y su implementación mediante el software R, serán ejemplificadas a través del análisis de la variable de respuesta CVF

Palabras claves:Ajuste de distribuciones, Espirometría, Modelos GAM, Modelos GAMLSS, Remuestreo

DT_16_04 “ Evaluación del impacto del Plan de Estudios 2012 sobre los resultados académicos de los estudiantes”.

- Arim, Rodrigo; Goyeneche,Juan José; Katzkowicz,Noemí; Sicilia, Gabriela; Vernazza, Elena; Zoppolo, Guillermo
- Diciembre 2016

Descargar

En el año 2012, la Facultad de Ciencias Económicas y de Administración de la Universidad de la República del Uruguay se implemenó un cambio sustantivo en su plan de estudios. El Plan 2012 sustituyó al anterior Plan 1990. El mismo redujo la cantidad de años de las distintas carreras que se ofrecen, incorporó un sistema de créitos, deja de ser requisito para el egreso la realización de una monografía final. En este sentido, el presente trabajo busca explorar los efectos del cambio de plan sobre el desempeño acadéimco de los estudiantes, medido a través de la acumulación de créditos en los tres primeros años de la carrera. Se utilizaron datos administrativos provenientes del Sistema de Gestión de Bedelías y del formulario de ingreso a la Facultad que gestiona la Dirección General de Planeamiento de la Universidad para las cohortes de estudiantes de 2009 a 2014. La estimación de los efectos se llevṕ a cabo controlando por las características de los estudiantes al momento de su ingreso, con distintas estrategias de matching. Los resultados muestran que los estudiantes inscriptos en el nuevo plan de estudios 2012 aprueban más créditos en promedio que los estudiantes del Plan 90, durante los tres años iniciales de la carrera. Más aín un, a medida que el estudiante avanza en la carrera, el efecto positivo del Plan 2012 en la acumulación de créditos es creciente para todas las variables de resultado consideradas en el análisis.

Palabras claves:Desempeño Educativo, Efectos de Tratamiento, Inferencia Causal.

DT_16_05 “Turismo nostálgico en Uruguay los uruguayos que visitan su país, similitudes y diferencias con el resto de los visitantes ”.

- Silvia Altmark, Karina Larruina
- Diciembre 2016

Descargar

Según datos de la Organización Internacional de Migración, en 2015 los uruguayos en el exterior significaron el 9% de la población del país, con mayor concentración en Argentina. En ese año, Uruguay recibió 3.3 millones de visitas en total, lo que representó un ingreso de divisas superior a U$S 1.776 millones y significó un 7% del PBI según datos del Ministerio de Turismo. Los uruguayos que visitan el país son el tercer público detrás de los argentinos y los brasileños, representando el 13% del total de visitas y el 9% del total de los ingresos.

Dada la importancia de los uruguayos residentes en el exterior como turistas y visitantes al país, este trabajo apunta a su cuantificación y caracterización, destacando similitudes y diferencias con el resto de los visitantes que ingresan a Uruguay. Además del perfil de estos visitantes (ocupación, nivel educativo, rango de edad, sexo) se agrega la caracterización de su viaje (motivación, alojamiento utilizado, destinos visitados, momento del año, duración de la estadía, composición del grupo de viaje y gasto, en sus distintos componentes. El análisis del llamado “Turismo nostálgico” comprende los últimos 10 años, de manera de apreciar la evolución de los visitantes uruguayos que residen en el exterior, los cuales han fluctuado de acuerdo a la situación económica de los países donde residen.

De esta caracterización surge que del total de visitantes Uruguayos en 2015 el 70% reside en Argentina, el destino principalmente visitado es Montevideo (40%) seguido del Litoral Termal (30%), distribuyéndose las visitas a lo largo del año, con mayor flujo en el segundo trimestre de 2015, por las elecciones municipales. El 70% viene principalmente a visitar a sus familiares y amigos, alojándose casi el 90% en la vivienda de los mismos, por lo cual el perfil del gasto es distinto que el del resto de los visitantes, con mayor participación de alimentación, transporte y compras.

Palabras claves: Turismo nostálgico, perfil del visitante, caracterización del viaje

DT_16_06 “Incertidumbre sobre el pasado y su influencia sobre la incertidumbre futura».

- Silvia Rodríguez Collazo
- Diciembre 2016

Descargar

La estimación y cálculo de los indicadores que son parte de las Cuentas Nacionales se realizan a partir de datos que provienen de distintas fuentes, censos económicos, registros administrativos, información contable de las empresas, encuestas por muestreo, entre otras. No todas estas fuentes tienen la misma periodicidad, algunas son mensuales otras trimestrales, incluso anuales. El Banco Central del Uruguay (BCU) realiza revisiones periódicas en los datos, las más importantes en cuanto a magnitud se dan en el último trimestre del año cuando se actualiza la información que se obtiene anualmente. Pero el BCU no publica la base de datos en las que se incluyen las series publicadas por trimestre, de modo de que el público cuente con las diferentes vintages , por lo que para analizar las revisiones es necesario crear la base de datos.

Cuando se realizan proyecciones sobre la trayectoria futura de una variable como el Producto Bruto Interno (PIB) se parte de la última serie disponible. Cuando la serie se revisa, las predicciones se basan en una trayectoria pasada que puede ser muy diferente a la revisada. Los datos pueden verse modificados por revisiones sucesivas sobre el mismo dato hasta que el dato se convierte en definitivo. Por tanto la incertidumbre está presente tanto en los valores pasados como en los futuros del PIB. En una sintética descomposición de los errores de predicción, se pueden ubicar algunos componentes como los errores provenientes de la especificación y estimación del modelo, los errores en que se incurre debido a los choques imprevistos, los asociados a errores de predicción en las variables exógenas si las hubiera, a los que se suman los errores que se generan al predecir la trayectoria futura a partir de datos preliminares.

El objetivo de este documento es avanzar en la caracterización de las revisiones en el Índice de Volumen Físico del Producto Bruto Interno agregado, esto implica explicitar las características de las revisiones para un período acotado y explorar el efecto de las mismas en las predicciones puntuales de las tasas de crecimiento anual y en el componente Tendencia-ciclo estimado.

Se crea una base de datos que contiene un conjunto de 8 vintages consecutivas que cubren el período 2014 – 2015 y se realiza una breve caracterización de las revisiones en el dominio del tiempo y de las frecuencias. Se estiman modelos univariados estacionales autorregresivos, integrados y de medias móviles (SARIMA) para cada vintage así como el componente tendencial y se analizan los efectos de las revisiones en las proyecciones puntuales de crecimiento anual y de la tendencia en cada vintage .

Palabras claves: Error de predicción, data vintages, PIB Uruguay, revisión en los datos

Documentos de Trabajo 2015

DT_15_01 “ Como reconstruir el INSE en una encuesta sanitaria poblacional”.

- Ramón Álvarez Vaz , Andrés Castrillejo
- Febrero 2015

Descargar

En las encuestas sanitarias de base poblacional es importante poder estratificar las variables a estudiar de acuerdo a características socioeconómicas y demográficas. El nivel socioeconómico no es una variable observada, sino una construcción a partir de una metodología validada para Uruguay, conocida como INSE y considerada de referencia a nivel nacional en todo tipo de estudios poblacionales fundamentalmente en las disciplinas sociales.

En el año 2009 en Uruguay se llevó a cabo la Encuesta Nacional de Tabaquismo en Adultos (ENTA) por parte del Programa de Tabaco del Ministerio de Salud Pública a través de una muestra de hogares con diseño complejo. En esta encuesta algunas de las variables utilizadas para la construcción del INSE no se relevaron, por lo cual se procura la construcción de un indicador para aproximarlo.

Se propone una construcción alternativa que permite asignar un INSE a los hogares a través de métodos de clustering; como alternativa se busca una solución planteándolo como un problema clásico de clasificación a partir de datos de las Encuestas de Hogares (ECH) del INE.

Por otra parte se intenta otra solución a través del uso de medidas de disimilaridad aplicadas sobre variables binarias, algunas de las cuales tienen en cuenta la asimetría de la distribución.

Se presentan los resultados comparando entre sí las diferentes aproximaciones.

Palabras claves: Clustering, Encuestas sanitarias, Indice de nivel socioeconómico, Medidas de disimilaridad.

DT_15_02 “Una aplicación de los gráficos triangulares a los componentes del gasto en turismo de cruceros ”.

- Ramón Álvarez Vaz, Silvia Altmark, Florencia Santiñaque
- Agosto 2015
- En proceso de edición

El turismo de cruceros es una de las actividades turísticas que más ha crecido en el mundo. Para Uruguay esta situación no es ajena, la cual ha determinado un importante aporte de divisas al país cada temporada (abril a octubre de cada año). Según el Ministerio de Turismo y Deporte, hay una permanente incremento en cada temporada desde 2006-2007 donde se registraron 130 arribos de cruceros, hasta la temporada 2011-2012 donde la cifra aumentó a 225 cruceros arribados.

En este sentido, es necesario poder contar con herramientas que permitan caracterizar las variables económicas involucradas en dicha actividad, en particular el gasto originado por este tipo de turistas.

El gasto de turistas cruceristas puede descomponerse en varios rubros. En este trabajo se propone convertir los componentes del gasto en proporciones, y caracterizar las mismas mediante herramientas gráficas, como son los gráficos ternarios o triangulares.

Los gráficos triangulares son un tipo de gráfico baricéntrico que permiten trabajar a la vez con 3 variables que tienen la característica de tener una suma constante por observación; son un caso particular (para 3 variables) de lo que se denomina datos composicionales.

Se utilizan los datos correspondientes a las temporadas de cruceros 2010-2011 y 2011-2012, cuya fuente es el Ministerio de Turismo y Deporte. Los mismos surgen de una muestra de pasajeros a través de una encuesta cara a cara con diseño muestral complejo.

DT_15_03 “ Cálculo de obligaciones por beneficios a los empleados de un organismo público”.

- Ramón Álvarez Vaz, Fernando Massa,Florencia Santiñaque
- Octubre 2015

En el marco del convenio entre un organismo público y el Instituto de Estadística (IESTA), se realiza el trabajo relacionado al cálculo de contingencias por beneficios a los empleados de dicha organización y afiliados a la Caja Colectiva (CC) de la misma.

Se calcula por un lado, el monto total en UR (unidades reajustables) que el organismo debe constituir al 31/12/2014 para hacer frente a las obligaciones futuras contraídas con sus empleados y afiliados, por beneficios relacionados a: antigüedad laboral, antigüedad de aporte a la CC (Caja Colectiva) , jubilación, prima por fallecimiento de empleados y sus familiares y prima por fallecimiento de jubilados.

Por otro lado se realiza un cálculo de los ingresos a percibir en relación a los aportes mensuales de los afiliados a la CC así como los ingresos relacionados con descuentos por llegadas tarde o inasistencias, aplicados a los empleados de dicho organismo.

Para determinar los montos correspondientes a los pasivos y activos mencionados anteriormente, se procede al cálculo de sus valores presentes actuariales al 31/12/2014, tomando como base la aletoriedad a causa de la superviviencia de cada individuo. Las bases técnicas utilizadas son las que figuran en normativa del Banco Central del Uruguay para el Seguro Previsional.

Se complementarán los cálculos de los valores esperados de los beneficios e ingresos futuros, con el estudio y construcción de la distribución empírica del valor presente para cada caso, mediante simulación Monte Carlo.