]
---
# Sobrevivientes & Sexo
.pull-left[
.small[
![](10_logit2_files/figure-html/unnamed-chunk-5-1.png)<!-- -->
]
]
.pull-right[
![](10_logit2_files/figure-html/unnamed-chunk-6-1.png)<!-- -->
]
---
## Sobrevivencia / sexo
.center[
![:scale 55%](mosaic.png)
]
---
## Limitaciones modelo de regresión lineal para dependientes dicotómicas (= modelo de probabilidad lineal)
.pull-left[
![](10_logit2_files/figure-html/unnamed-chunk-8-1.png)<!-- -->
]
.pull-right[
![](10_logit2_files/figure-html/unnamed-chunk-10-1.png)<!-- -->
]
---
class: roja, right
## La regresión logística ofrece una solución a los problemas del rango de predicciones y de ajuste a los datos del modelo de probabilidad lineal
--
## Se logra mediante:
### (a) expresión de coeficientes como odds-ratio
### (b) _transformación_ de lo(s) coeficientes a *LOGIT*
---
## Curvando la recta ...
.pull-left[
![](10_logit2_files/figure-html/unnamed-chunk-11-1.png)<!-- -->
]
.pull-right[
![](10_logit2_files/figure-html/unnamed-chunk-13-1.png)<!-- -->
]
---
# Odds
- **odds** (chances): probabilidad de que algo ocurra dividido por la probabilidad de que no ocurra
`$$Odds=\frac{p}{1-p}$$`
--
.medium[
Ej. Titanic:
- 427 sobrevivientes (41%), 619 muertos (59%)
`$$Odds_{sobrevivir}=427/619=0.41/0.59=0.69$$`
**Es decir, las chances de sobrevivir son de 0.69**]
---
## Odds ratio (OR)
.pull-left[
- los odds-ratio (o razón de chances) permiten reflejar la asociación entre las chances de dos variables dicotómicas
**¿Tienen las mujeres más chances de sobrevivir que los hombres?**
]
--
.pull-right[
.medium[
<table style="border-collapse:collapse; border:none;">
<tr>
<th style="border-top:double; text-align:center; font-style:italic; font-weight:normal; border-bottom:1px solid;" rowspan="2">survived</th>
<th style="border-top:double; text-align:center; font-style:italic; font-weight:normal;" colspan="2">sex</th>
<th style="border-top:double; text-align:center; font-style:italic; font-weight:normal; font-weight:bolder; font-style:italic; border-bottom:1px solid; " rowspan="2">Total</th>
</tr>
<tr>
<td style="border-bottom:1px solid; text-align:center; padding:0.2cm;">Hombre</td>
<td style="border-bottom:1px solid; text-align:center; padding:0.2cm;">Mujer</td>
</tr>
<tr>
<td style="padding:0.2cm; text-align:left; vertical-align:middle;">No sobrevive</td>
<td style="padding:0.2cm; text-align:center; "><span style="color:black;">523</span><br><span style="color:#339933;">79.5 %</span></td>
<td style="padding:0.2cm; text-align:center; "><span style="color:black;">96</span><br><span style="color:#339933;">24.7 %</span></td>
<td style="padding:0.2cm; text-align:center; "><span style="color:black;">619</span><br><span style="color:#339933;">59.2 %</span></td>
</tr>
<tr>
<td style="padding:0.2cm; text-align:left; vertical-align:middle;">Sobrevive</td>
<td style="padding:0.2cm; text-align:center; "><span style="color:black;">135</span><br><span style="color:#339933;">20.5 %</span></td>
<td style="padding:0.2cm; text-align:center; "><span style="color:black;">292</span><br><span style="color:#339933;">75.3 %</span></td>
<td style="padding:0.2cm; text-align:center; "><span style="color:black;">427</span><br><span style="color:#339933;">40.8 %</span></td>
</tr>
<tr>
<td style="padding:0.2cm; border-bottom:double; font-weight:bolder; font-style:italic; text-align:left; vertical-align:middle;">Total</td>
<td style="padding:0.2cm; text-align:center; border-bottom:double;"><span style="color:black;">658</span><br><span style="color:#339933;">100 %</span></td>
<td style="padding:0.2cm; text-align:center; border-bottom:double;"><span style="color:black;">388</span><br><span style="color:#339933;">100 %</span></td>
<td style="padding:0.2cm; text-align:center; border-bottom:double;"><span style="color:black;">1046</span><br><span style="color:#339933;">100 %</span></td>
</tr>
</table>
]
]
---
# Odds Ratio
**¿Cuantas más chances de sobrevivir tienen las mujeres respecto de los hombres?**
- OR supervivencia mujeres / OR supervivencia hombres
.medium[
`$$OR=\frac{p_{m}/(1-p_{m})}{p_{h}/(1-p_{h})}=\frac{0.753/(1-0.753)}{0.205/(1-0.205)}=\frac{3.032}{0.257}=11.78$$`
]
--
### Las chances de sobrevivir de las mujeres son **11.78** veces más que las de los hombres.
---
class: roja bottom right
# Regresión logística 2:
## Estimación y ajuste
---
# Regresión logística y odds
.pull-left[
![](10_logit2_files/figure-html/unnamed-chunk-15-1.png)<!-- -->
]
.pull-right[
Una de las transformaciones que permite realizar una estimación de regresión con variables dependientes dicotómicas es el **logit**, que es logaritmo de los odds.
]
---
# Logit
`$$Logit=ln(Odd)=ln(\frac{p}{1-p})$$`
---
## Comparación logit y odds según distintas probabilidades
.center[![:scale 40%](../images/p_odds_logodds.png)]
---
# Estimación en R: `glm`
```
modelo <- glm(dependiente ~ indep 1 + indep2 + ...,
data=datos,
family="binomial")
```
- `glm` (general lineal model) es la función para variables dependientes categóricas
- `family="binomial"` indica que la dependiente es dicotómica
---
# Ejemplo Titanic
.pull-left[
```r
modelo_titanic <-
glm(survived ~ sex,
data = tt,
family = "binomial")
```
]
.pull-right[.small[
<table cellspacing="0" align="center" style="border: none;">
<caption align="bottom" style="margin-top:0.3em;"> </caption>
<tr>
<th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b></b></th>
<th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Logit</b></th>
<th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>OR</b></th>
</tr>
<tr>
<td style="padding-right: 12px; border: none;">Intercepto</td>
<td style="padding-right: 12px; border: none;">-1.354<sup style="vertical-align: 0px;">***</sup></td>
<td style="padding-right: 12px; border: none;">0.258<sup style="vertical-align: 0px;">***</sup></td>
</tr>
<tr>
<td style="padding-right: 12px; border: none;"></td>
<td style="padding-right: 12px; border: none;">(0.097)</td>
<td style="padding-right: 12px; border: none;"></td>
</tr>
<tr>
<td style="padding-right: 12px; border: none;">Mujer (Ref=Hombre)</td>
<td style="padding-right: 12px; border: none;">2.467<sup style="vertical-align: 0px;">***</sup></td>
<td style="padding-right: 12px; border: none;">11.784<sup style="vertical-align: 0px;">***</sup></td>
</tr>
<tr>
<td style="padding-right: 12px; border: none;"></td>
<td style="padding-right: 12px; border: none;">(0.152)</td>
<td style="padding-right: 12px; border: none;"></td>
</tr>
<tr>
<td style="border-top: 1px solid black;">AIC</td>
<td style="border-top: 1px solid black;">1106.008</td>
<td style="border-top: 1px solid black;">1106.008</td>
</tr>
<tr>
<td style="padding-right: 12px; border: none;">BIC</td>
<td style="padding-right: 12px; border: none;">1115.914</td>
<td style="padding-right: 12px; border: none;">1115.914</td>
</tr>
<tr>
<td style="padding-right: 12px; border: none;">Log Likelihood</td>
<td style="padding-right: 12px; border: none;">-551.004</td>
<td style="padding-right: 12px; border: none;">-551.004</td>
</tr>
<tr>
<td style="padding-right: 12px; border: none;">Deviance</td>
<td style="padding-right: 12px; border: none;">1102.008</td>
<td style="padding-right: 12px; border: none;">1102.008</td>
</tr>
<tr>
<td style="border-bottom: 2px solid black;">Num. obs.</td>
<td style="border-bottom: 2px solid black;">1046</td>
<td style="border-bottom: 2px solid black;">1046</td>
</tr>
<tr>
<td style="padding-right: 12px; border: none;" colspan="4"><span style="font-size:0.8em"><sup style="vertical-align: 0px;">***</sup>p < 0.001, <sup style="vertical-align: 0px;">**</sup>p < 0.01, <sup style="vertical-align: 0px;">*</sup>p < 0.05</span></td>
</tr>
</table>
]
]
---
## Interpretación de asociaciones y contraste de hipótesis
### - Coeficiente logit asociado a sexo (mujer) = +2.467 :
- El log-odds de sobrevivencia aumenta para las mujeres en 2.467 en comparación con los hombres.
--
### Contraste de hipótesis
- La diferencia de las probabilidades de sobrevivir entre hombres y mujeres son estadísticamente significativas, por lo que se rechaza la hipótesis nula (de ausencia de diferencias entre hombres y mujeres) con un nivel de probabilidad `\(p<0.001\)`.
---
## Interpretación de coeficientes logit
- Sustantivamente no nos dice mucho, ya que el logit es una transformación de la escala original.
- Por lo tanto, para poder interpretar el sentido del coeficiente se requiere volver a la métrica de odds mediante una transformación inversa o **exponenciación**
---
## De logits a odds
.pull-left[
`$$logit_x=log(Odds)$$`
`$$e^{logit}=Odds_X$$`
`$$e^{2.467}=11.78$$`
]
.pull-right[
```r
exp(2.467)
```
```
## [1] 11.78703
```
### Las chances (odds) de sobrevivir siendo mujer son **11.78** veces más que las de un hombre.
]
---
## De logits a odds
`$$Odds_X=e^{\beta_0 + \beta_jX_j}$$`
<br>
--
- Predicción para **mujeres**= -1.354 + (2.467 * Sexo=1) = 1.113
- Predicción para **hombres**= -1.354 + (2.467 * Sexo=0) = -1.354
--
<br>
`$$Odds_{mujer}=e^{1.113}=3.032$$`
`$$Odds_{hombre}=e^{-1.354}=0.257$$`
---
## Transformación a probabilidades predichas
`$$p_{mujeres}=\frac{e^{1.113}}{1+e^{1.113}}=\frac{3.04}{4.04}=0.752$$`
`$$p_{hombres}=\frac{e^{-1.354}}{1+e^{-1.354}}=\frac{0.258}{1.258}=0.205$$`
---
# Regresión logística multiple
.pull-left[
```r
modelo_titanic2 <-
glm(survived_n2 ~ sex + age,
data = tt,
family = "binomial")
```
]
.pull-right[.small[
<table cellspacing="0" align="center" style="border: none;">
<caption align="bottom" style="margin-top:0.3em;"> </caption>
<tr>
<th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b></b></th>
<th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>Logit</b></th>
<th style="text-align: left; border-top: 2px solid black; border-bottom: 1px solid black; padding-right: 12px;"><b>OR</b></th>
</tr>
<tr>
<td style="padding-right: 12px; border: none;">Intercepto</td>
<td style="padding-right: 12px; border: none;">3.49<sup style="vertical-align: 0px;">***</sup></td>
<td style="padding-right: 12px; border: none;">32.65<sup style="vertical-align: 0px;">***</sup></td>
</tr>
<tr>
<td style="padding-right: 12px; border: none;"></td>
<td style="padding-right: 12px; border: none;">(0.29)</td>
<td style="padding-right: 12px; border: none;"></td>
</tr>
<tr>
<td style="padding-right: 12px; border: none;">Mujer (Ref=Hombre)</td>
<td style="padding-right: 12px; border: none;">2.40<sup style="vertical-align: 0px;">***</sup></td>
<td style="padding-right: 12px; border: none;">10.99<sup style="vertical-align: 0px;">***</sup></td>
</tr>
<tr>
<td style="padding-right: 12px; border: none;"></td>
<td style="padding-right: 12px; border: none;">(0.20)</td>
<td style="padding-right: 12px; border: none;"></td>
</tr>
<tr>
<td style="padding-right: 12px; border: none;">Edad</td>
<td style="padding-right: 12px; border: none;">-0.17<sup style="vertical-align: 0px;">***</sup></td>
<td style="padding-right: 12px; border: none;">0.85<sup style="vertical-align: 0px;">***</sup></td>
</tr>
<tr>
<td style="padding-right: 12px; border: none;"></td>
<td style="padding-right: 12px; border: none;">(0.01)</td>
<td style="padding-right: 12px; border: none;"></td>
</tr>
<tr>
<td style="border-top: 1px solid black;">AIC</td>
<td style="border-top: 1px solid black;">827.52</td>
<td style="border-top: 1px solid black;">827.52</td>
</tr>
<tr>
<td style="padding-right: 12px; border: none;">BIC</td>
<td style="padding-right: 12px; border: none;">842.38</td>
<td style="padding-right: 12px; border: none;">842.38</td>
</tr>
<tr>
<td style="padding-right: 12px; border: none;">Log Likelihood</td>
<td style="padding-right: 12px; border: none;">-410.76</td>
<td style="padding-right: 12px; border: none;">-410.76</td>
</tr>
<tr>
<td style="padding-right: 12px; border: none;">Deviance</td>
<td style="padding-right: 12px; border: none;">821.52</td>
<td style="padding-right: 12px; border: none;">821.52</td>
</tr>
<tr>
<td style="border-bottom: 2px solid black;">Num. obs.</td>
<td style="border-bottom: 2px solid black;">1046</td>
<td style="border-bottom: 2px solid black;">1046</td>
</tr>
<tr>
<td style="padding-right: 12px; border: none;" colspan="4"><span style="font-size:0.8em"><sup style="vertical-align: 0px;">***</sup>p < 0.001, <sup style="vertical-align: 0px;">**</sup>p < 0.01, <sup style="vertical-align: 0px;">*</sup>p < 0.05</span></td>
</tr>
</table>
]
]
---
class: inverse, middle, center
# Ajuste
---
## Ajuste: ¿Qué tan bueno es nuestro modelo?
- El ajuste de los modelos logísticos se evalúa en general en términos comparativos con otros modelos con más/menos predictores
- Estas medidas de comparación se basan en la log verosimilitud (log-likelihood) del modelo, que es una magnitud que se obtiene dado el procedimiento de estimación en regresión logística.
---
## Ajuste: ¿Qué tan bueno es nuestro modelo?
- Entre las medidas de ajuste usualmente se consideran:
- Devianza (deviance)
- Test de razón de verosimilitud (likelihood ratio test)
- R2s
- Criterio de información de Akaike
---
## Devianza
.medium[
- Devianza =-2*log likelihood: Se utiliza como una medida de los residuos generados por el modelo, comparando con el modelo nulo (sin predictores). En general si disminuye, el modelo es mejor
```r
modelo_titanic$null.deviance # devianza modelo sin predictores
```
```
## [1] 1414.62
```
```r
modelo_titanic$deviance # devianza modelo con predictores
```
```
## [1] 1102.008
```
]
---
## Test de devianza
Compara las verosimilitudes del modelo con otro con menos predictores
.small[
```
## Analysis of Deviance Table
##
## Model 1: survived ~ sex
## Model 2: survived ~ 1
## Resid. Df Resid. Dev Df Deviance Pr(>Chi)
## 1 1044 1102.0
## 2 1045 1414.6 -1 -312.61 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
```
La diferencia entre los modelos es estadísticamente significativa con una probabilidad `\(p<0.001\)`. Por lo tanto el modelo con predictores (sexo) ofrece un mejor ajuste a los datos que un modelo sin predictores.
]
---
# McFadden (pseudo) R2
Se define como: `\(1−[LL(LM)/LL(L0)]\)`, donde
.small[
- LL es el log likelihood del modelo
- LM es el modelo posterior (con predictores)
- L0 es el modelo nulo
```r
logLik(modelo_titanic); logLik(null_titanic)
```
```
## 'log Lik.' -551.0042 (df=2)
```
```
## 'log Lik.' -707.3102 (df=1)
```
```r
1-(-551/-707)
```
```
## [1] 0.2206506
```
]
---
# McFadden (pseudo) R2
También se puede obtener con la función `PseudoR2` de la librería `DescTools`, junto a otras versiones de pseudo R2s, como "Nagelkerke", "CoxSnell" y "Effron".
---
## Akaike (AIC)
.medium[
**AIC - Akaike information criteria**, evalua la calidad del modelo a través de la comparación con otros modelos penalizando por la inclusión de predictores (análogo al R2 ajustado):
`$$AIC=-2(log-likelihood)+2K$$`
Donde K= número de parámetros del modelo (regresores + intercepto)
]
---
## Akaike (AIC)
```r
logLik(modelo_titanic)
```
```
## 'log Lik.' -551.0042 (df=2)
```
```r
2*551
```
```
## [1] 1102
```
`$$AIC=-2(-551)+2(2)=1102+4=1106$$`
---
# Resumen Ajuste
- diferentes aproximaciones
- utilizar más de una forma
- en general: devianza y algún tipo de R2
---
class: inverse, left
## RESUMEN
- Limitaciones de regresión tradicional (OLS) para variables dependientes dicotómicas
- Logit permite implementar regresión (coeficientes e inferencia) con dependientes dicotómicas
- En regresión logística la interpretación sustantiva se realiza mediante la exponenciación de los odds
- Ajuste: medidas comparativas basadas en la log-verosimilitud de los modelos
???
Remember, though, just like in logistic regression, the difference in the probability isn’t equal for each 1-unit change in the predictor. The sigmoidal relationship between a predictor and probability is nearly identical in probit and logistic regression. A 1-unit difference in X will have a bigger impact on probability in the middle than near 0 or 1.
---
class: roja right middle
### Próxima semana
## Revisión de supuestos del modelo de regresión
---
class: front
.pull-left[
# Estadística Multivariada
## Juan Carlos Castillo
## Sociología FACSO - UChile
## 1er Sem 2020
## [multivariada.netlify.com](https://multivariada.netlify.com)
]
.pull-right[
.right[
<br>
![:scale 80%](https://multivariada.netlify.com/img/hex_multiva.png)
]
]