]
---
# Sobrevivientes
.pull-left[
.small[
```r
plot1 <-ggplot(tt,
aes(survived, fill=survived)) +
geom_bar() +
geom_text(
aes(label = scales::percent((..count..)/sum(..count..))),
stat='count',size=10, vjust = 3) +
theme(legend.position="none",
text = element_text(size = 30),
axis.title=element_blank())
```
]
]
.pull-right[
![](8_logit1_files/figure-html/unnamed-chunk-5-1.png)<!-- -->
]
---
# Sexo
.center[
![](8_logit1_files/figure-html/unnamed-chunk-6-1.png)<!-- -->
]
---
## Sobrevivencia / sexo
.pull-left[
![:scale 95%](mosaic.png)
]
.pull-right[
.medium[
```
##
## Hombre Mujer
## No sobrevive 0.79 0.25
## Sobrevive 0.21 0.75
```
El 75% de las mujeres sobrevive, mientras el 25% no sobrevive.
]
]
---
class: inverse, middle, center
## ¿En qué medida la probabilidad de sobrevivir depende del sexo?
## ¿Es esta probabilidad estadísticamente significativa?
---
# Alternativas:
- tabla de contingencia, `\(\chi^2\)`
- análisis de tendencia general, significación estadística
- pero ... poco parsimoniosa, y no hay control estadístico
- ¿Aprovechar las ventajas del modelo de regresión?
- expresar la relación en un número ( `\(\beta\)` )
- inferencia
- control estadístico
---
# Regresión
### Modelando la probabilidad de sobrevivir con regresión OLS
.small[
```r
reg_tit=lm(survived ~ sex, data= tt)
```
```
## Warning in model.response(mf, "numeric"): using type = "numeric" with a factor
## response will be ignored
```
```
## Warning in Ops.factor(y, z$residuals): '-' not meaningful for factors
```
]
-> Advertencia de R
---
## Modelo de probabilidad lineal
.pull-left[
.small[
Se da este nombre a los modelos de regresión donde una variable dependiente dicotómica se estima de manera tradicional (mínimos cuadrados ordinarios)
```r
str(tt$survived)
```
```
## Factor w/ 2 levels "No sobrevive",..: 2 2 1 1 1 2 2 1 2 1 ...
```
```r
tt <- tt %>% mutate(survived_n=recode(survived,
"No sobrevive"=0, "Sobrevive"=1))
str(tt$survived_n)
```
```
## num [1:1046] 1 1 0 0 0 1 1 0 1 0 ...
```
]
]
.pull-right[
.small[
```r
reg_tit=lm(survived_n ~ sex, data=tt)
```
<table style="border-collapse:collapse; border:none;">
<tr>
<th style="border-top: double; text-align:center; font-style:normal; font-weight:bold; padding:0.2cm; text-align:left; "> </th>
<th colspan="2" style="border-top: double; text-align:center; font-style:normal; font-weight:bold; padding:0.2cm; ">Modelo 1</th>
</tr>
<tr>
<td style=" text-align:center; border-bottom:1px solid; font-style:italic; font-weight:normal; text-align:left; ">Predictores</td>
<td style=" text-align:center; border-bottom:1px solid; font-style:italic; font-weight:normal; ">β</td>
<td style=" text-align:center; border-bottom:1px solid; font-style:italic; font-weight:normal; ">std. Error</td>
</tr>
<tr>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:left; ">(Intercept)</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; ">0.205 <sup>***</sup></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; ">0.016</td>
</tr>
<tr>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:left; ">sex [Mujer]</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; ">0.547 <sup>***</sup></td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:center; ">0.027</td>
</tr>
<tr>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:left; padding-top:0.1cm; padding-bottom:0.1cm; border-top:1px solid;">Observations</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; padding-top:0.1cm; padding-bottom:0.1cm; text-align:left; border-top:1px solid;" colspan="2">1046</td>
</tr>
<tr>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; text-align:left; padding-top:0.1cm; padding-bottom:0.1cm;">R<sup>2</sup> / R<sup>2</sup> adjusted</td>
<td style=" padding:0.2cm; text-align:left; vertical-align:top; padding-top:0.1cm; padding-bottom:0.1cm; text-align:left;" colspan="2">0.289 / 0.289</td>
</tr>
<tr>
<td colspan="3" style="font-style:italic; border-top:double black; text-align:right;">* p<0.05 ** p<0.01 *** p<0.001</td>
</tr>
</table>
]
]
---
## Significado coeficientes modelo probabilidad lineal
.pull-left[
**Promedio de supervivencia por sexo**
<!-- html table generated in R 4.0.2 by xtable 1.8-4 package -->
<!-- Fri Jun 4 10:08:36 2021 -->
<table border=1>
<tr> <th> </th> <th> Mean </th> <th> N </th> <th> Std. Dev. </th> </tr>
<tr> <td> Hombre </td> <td align="right"> 0.21 </td> <td align="right"> 658 </td> <td align="right"> 0.40 </td> </tr>
<tr> <td> Mujer </td> <td align="right"> 0.75 </td> <td align="right"> 388 </td> <td align="right"> 0.43 </td> </tr>
<tr> <td> Total </td> <td align="right"> 0.41 </td> <td align="right"> 1046 </td> <td align="right"> 0.49 </td> </tr>
</table>
]
.pull-right[
- El valor del intercepto=0.205 (0.21 aproximado) es el valor predicho para la categoría de referencia "hombre".
- El `\(\beta\)` de sexo (mujer) =0.547 sumado al intercepto equivale al porcentaje de supervivencia de mujeres]
---
class: roja, middle
# funciona ... .yellow[PERO]
---
## Limitaciones modelo de regresión lineal para dependientes dicotómicas
.center[
![](8_logit1_files/figure-html/unnamed-chunk-14-1.png)<!-- -->
]
---
## Problemas ....
.center[
![](8_logit1_files/figure-html/unnamed-chunk-15-1.png)<!-- -->
]
---
# Problemas ...
.pull-left[
Si hubieran sobrevivido todos los menores de 20 y muerto todos los mayores de 40 ...
]
.pull-right[
![](8_logit1_files/figure-html/unnamed-chunk-17-1.png)<!-- -->
]
---
class: inverse
## Problemas regresión tradicional (OLS) para dependientes dicotómicas
- ### Eventuales predicciones fuera del rango de probabilidades posibles
- ### Ajuste a los datos / residuos: ¿Es la mejor aproximación una recta?
---
class: roja, right
## La regresión .yellow[logística] ofrece una solución a los problemas del rango de predicciones y de ajuste a los datos del modelo de probabilidad lineal
--
## Se logra mediante una _transformación_ de lo(s) beta(s) a .yellow[coeficientes *LOGIT*]
]
---
class: middle center
![:scale 90%](bending.png)
---
## OLS vs Logit
.pull-left[
![](8_logit1_files/figure-html/unnamed-chunk-18-1.png)<!-- -->
]
.pull-right[
![](8_logit1_files/figure-html/unnamed-chunk-20-1.png)<!-- -->
]
---
# ¿Qué es el logit?
--
## Es el logaritmo de los odds
--
# ... qué son los odds?
--
## Una razón de *probabilidades*
--
## Para llegar hasta regresión logística, hay que pasar por los odds (chances), y los odds-ratio (proporción de chances)
---
# Odds
- **odds** (chances): probabilidad de que algo ocurra dividido por la probabilidad de que no ocurra
`$$Odds=\frac{p}{1-p}$$`
--
.medium[
Ej. Titanic:
- 427 sobrevivientes (41%), 619 muertos (59%)
`$$Odds_{sobrevivir}=427/619=0.41/0.59=0.69$$`
**Es decir, las chances de sobrevivir son de 0.69**]
---
# Odds
- Odds de 1 significan chances iguales, menores a 1 son negativas y mayores a 1 son positivas
- _Propiedad simétrica_:
- un `\(Odd=4\)` es una asociación positiva proporcional a la asociación negativa `\(Odd=1/4=0.25\)`
---
.pull-left[
## Odds de superviviencia para los hombres
.medium[
```
##
## Hombre Mujer
## No sobrevive 523 96
## Sobrevive 135 292
```
]
.medium[
```
##
## Hombre Mujer
## No sobrevive 0.79 0.25
## Sobrevive 0.21 0.75
```
El 21% de los hombres sobrevive mientras el 79% no sobrevive.
]
]
--
.pull-right[
.medium[
`$$Odds_{hombres}=\frac{0.21}{0.79}=0.27$$`
*La probabilidad de sobrevivencia en los hombres es 0.27 veces a la no sobrevivencia*
... o en otros términos
*Hay 0.27 hombres que sobreviven por cada uno que no sobrevive*
*Hay 27 hombres que sobreviven por cada 100 hombres que no sobreviven*
]
]
---
## Odds de superviviencia para las mujeres
.pull-left[
.medium[
```
##
## Hombre Mujer
## No sobrevive 0.79 0.25
## Sobrevive 0.21 0.75
```
El 75% de las mujeres sobrevive, mientras el 25% no sobrevive.
]
]
--
.pull-right[
.medium[
`$$Odds_{mujeres}=\frac{0.75}{0.25}=3$$`
*La probabilidad de sobrevivencia en las mujeres es 3 veces a la no sobrevivencia*
*Hay 3 mujeres que sobreviven por cada mujer que no sobrevive*
o en otros términos
*Hay 300 mujeres que sobreviven al titanic por cada 100 mujeres que no sobreviven*
]
]
---
## Odds ratio (OR)
.pull-left[
- los odds-ratio (o razón de chances) permiten reflejar la asociación entre las chances de dos variables dicotómicas
**¿Tienen las mujeres más chances de sobrevivir que los hombres?**
]
--
.pull-right[
.medium[
<table style="border-collapse:collapse; border:none;">
<tr>
<th style="border-top:double; text-align:center; font-style:italic; font-weight:normal; border-bottom:1px solid;" rowspan="2">survived</th>
<th style="border-top:double; text-align:center; font-style:italic; font-weight:normal;" colspan="2">sex</th>
<th style="border-top:double; text-align:center; font-style:italic; font-weight:normal; font-weight:bolder; font-style:italic; border-bottom:1px solid; " rowspan="2">Total</th>
</tr>
<tr>
<td style="border-bottom:1px solid; text-align:center; padding:0.2cm;">Hombre</td>
<td style="border-bottom:1px solid; text-align:center; padding:0.2cm;">Mujer</td>
</tr>
<tr>
<td style="padding:0.2cm; text-align:left; vertical-align:middle;">No sobrevive</td>
<td style="padding:0.2cm; text-align:center; "><span style="color:black;">523</span><br><span style="color:#339933;">79.5 %</span></td>
<td style="padding:0.2cm; text-align:center; "><span style="color:black;">96</span><br><span style="color:#339933;">24.7 %</span></td>
<td style="padding:0.2cm; text-align:center; "><span style="color:black;">619</span><br><span style="color:#339933;">59.2 %</span></td>
</tr>
<tr>
<td style="padding:0.2cm; text-align:left; vertical-align:middle;">Sobrevive</td>
<td style="padding:0.2cm; text-align:center; "><span style="color:black;">135</span><br><span style="color:#339933;">20.5 %</span></td>
<td style="padding:0.2cm; text-align:center; "><span style="color:black;">292</span><br><span style="color:#339933;">75.3 %</span></td>
<td style="padding:0.2cm; text-align:center; "><span style="color:black;">427</span><br><span style="color:#339933;">40.8 %</span></td>
</tr>
<tr>
<td style="padding:0.2cm; border-bottom:double; font-weight:bolder; font-style:italic; text-align:left; vertical-align:middle;">Total</td>
<td style="padding:0.2cm; text-align:center; border-bottom:double;"><span style="color:black;">658</span><br><span style="color:#339933;">100 %</span></td>
<td style="padding:0.2cm; text-align:center; border-bottom:double;"><span style="color:black;">388</span><br><span style="color:#339933;">100 %</span></td>
<td style="padding:0.2cm; text-align:center; border-bottom:double;"><span style="color:black;">1046</span><br><span style="color:#339933;">100 %</span></td>
</tr>
</table>
]
]
---
# Odds Ratio
**¿Cuantas más chances de sobrevivir tienen las mujeres respecto de los hombres?**
- OR supervivencia mujeres / OR supervivencia hombres
.medium[
`$$OR=\frac{p_{m}/(1-p_{m})}{p_{h}/(1-p_{h})}=\frac{0.753/(1-0.753)}{0.205/(1-0.205)}=\frac{3.032}{0.257}=11.78$$`
]
--
### Las chances de sobrevivir de las mujeres son **11.78** veces más que las de los hombres.
---
class: inverse, middle, center
## El Odds-Ratio (OR) nos permite expresar **en un número** la relación entre dos variables categóricas
## Por lo tanto, es una versión del `\(\beta\)` para dependientes categóricas
---
class: inverse, middle, center
## Pero ... el **OR** tiene algunas limitaciones que requieren una transformación adicional, tema de la .yellow[próxima clase]
---
class: inverse
## Resumen
- limitaciones de OLS para dependientes dicotómicas
- requiere de ajustes y transformaciones para que la estimación tenga sentido
- regresión logística: ajusta el modelo para dependientes dicotómicas
- pasa por el cálculo de los odds-ratio, que resumen en 1 número la relación entre dos variables categóricas
---
# Próxima semana
- logit
- estimación e interpretación regresión logística
- ajuste regresión logística
---
class: front
.pull-left[
# Estadística Multivariada
## Juan Carlos Castillo
## Sociología FACSO - UChile
## 1er Sem 2021
## [multivariada.netlify.com](https://multivariada.netlify.com)
]
.pull-right[
.right[
<br>
![:scale 80%](https://multivariada.netlify.com/img/hex_multiva.png)
]
]