📋 RESUM: Correlació i regressió
• **Covariància**: σ_XY = Σ(xᵢ-x̄)(yᵢ-ȳ)/n = x̄ȳ - x̄·ȳ. Mesura variació conjunta, amb unitats.
• **Coeficient de Pearson**: r = σ_XY/(σ_X·σ_Y), adimensional, -1 ≤ r ≤ 1.
• **Interpretació**: r=±1 correlació perfecta, r=0 sense relació lineal, |r|>0.7 forta.
• **Coeficient de determinació**: R² = r², proporció de variabilitat explicada.
• **Mínims quadrats**: Minimitzar Σeᵢ² per trobar la millor recta y = a + bx.
• **Pendent**: b = Cov(X,Y)/Var(X), passa pel centroide (x̄, ȳ).
• **Dues rectes**: Y sobre X i X sobre Y, només coincideixen si |r|=1.
• **Spearman**: Per dades ordinals, usa rangs: ρ = 1 - 6Σdᵢ²/n(n²-1).
• **Correlació ≠ causalitat**: Variables confusores, direccionalitat, atzar.
• **Regressió no lineal**: Transformacions (log, exp) per linealitzar models.
Desarrollo del tema
# CORRELACIÓ I REGRESSIÓ
## 1. Introducció
En moltes situacions pràctiques ens interessa estudiar la relació entre dues o més variables. La **correlació** mesura el grau d'associació lineal entre dues variables, mentre que la **regressió** permet modelar i predir una variable a partir de l'altra. Aquests conceptes són fonamentals en estadística aplicada i tenen aplicacions en economia, ciències socials, enginyeria i investigació científica.
## 2. Distribucions Bidimensionals
### 2.1 Taula de contingència
Quan estudiem dues variables $X$ i $Y$ observades en $n$ individus, obtenim $n$ parells $(x_i, y_i)$. Si les variables són discretes, podem organitzar les dades en una **taula de contingència** o taula de doble entrada.
Siguin $x_1, x_2, \ldots, x_k$ els valors de $X$ i $y_1, y_2, \ldots, y_m$ els valors de $Y$. La freqüència conjunta $n_{ij}$ indica quantes vegades s'observa simultàniament $X = x_i$ i $Y = y_j$.
Les **distribucions marginals** s'obtenen sumant per files o columnes:
- Marginal de $X$: $n_{i \cdot} = \sum_{j=1}^{m} n_{ij}$
- Marginal de $Y$: $n_{\cdot j} = \sum_{i=1}^{k} n_{ij}$
### 2.3 Núvol de punts
La representació gràfica de les $n$ parelles $(x_i, y_i)$ en el pla cartesià s'anomena **diagrama de dispersió** o núvol de punts. Permet visualitzar:
- Si existeix relació entre les variables
- Si la relació és lineal o no lineal
- El sentit (directa o inversa) i la intensitat de la relació
## 3. Covariància
### 3.1 Definició
La **covariància** mesura el grau de variació conjunta de dues variables respecte a les seves mitjanes:
- $\sigma_{XY} > 0$: Relació directa. Quan $X$ augmenta, $Y$ tendeix a augmentar.
- $\sigma_{XY} < 0$: Relació inversa. Quan $X$ augmenta, $Y$ tendeix a disminuir.
- $\sigma_{XY} = 0$: No hi ha relació lineal (pot haver-hi relació no lineal).
### 3.3 Limitacions de la covariància
La covariància depèn de les unitats de mesura de les variables. Per exemple, si $X$ mesura alçada en cm i $Y$ pes en kg, la covariància tindrà unitats cm·kg. Això dificulta la comparació entre diferents estudis.
## 4. Coeficient de Correlació Lineal de Pearson
### 4.1 Definició
Per superar la limitació de les unitats, es defineix el **coeficient de correlació lineal de Pearson**:
4. **Simetria:** $r_{XY} = r_{YX}$
5. **Invariància afí:** $r$ no canvia si fem transformacions lineals $X' = aX + b$, $Y' = cY + d$ (amb $a, c > 0$).
### 4.3 Coeficient de determinació
El **coeficient de determinació** és $R^2 = r^2$. Representa la proporció de variabilitat de $Y$ explicada per la relació lineal amb $X$.
Per exemple, si $r = 0.8$, llavors $R^2 = 0.64$, és a dir, el 64% de la variabilitat de $Y$ s'explica per la seva relació lineal amb $X$.
## 5. Regressió Lineal
### 5.1 El problema de la regressió
Donades $n$ parelles $(x_i, y_i)$, volem trobar una funció $y = f(x)$ que millor s'ajusti a les dades. En la **regressió lineal simple**, busquem una recta:
$$y = a + bx$$
on $a$ és l'ordenada a l'origen i $b$ el pendent.
### 5.2 Mètode de mínims quadrats
El criteri més utilitzat és minimitzar la **suma de quadrats dels errors** (residus):
$$S(a, b) = \sum_{i=1}^{n} (y_i - (a + bx_i))^2 = \sum_{i=1}^{n} e_i^2$$
Per trobar el mínim, derivem respecte a $a$ i $b$ i igualem a zero:
**Nota important:** Les dues rectes de regressió només coincideixen quan $|r| = 1$ (correlació perfecta). En general, són diferents i es tallen al centroide.
## 6. Relació entre Correlació i Regressió
Existeix una relació fonamental entre el coeficient de correlació i els pendents de les rectes de regressió:
$$r^2 = b_{Y/X} \cdot b_{X/Y}$$
On $b_{Y/X} = \frac{\sigma_{XY}}{\sigma_X^2}$ és el pendent de la regressió de $Y$ sobre $X$ i $b_{X/Y} = \frac{\sigma_{XY}}{\sigma_Y^2}$ és el pendent de la regressió de $X$ sobre $Y$.
A més:
$$r = \text{sgn}(b_{Y/X}) \cdot \sqrt{b_{Y/X} \cdot b_{X/Y}}$$
## 7. Altres Coeficients de Correlació
### 7.1 Coeficient de correlació de Spearman
Quan les dades són ordinals o no es compleixen les hipòtesis de normalitat, s'utilitza el **coeficient de Spearman** $\rho_s$, que és el coeficient de Pearson calculat sobre els rangs de les observacions:
on $d_i = R(x_i) - R(y_i)$ és la diferència de rangs.
### 7.2 Coeficient de correlació de Kendall
El **coeficient tau de Kendall** mesura la concordança entre rangs:
$$\tau = \frac{n_c - n_d}{\binom{n}{2}}$$
on $n_c$ és el nombre de parells concordants i $n_d$ el de discordants.
## 8. Regressió No Lineal
Quan la relació entre variables no és lineal, es poden fer transformacions per linealitzar:
| Model | Equació | Transformació |
|-------|---------|---------------|
| Exponencial | $y = ae^{bx}$ | $\ln y = \ln a + bx$ |
| Potencial | $y = ax^b$ | $\ln y = \ln a + b \ln x$ |
| Logarítmic | $y = a + b \ln x$ | $y = a + b \cdot z$ amb $z = \ln x$ |
| Hiperbòlic | $y = \frac{1}{a + bx}$ | $\frac{1}{y} = a + bx$ |
## 9. Correlació Espúria i Causalitat
### 9.1 Correlació no implica causalitat
Un error comú és interpretar la correlació com a prova de causalitat. Dues variables poden estar correlacionades per:
- **Causalitat directa:** $X$ causa $Y$
- **Causalitat inversa:** $Y$ causa $X$
- **Variable confusora:** Una tercera variable $Z$ causa tant $X$ com $Y$
- **Atzar:** En mostres petites, pot aparèixer correlació per casualitat
### 9.2 Exemples de correlació espúria
- Correlació entre consum de gelats i ofegaments (ambdues augmenten a l'estiu)
- Correlació entre nombre de bombers i danys en incendis (incendis grans requereixen més bombers)
## 10. Aplicacions Didàctiques
### 10.1 A l'ESO
- **Diagrames de dispersió:** Representar parells de dades (alçada-pes, hores d'estudi-nota)
- **Identificació visual:** Classificar núvols de punts segons tipus de correlació
- **Calculadores:** Utilitzar funcions estadístiques per obtenir $r$
### 10.2 Al Batxillerat
- **Càlcul complet:** Covariància, coeficient de correlació, rectes de regressió
- **Prediccions:** Utilitzar la recta de regressió per fer pronòstics
- **Anàlisi crític:** Discussió sobre correlació vs. causalitat
- **Fulls de càlcul:** Ajustos amb Excel, LibreCalc o GeoGebra
## 11. Conclusions
La correlació i la regressió són eines fonamentals per analitzar relacions entre variables quantitatives. El coeficient de correlació de Pearson mesura la força i direcció de l'associació lineal, mentre que les rectes de regressió permeten fer prediccions. És essencial recordar que correlació no implica causalitat i que cal interpretar sempre els resultats en el context del problema estudiat.
Estudia este tema con OPOSGRATIS
Has leído el desarrollo del tema. Para consolidar tu aprendizaje, estudia las flashcards asociadas con repetición espaciada (algoritmo SM-2), realiza simulacros de examen, y practica el supuesto práctico. Todo gratis y sin registro previo.