Desarrollo del tema

# INFERÈNCIA ESTADÍSTICA. ESTIMACIÓ

## 1. Introducció

La **inferència estadística** estudia com extreure conclusions sobre una població a partir d’una mostra. Els dos grans pilars són: - **Estimació:** aproximar paràmetres poblacionals (puntual i per intervals) - **Contrast d’hipòtesis:** decidir entre afirmacions sobre la població

En aquest tema ens centrarem en l’estimació: conceptes bàsics, propietats dels estimadors, mètodes de construcció i intervals de confiança.

## 2. Població, mostra i models

Considerem una població descrita per una família de distribucions $\{f(x;\theta):\theta\in\Theta\}$.

Prenem una mostra aleatòria simple: $$X_1,\ldots,X_n \overset{iid}{\sim} f(x;\theta)$$

L’objectiu és inferir el valor desconegut del paràmetre $\theta$ a partir de les dades.

## 3. Estimació puntual

### 3.1 Estimador i estimació

Un **estimador** $\hat\theta$ és una variable aleatòria (funció de la mostra) que pretén aproximar $\theta$. Un cop observada la mostra, el valor numèric s’anomena **estimació**.

Exemples: - Mitjana poblacional $\mu$: estimador $\bar X=\frac{1}{n}\sum X_i$ - Variància $\sigma^2$: estimadors $S^2$ (corregit) o $\frac{1}{n}\sum (X_i-\bar X)^2$ (no corregit)

### 3.2 Propietats d’un bon estimador

**Biaix (bias):** $$\mathrm{Bias}(\hat\theta)=\mathbb{E}[\hat\theta]-\theta$$

**Insesgat:** si $\mathbb{E}[\hat\theta]=\theta$.

**Consistència:** $\hat\theta\xrightarrow{p}\theta$ quan $n\to\infty$.

**Eficiència:** entre estimadors insesgats, és millor el que té menor variància.

**Error quadràtic mitjà (MSE):** $$\mathrm{MSE}(\hat\theta)=\mathbb{E}[(\hat\theta-\theta)^2]=\mathrm{Var}(\hat\theta)+\mathrm{Bias}(\hat\theta)^2$$

El MSE combina variància i biaix.

### 3.3 Suficiència

Un estadístic $T(X_1,\ldots,X_n)$ és **suficient** per $\theta$ si conté tota la informació sobre $\theta$ present a la mostra.

**Teorema de factorització de Fisher–Neyman:** $T$ és suficient si la versemblança es pot factoritzar: $$L(\theta;\mathbf{x}) = g(T(\mathbf{x}),\theta)\,h(\mathbf{x})$$

### 3.4 Límits inferiors (Cramér–Rao)

Si $\hat\theta$ és insesgat i es compleixen condicions regulars: $$\mathrm{Var}(\hat\theta) \ge \frac{1}{I_n(\theta)}$$

on $I_n(\theta)$ és la informació de Fisher de la mostra: $$I_n(\theta)=nI_1(\theta)=n\,\mathbb{E}\left[\left(\frac{\partial}{\partial\theta}\log f(X;\theta)\right)^2\right]$$

Un estimador que assoleix el límit és **eficient**.

## 4. Mètodes de construcció d’estimadors

### 4.1 Mètode dels moments

Igualem moments teòrics amb moments mostral: $$m_k(\theta)=\mathbb{E}[X^k] \approx \frac{1}{n}\sum_{i=1}^n X_i^k$$

**Exemple:** si $X\sim\mathrm{Exp}(\lambda)$, $\mathbb{E}[X]=1/\lambda$. Igualant $\bar X=1/\lambda$ obtenim: $$\hat\lambda_{MM}=\frac{1}{\bar X}$$

### 4.2 Màxima versemblança (MLE)

La **versemblança** és: $$L(\theta;\mathbf{x})=\prod_{i=1}^n f(x_i;\theta)$$

L’estimador MLE és: $$\hat\theta_{MV}=\arg\max_{\theta\in\Theta} L(\theta;\mathbf{x})$$

Sovint maximitzem el logaritme: $$\ell(\theta)=\log L(\theta)=\sum_{i=1}^n\log f(x_i;\theta)$$

**Propietats (asímptotiques):** - Consistent - Asímptoticament normal: $$\sqrt{n}(\hat\theta_{MV}-\theta) \xrightarrow{d} \mathcal{N}(0, I_1(\theta)^{-1})$$ - Invariància: si $\eta=g(\theta)$, llavors $\widehat{\eta}=g(\hat\theta)$

**Exemple (Normal):** Si $X_i\sim\mathcal{N}(\mu,\sigma^2)$ amb $\sigma^2$ coneguda, l’MLE de $\mu$ és $\bar X$.

### 4.3 Estimació bayesiana (breu)

Es considera $\theta$ com a variable aleatòria amb prior $\pi(\theta)$. Amb dades, obtenim posterior: $$\pi(\theta\mid \mathbf{x}) \propto L(\theta;\mathbf{x})\pi(\theta)$$

L’estimador pot ser la mitjana posterior, la moda (MAP), etc.

## 5. Estimació per intervals: intervals de confiança

### 5.1 Definició

Un **interval de confiança** al nivell $1-\alpha$ és un interval aleatori $(L(X),U(X))$ tal que: $$\mathbb{P}(L(X)\le \theta \le U(X))=1-\alpha$$

**Interpretació correcta:** si repetim el mostreig moltes vegades, una fracció $1-\alpha$ dels intervals contindran el paràmetre veritable.

### 5.2 IC per la mitjana amb variància coneguda

Si $X_i\sim\mathcal{N}(\mu,\sigma^2)$ i $\sigma$ coneguda: $$\frac{\bar X-\mu}{\sigma/\sqrt{n}}\sim\mathcal{N}(0,1)$$

Per tant, un IC $(1-\alpha)$ és: $$\bar X \pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$$

on $z_{\alpha/2}$ és el quantil de la normal estàndard.

### 5.3 IC per la mitjana amb variància desconeguda

Si $\sigma$ és desconeguda i la població és normal: $$T=\frac{\bar X-\mu}{S/\sqrt{n}} \sim t_{n-1}$$

IC: $$\bar X \pm t_{\alpha/2,\,n-1}\frac{S}{\sqrt{n}}$$

on $S^2=\frac{1}{n-1}\sum (X_i-\bar X)^2$.

### 5.4 IC per una proporció

Si $X\sim\mathrm{Bin}(n,p)$ i $\hat p=X/n$, per $n$ gran: $$\hat p \approx \mathcal{N}\left(p,\frac{p(1-p)}{n}\right)$$

IC aproximat (Wald): $$\hat p \pm z_{\alpha/2}\sqrt{\frac{\hat p(1-\hat p)}{n}}$$

(En pràctica sovint es prefereixen Wilson/Agresti–Coull, però el Wald és el més clàssic.)

### 5.5 IC per la variància (normal)

Si $X_i\sim\mathcal{N}(\mu,\sigma^2)$: $$\frac{(n-1)S^2}{\sigma^2}\sim \chi^2_{n-1}$$

Per tant: $$\left(\frac{(n-1)S^2}{\chi^2_{1-\alpha/2,n-1}},\;\frac{(n-1)S^2}{\chi^2_{\alpha/2,n-1}}\right)$$

## 6. Grandària mostral i precisió

Per un IC de la mitjana (σ coneguda), l’amplada és: $$2z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$$

Si volem un error màxim $E$ (semi-amplada): $$n \ge \left(z_{\alpha/2}\frac{\sigma}{E}\right)^2$$

Per a proporcions, amb pitjor cas $p(1-p)\le 1/4$: $$n \ge z_{\alpha/2}^2\frac{1}{4E^2}$$

## 7. Exemple resolt

Mostra $n=25$ d’una població normal amb $\bar x=10.2$, $s=1.5$. IC 95% per $\mu$: $$10.2 \pm t_{0.025,24}\frac{1.5}{\sqrt{25}}$$ Amb $t_{0.025,24}\approx 2.064$: $$10.2 \pm 2.064\cdot 0.3 = 10.2 \pm 0.6192$$ IC: $(9.58, 10.82)$.

## 8. Didàctica

- Diferenciar “paràmetre” (fix però desconegut) de “estadístic” (aleatori) - Treballar la interpretació correcta del nivell de confiança - Simular intervals de confiança per visualitzar el percentatge que conté el paràmetre - Presentar MLE amb exemples senzills (normal, exponencial)

## 9. Conclusions

L’estimació permet quantificar valors desconeguts a partir de dades. Els estimadors es valoren per biaix, variància, consistència i MSE. Els mètodes dels moments i de màxima versemblança ofereixen procediments sistemàtics de construcció. Finalment, els intervals de confiança incorporen la incertesa i són una peça central de la inferència.

T48. Inferència estadística. Estimació

Desarrollo del tema

Estudia este tema con OPOSGRATIS

Esploratu oposizio gehiago

Espezialitatearen arabera

Erkidego autonomoaren arabera