1
\(X_1,\dots, X_n\)는 \(Ber(p)\)분포로부터 랜덤표본
(a) 결합확률밀도함수
\(f(x:p) = \Pi_{i=1}^n p^x(1-p)^{1-x}, x=0,1\)
\(=p^{\sum_{i=1}^n x_i} (1-p)^{n-\sum_{i=1}^n x_i}\)
(b) p(1-p)에 대한 최대가능도추정량
\(L(p) = p^{\sum_{i=1}^n x_i} (1-p)^{n-\sum_{i=1}^n x_i}\)
\(l(p) = \sum_{i=1}^n x_i log p + (n-\sum_{i=1}^n x_i)log (1-p)\)
\(l'(p) = \dfrac{\sum_{i=1}^n x_i}{p} - \dfrac{n-\sum_{i=1}^n x_i}{1-p}=0\)이 되는 p값
\(\hat p = \bar X\)
\(\hat p (1- \hat p) = \bar X(1- \bar X)\)
(c) \(X_1(1-X_2)\)의 기댓값
\(E(X_1(1-X_2)) = E(X_1)-E(X_1 X_2) = E(X_1) - E(X_1)E(X_2) = p - p^2 = p(1-p)\)
랜덤표본이므로..독립
(d) \(E[X_1(1-X_2)|\sum_{i=1}^n X_i = t]\) \(\star\) 모르겠땅
완비충분통계량이용
완비충분통계량은 확률변수 분포에 대한 모든 정보를 갖고 있는 충분통계량
베르누이 분포는 \(X_1 + \dots + X_n\)이 모수 \(\hat p\)에 대한 충분통계량이며 완비성을 가짐
\(T=\sum X_i\)
\(E(X_1(1-X_2)|T=t) = E(X_1|T=t) E(1-X_2|T=t)\)
\(P(T=t)\)는 이항분포
(e) \(p=\dfrac{1}{2}\)일 때 점근분포 \(\star\) 모르겠땅
\(\sqrt{n}(\hat p - p) \rightarrow N(0,\dfrac{1}{I(p)})\)
p=1/2이면.. var(x)=1/4이고…
I(p)=4
그럼..N(0,4)인가..
(f) \(\star\) 모르겠땅
가설 \(H_0: p= \dfrac{1}{2} \ \text{vs} \ H_1: p \neq \dfrac{1}{2}\)일 때 일반화 가능도비를 이용해 기각 영역 제시
\(L(p) = p^{\sum_{i=1}^n x_i} (1-p)^{n-\sum_{i=1}^n x_i}\)
\(\Lambda = \dfrac{L(p_0)}{L(p)} = \dfrac{((1/2)^{\sum_{i=1}^n x_i} (1/2)^{n-\sum_{i=1}^n x_i}}{\bar X^{\sum_{i=1}^n x_i} (1-\bar X)^{n-\sum_{i=1}^n x_i}}\)
\(-2log \Lambda = -2(log(1/2)^n - log(\bar X^{\sum_{i=1}^n x_i} (1-\bar X)^{n-\sum_{i=1}^n x_i}) = -2(-nlog2 - \sum x log \bar X - (n- \sum x) log(1- \bar X)) \geq C\)
2
\(Y_i \sim Ber(p_i)\)일 때, \(\text{logit} (p_i) = \text{log}(\dfrac{p}{1-p})\)에 공변량 \(x_i\)를 더한 것으로 표현 가능하다. 즉, \(\text{logit}(p_i) = \alpha + \beta x_i\)의 선형결합 형태이다. 최대가능도 추정량을 이용해 구체적으로 설명
\(P(Y_i = y_i) = p_i^{y_i} (1-p_i)^{1-y_i}\)
최대가능도추정량
\(l(\alpha,\beta) = \sum [y log(p) + (1-y)log(1-p)]\)
\(logit(p) = \alpha + \beta x\)
\(logit(p) = log(\dfrac{p}{1-p})\)
위 두개 식을 정리하면, \(p=\dfrac{e^{\alpha+\beta x}}{1+e^{\alpha+\beta x}}=\dfrac{1}{1+e^{-(\alpha+\beta x)}}\)