본문 바로가기

전체 글

(114)
단순 선형회귀모델 (3): 상관계수, 결정계수 사전 지식(1) 상관계수와 결정계수 분석에서 독립변수는 더 이상 결정된 값 $x$가 아닌 랜덤변수 $X$이다.(2) 단순 선형회귀모델은 $Y=\beta_0+\beta_1 X+\epsilon,\quad\epsilon\sim N(0,\sigma^2)$이다. 회귀함수는 $E[Y]=\beta_0+\beta_1E[X]$이다.$X=x$로 정해졌을 때 기존의 단순 선형회귀모델 $Y=\beta_0+\beta_1 x+\epsilon,\quad\epsilon\sim N(0,\sigma^2)$이 되고 회귀함수는 $E[Y\vert X=x]=\beta_0+\beta_1x$이다.(3) 모델의 전체적인 오차는 $SSE$가 아닌 $MSE:=E[(Y-\hat\beta_0-\hat\beta_1X)^2]$를 사용한다. $\beta_0,\..
단순 선형회귀모델 (2): 회귀계수, 회귀함수, 신뢰구간, 예측구간 이미 알고 있는 사실과 새로운 가정(H1) 단순 선형회귀모델은 $Y=\beta_0+\beta_1x+\epsilon,\quad\epsilon\sim N(0,\sigma^2)$이다.→ 구체적인 통계적 추론에서는 오차에 대해 $E[\epsilon]=0,V[\epsilon]=\sigma^2$을 가정하는 것으로는 부족하고 구체적인 확률분포를 가정해야 한다.→ 오차의 구체적인 확률분포로 정규분포를 가정한다 (정규분포가 어떻게 유도되었는가를 생각할 때 이는 합당하다).→ 따라서 $Y,\hat\beta_0,\hat\beta_1$ 등이 모두 정규분포를 따르게 된다. 이처럼 선형회귀모델의 모든 확률적인 성격은 오차에서 출발하기 때문에 선형회귀모델 사용 시 정규성을 확보하는 것이 중요하다.(H2) 오차를 제외한 나머지 부분..
변분추론 (Variational Inference) 섀넌의 정보이론 복습(1) 랜덤변수 $X$, 관측치 $x$, 확률밀도함수 (확률분포) $X\sim p(x)$$X$가 가질 수 있는 값이 너무 많아 정확히 $X=x$일 확률 대신 $x$ 근처의 값을 가질 확률 $p(x)dx$를 생각하고 $p(x)$를 $X$의 확률밀도함수 또는 확률분포라고 한다.확률분포는 랜덤변수의 값이 어떻게 결정되는지를 표현하는 규칙이다. 예를 들어 $p(0)$이 매우 높으면 랜덤변수가 $0$ 근처의 값을 가질 확률이 높을 것이다. $X$가 $p(x)$라는 규칙에 의해 값이 결정된다는 것을 $X\sim p(x)$로 나타낸다. 간단히 $X$가 $p(x)$를 따른다고 표현한다.(2) 섀넌 정보량 $I(p):=-\log p$확률이 낮은 사건일 수록 많은 정보 (놀라움)를 갖는다. 예를 들어 ..
단순 선형회귀모델 (1): SSE 최소화 추정량과 모멘트 기본적인 가정(H1) 단순 선형회귀모델은 $Y=\beta_0+\beta_1 x+\epsilon$이고, 오차에 대해 $E[\epsilon]=0$, $V[\epsilon]=\sigma^2$을 가정한다.→ 즉, 선형회귀모델의 모든 확률적 성격은 오차에서 비롯된다 (종속변수, 파라미터 추정량, 통계량 등의 확률분포, 모멘트 등).(H2) $Y$의 $i$번째 측정을 $Y_i=\beta_0+\beta_1 x_i+\epsilon_i,\quad i=1,2,\cdots,n$으로 표현하고, 이때의 오차 $\epsilon_i$에 대해 IID (독립항등분포)를 가정한다.→ 모든 측정의 오차 $\epsilon_i$가 서로 독립이고, 모멘트가 $E[\epsilon_i]=0$, $V[\epsilon_i]=\sigma^2$으로 일정..
Prim’s Algorithm Prim’s Algorithm is another approach to find the minimum spanning tree (MST) from a given graph.Its code implementation is simpler and easier than Kruscal’s Algorithm based on union-find.Key IdeaGrow the MST greedily: Pick the smallest edge that connects a visited node to an unvisited node.Priority queue (min-heap): Use min-heap to efficiently pick the smallest edge.Repeat until all nodes are in..
와이블 분포 확률밀도함수, 누적분포함수, 생존함수, 위험함수 복습우리는 뭔가 좋지 않은 이벤트의 발생까지 버티는 시간 $T$에 관심이 있다. ($T>0$)(예: 제품의 수명이 다할 때까지, 사고가 발생할 때까지, 고객이 이탈할 때까지 걸리는 시간)$T$를 수명 (Lifetime)이라고 하자.확률밀도함수수명 $T$의 구체적인 값은 모르지만, $T$가 $t$ 근처의 값을 가지는 확률을 생각해볼 수 있다. 확률밀도함수 $f(t)$로 표현한다.$$ f(t):=\lim_{\Delta t\to0}\frac{P(t누적분포함수또한 $T\le t$, 즉 수명이 특정 기준 $t$ 이하일 확률에 관심이 있다. 누적분포함수 $F(t)$로 표현한다.$$ F(t):=P(T\le t) $$생존함수그리고 $T>t$, 즉 수명이 $t$라는 기준을..
생존함수와 위험함수 정의특정 이벤트 (주로 사망, 사고 발생, 고장 등 좋지 않은)가 지금까지 단 한번도 발생하지 않고 $t$시간이 흘렀다고 하자. 이벤트 발생 전까지의 대기 시간을 $T$라고 설정하면, 이와 같은 일이 일어날 확률은$$ S(t):=P(T>t) $$로 나타낼 수 있다. $S(t)$를 생존함수 (Survival Function)라고 한다.이제 관심 사항은 $t$시간 동안 이벤트가 발생하지 않고 버텼을 때, 그 다음부터 $\Delta t$라는 추가 시간을 넘기지 못할 확률이 모든 시점에서 얼마나 되는가이다. 이 확률은$$ h(t):=\lim_{\Delta t\to0}\frac{P(tt)}{\Delta t} $$로 나타낼 수 있다. $h(t)$를 위험함수 (Hazard Function)라고 한다.관계식 1랜덤변수..
기하분포의 무기억성, 도박사의 오류 기하분포란?성공 확률이 $p$이고 실패 확률이 $q=1-p$인 어떤 게임을 한 번 성공할 때까지 계속 반복한다고 가정하자. 반복이 끝났을 때의 누적된 반복 횟수를 $Y$라고 하자.$$ P(Y=y)=pq^{y-1},\quad y=1,2,\cdots $$이것은 $Y$가 실제로 $y$라는 값을 가지는 확률을 표현한 공식, 즉, 확률분포이고, 이 확률분포의 이름은 기하분포이다.기하분포는 한 번의 성공까지 얼마나 많은 시행이 필요한가에 대한 물음에 확률을 통해 답을 준다.단 1번에 성공하고 반복 시행을 끝낼 확률은 $P(Y=1)=p$이고2번만에 성공하여 끝낼 확률은 $P(Y=2)=pq$,3번만에 성공하여 끝낼 확률은 $P(Y=3)=pq^2$이다.기하분포의 무기억성한 번의 성공을 관측하기까지 연속되는 실패 횟수에 ..
몬티 홀 문제의 간단한 풀이 (직관 & 계산) 문제:3개의 커튼이 있고, 커튼 뒤에 물건이 하나씩 있다. 하나는 자동차, 나머지 둘은 쓰레기라고 하자. 참여자는 커튼 하나를 랜덤으로 고르고, 사회자는 참여자가 커튼을 고른 후 쓰레기가 있는 커튼 둘 중 하나를 열어 참여자에게 보여준다 (사회자는 모든 정보를 알고 있기 때문에 항상 이것이 가능하다). 그리고 참여자에게 현재의 선택을 바꿀 기회를 준다.바꾸는 것이 이득일까? 바꾸지 않는 것이 이득일까? 아니면 차이가 없을까?직관적인 논리:(1) 선택을 바꾸지 않으면 자동차 획득 확률은 1/3이다.(2) 선택을 바꾼다고 하자. 처음 골랐던 것이 자동차였다면 반드시 쓰레기를 고르게 되고, 처음 골랐던 것이 쓰레기였다면 나머지 하나의 쓰레기는 사회자가 오픈해주기 때문에 반드시 자동차를 고르게 된다. 즉, 선택..
다항계수 이항정리이항정리는 $(y_1+y_2)^n$ 같은 이항식의 $n$ 제곱을 어떻게 전개하는가에 관한 정리이다. 내용은 다음과 같다.$$ (y_1+y_2)^n=\sum_{n_1,n_2\ge0} \frac{n!}{n_1!n_2!}y_1^ {n_1}y_2^{n_2},\quad n_1+n_2=n $$유도 과정:(1) $(y_1+y_2)^n$을 전개하면 최고차항의 차수는 $n$이다. 각 항은 $y_1^{n_1}y_2^{n_2}$ 처럼 $n_1$개의 $y_1$과 $n_2$개의 $y_2$의 곱의 형태이다.(2) 특정 $y_1^{n_1}y_2^{n_2}$항은 1개가 아닐 수 있다. 예를 들어 $n=3$일 경우 $y_1^2y_2^1$과 같은 항은 총 2개가 존재한다. 이 2개 항을 합하여 정리하면 $2y_1^2y_2^1$이..
합성곱 신경망 입력 이미지의 텐서 표현합성곱 신경망에서 입력 이미지는 픽셀값을 성분으로 가진 텐서로 표현된다.텐서의 차원은 케라스 기준 (배치 크기, 높이, 너비, 채널 수)이다. (NHWC)사이즈가 W*H이고 C개의 채널을 가진 이미지 N장을 처리한다는 뜻이다.파이토치의 경우 NCHW와 같이 채널 수가 사이즈 앞으로 온다.e.g.) 100장의 1280*720 컬러 이미지 (RGB)를 처리할 때의 텐서 표현은 케라스 기준 (100, 720, 1280, 3)이고, 파이토치 기준 (100, 3, 720, 1280)이다.일상생활에서 이미지의 사이즈는 너비높이인 반면, 신경망에서 사이즈는 높이너비로 표현된다. 한 장의 이미지는 행렬로 표현할 수 있는데 높이 = 행의 길이, 너비 = 열의 길이여서 그런 것 같다.일반적으로 픽셀..
음이항분포 (기하분포)의 2가지 관점 음이항분포는 주어진 $x$회의 이벤트가 발생할 때까지의 대기 시간을 모델링하는데여기서 대기 시간을 어떻게 해석하는가에 따라 확률질량함수의 모습이 바뀐다.첫번째 관점: 대기 시간 = 발생 시간 + 미발생 시간두번째 관점: 대기 시간 = 미발생 시간첫번째 관점이벤트의 발생확률은 $\theta$이고, 총 $N=n$회의 관찰이 끝났을 때, 발생 $x$회, 미발생 $n-x$회가 있었다고 보는 관점.확률질량함수:$$ NegBin1(n;x,\theta)={n-1 \choose x-1}\theta^x(1-\theta)^{n-x},\quad n\in\lbrace x,x+1,x+2,\cdots\rbrace $$!여기서 조합수 부분은 ${n-1 \choose n-x}$를 사용해도 좋음 (조합수의 성질).기대치와 분산:$$ ..