CAFE

댓글

뒤로

분산, 공분산 행렬...너무 어렵네요.

작성자박상일| 작성시간13.05.21| 조회수2276| 댓글 20

댓글 리스트

  • 작성자 강성찬 작성시간13.05.21 AIC, BIC, ML, REML 같은 개념은 통계학과 출신이라도 쉽게 설명하기 어려운 것들입니다. 너무 조급해하시기보다 차근차근 분석 경험을 쌓으시면 어느 순간에 이해가 되실 텐데요. ML(최대가능도)는 모집단에 어떤 분포를 줄 때 이를 결정하는 값(모수)를 구하는 방법인데 확률분포함수가 모수의 함수가 되면 가능도라고 부릅니다. 이 값을 최대로 하는 모수값을 찾는 것이지요. 베이지안 방법은 사실 어떻게 보면 결국 같은 방향이지만 사전분포를 설정하는 게 다릅니다.
  • 작성자 강성찬 작성시간13.05.21 원래는 이런 개념들을 이해하시려면 수리통계학 책을 보시는 수밖에 없습니다. AIC, BIC는 정보이론과 관련되어 나온 개념이라 사실 이론적으로 하려면 어렵습니다. REML은 간단히 말하자면 y= Xb +Zu + e 에서 Xb 부분을 0으로 만든 상태의 가능도를 최대화하는 방법입니다.
  • 답댓글 작성자 박상일 작성자 본인 여부 작성자 작성시간13.05.21 0으로 만든 상태에서의 가능도라....흠 어렵군요. 0으로 만든다는것이 결국은 변수들을 표준화 한다는 말이신가요? Xb가 0이라는것은 모집단의 평균을 0으로 설정한다는 것인데....가능도라는 표현이 잘 와닿지 않습니다. ㅠㅠ
  • 답댓글 작성자 박상일 작성자 본인 여부 작성자 작성시간13.05.21 Xb 뒷부분의 항을 랜덤효과라고 하나요? 이 항의 분산 공분산을 최소로 하는 행렬 b를 구한다는 말씀이신가요? 단순회귀에서 최소제곱법이나 최소절대값(맞는 표현인지는 모르겠네요)의 다차원변수에서 확장된 개념이라고 생각하면 될까요?
  • 답댓글 작성자 안재형 작성시간13.05.21 REML은 한마디로 Xb부분을 없애버린 ML에서 u의 분산과 e의 분산을 추정하는겁니다. Xb가 있는 상태에서 추정하게 되면 u의 분산과 e의 분산의 추정치가 biased되거든요. 가장 쉬운 예가 s^2으로 (n-1)로 나눈게 REML이고 n으로 나눈게 ML입니다. 그런데 n으로 나누면 biased됩니다.
  • 답댓글 작성자 안재형 작성시간13.05.21 yi = mu + e에서 mu를 제거하고 e의 분산을 추정하면 yi와 평균의 차이의 제곱을 (n-1)로 나눈 REMLE를 얻을수 있습니다. 그런데 이렇게 심하게 간단한 모형도 실제로 해보면 상당히 복잡합니다.
  • 답댓글 작성자 박상일 작성자 본인 여부 작성자 작성시간13.05.21 좀더 공부를 해야 겠네요. 그런데 수리통계까지 해야하나요? ㅠㅠ 그걸 이해하려면 대학수학이 기본이 되어야 하죠?
  • 답댓글 작성자 안재형 작성시간13.05.21 coursera에 mathematical biostatistics boot comp 들으시면 대충 해결 될겁니다.
  • 작성자 박상일 작성자 본인 여부 작성자 작성시간13.05.21 감사합니다. 뭐든 첫술에 배부를 수 없는데. 양다리 걸치기를 하려고 하니. 다리는 짧은데 둘의 간극은 멀고. ㅎㅎㅎ
  • 작성자 강성찬 작성시간13.05.21 Zu 부분이 랜덤효과입니다. 표준화와는 다릅니다. 원래는 추정하면 평균은 0인데 분산이 그렇지 않지요. 예를 들어 같은 데이터셋을 두번 중복한 데이터셋을 만들어 분석한다고 생각하면 데이터 사이즈는 커져도 하나로 분석하는 거나 마찬가지지요. 그래서 보통의 회귀분석 y =Xb에서 Xb 성분을 뺀 부분은 잔차인데 이게 서로 상관관계가 있지 않아야 하는 가정을 위반했으니 그러한 상관관계를 모형화해서 또 제거해주어야 합니다.
  • 답댓글 작성자 박상일 작성자 본인 여부 작성자 작성시간13.05.21 그렇다면 가능도 추정법이 단순회귀의 잔차분석과 비슷한 개념인가요?
  • 답댓글 작성자 박상일 작성자 본인 여부 작성자 작성시간13.05.21 질문을 드리드 보니 초등생이 미적분 문제 설명해 달라고 하는것 같네요.
  • 작성자 강성찬 작성시간13.05.21 저도 내공이 딸리다 보니 설명하기 힘드네요. 가능도 추정 중 가장 쉬운 예를 들어보면 속이 안보이는 항아리에 빨간공, 파란공, 노란공이 수없이 많이 들어가 있다고 할 때 임의로 한번에 10개 정도 뽑아보니 빨간 공이 7개 파란 공이 2개 노란 공이 1개 있다고 하죠. 그럼 다음에 공 하나를 임의로 꺼낸다고 하면 그 공 색깔이 어떤 색이 될 가능성이 제일 높을까요? 아마 대부분 빨간색이 될 거라고 생각하시겠지요. 이때 10개 뽑은 것이 표본이라고 하고 항아리 안에 있는 공의 색 분포가 확률분포 또는 여기서 가능도라고 할 때 이 값이 가장 큰 걸 선택하는 방법입니다.
  • 작성자 박상일 작성자 본인 여부 작성자 작성시간13.05.21 네 정말 감사드립니다. 기초통계에서 다루는 추정이라는것도 표본의 특성을 가지고 모집단에 대해서 설명할때 모집단의 평균과 분산만을 말하지,분포 특성(정규분포, 혼합 정규, 정규가 아닌 대칭, 포아송.....)에 대해서는 가정하지 않지만 ML의 경우는 그러한 표본들이 나올 가능성이 가장 큰 모집단의 확률분포를 가정하고 추정하는 방법이라고 상각하면 될까요?
  • 답댓글 작성자 안재형 작성시간13.05.21 평균 mu이고 분산이 1인 정규분포를 가정했을때, 관찰된 값이 단 하나인 70이면 mu의 MLE는 70입니다. 종이에 평행선을 하나 긋고, 70에 점을 찍으시고, 종모양의 정규분포를 평행선위에 횡으로 움직여보세요. x일때 분포의 높이를 f(x)라고 할때 mu=70인 정규분포가 f(x=70)이 최대값을 갖습니다. 값이 하나일때 likelihood는 f(x=70)이고 둘(70, 80)일때는 f(70)*f(80)입니다. 둘일때도 70, 80 두 점을 찍고 종모양의 분포를 횡으로 움직이시면 mu가 두값의 평균이 75일때 f(70)*f(80)이 최대값을 갖습니다. 이런 식의 아이디어가 MLE입니다. 글로 설명하기 힘들어서 이해가 되실지 모르겠네요...
  • 작성자 박상일 작성자 본인 여부 작성자 작성시간13.05.21 설명하신것은 이해가 되는것 같아요. 저는 MLE가 종모양일지 접시모양일지 아니면 밥그릇 모양일지는 모른다는 가정하에 주어진 표본들이 표집될 확률이 가장 큰 그릇 모양을 찾는 통계방법(통계량?) 생각하고 있었습니다. 말씀하신대로라면 제가 잘못 알고 있었네요. 그릇모양은 정해놓고 모수값을 추정하는 방법중 하나라는 말씀이시군요. (스마트폰으로 글을쓰다보니 오타가 생깁니다. 죄송합니다)
  • 답댓글 작성자 안재형 작성시간13.05.21 정규분포인 경우 그렇고요. MLE는 항상 분포를 가정하고 거기에 있는 mu, sigma같은 parameter를 추정합니다.
  • 작성자 안재형 작성시간13.05.21 아... 그리고 공분산행렬의 구조는 중요할수 있습니다. 두 점 y1, y2가 관찰되었을때 왠만한 통계량은 보통 y1, y2의 선형결합니다. 분산을 구해야, "통계치/표준오차"로 t-검정도 할수 있습니다. 그런데 여기서 공분산행렬의 구조는 상당히 중요한 문제입니다.
    통계치=y1+y2 라면 var(통계치) = var(y1) + var(y2) + 2*cov(y1,y2) 입니다. 공분산 행렬의 구조가 diagonal 즉 독립이어서 공분산이 모두 0라면 cov(y1,y2)가 0이 되겠고, 양수가 될수도 있고, 음수가 될수도 있습니다. 그러면 "통계치/표준오차"의 값이 달라지고 해당되는 p-value가 달라집니다. 그래서 상당히 중요한 문제일수 있습니다.
  • 답댓글 작성자 박상일 작성자 본인 여부 작성자 작성시간13.05.21 그렇군요. 앞부분에서 분산 공분산 행렬에 대해서 꽤 많은 지면을 할애해서 설명하셨는데. 그만큼 중요하군요. symmetry. compound symmetry. ...에 따라서 모델을 설명하시는것 같았는데 왜 그렇게 하시는지 잘 감이 잡히지 않았습니다. 몇번은 다시 읽어봐야 할것 같습니다. 감사합니다.
  • 답댓글 작성자 안재형 작성시간13.05.21 공분산행렬은 항상 symmetry입니다. (i,j)가 (j,i)하고 같거든요. compound symmetry는 그냥 가장 단순한 공분산행렬입니다. 모든 공분산이 같죠. 추정해야할 parameter가 너무 많아지면 좋을건 없거든요.
맨위로

카페 검색

카페 검색어 입력폼
카카오 이모티콘
사용할 수 있는 카페앱에서
댓글을 작성하시겠습니까?
이동시 작성중인 내용은 유지되지 않습니다.