가중치(weight)란
모집단의 구성정보는 표본을 추출하는 데 있어 매우 중요한 사전정보입니다. 모집단이 서로 다른 특성을 가지는 부모집단으로 구성되어 있을 경우, 특정 부모집단에서 표본이 많이 추출되거나 적게 추출되면 모집단에 대한 왜곡된 결과가 나올 수 있습니다. 이러한 문제를 해결하기 위하여 가중치를 적용하게 됩니다. 여기서 가중치란 한 개의 표본이 몇 개를 대표하는 지를 의미합니다.
추출확률에 따른 가중치(w1)
등확률 추출인 경우 표본으로 선택될 확률이 n/N이고, 표본에서 차지하는 비중이 1/일 경우 표본 한 명이 N/n명을 대표하게 됩니다. 따라서 가중치(w1)은 N/n이 됩니다. 예를 들어 A 고등학교 학생 100명 중 50명이 표본으로 추출되었고, B고등학교 학생 100명 중 20명이 추출되었다고 생각해 봅시다. A 고등학교 학생은 표본으로 선택될 확률이 50/100이므로, 추출확률에 따른 가중치는 100/50 = 2가 됩니다. A 고등학교 학생 표본 한 명은 2명을 대표한다고 생각할 수 있습니다. B 고등학교 학생은 표본으로 선택될 확률이 0/100이므로, 추출확률에 따른 가중치는 100/20 = 5 가 됩니다. B 고등학교 학생 표본 한 명은 5명을 대표한다고 생각할 수 있습니다.
무응답에 따른 가중치(w2)
대체표본이 없거나 일부 항목에 답을 하지 않은 경우 무응답에 따른 가중치를 주게 됩니다. A 고등학생 100명 중 응답률이 60%, B 고등학교 학생 10명 중 응답률이 40% 인 경우를 생각해 봅시다. 여기서 응답가중치는 1/응답률입니다. 따라서 A 고등학교 학생 표본의 응답가중치는 1/0.6 = 10/6입니다. 따라서 A 고등학교의 경우 100 * 10/6 = 1000/6으로 응답자 1명당 166.6 명을 대표한다고 생각할 수 있습니다. B 고등학교 학생 표본의 응답가중치는 1/0.4 = 10/4 입니다. 따라서 B 고등학교의 경우 100 * 10/4= 1000/4으로 응답자 1명당 250명을 대표한다고 생각할 수 있습니다.
사후층화에 따른 가중치(w3)
가중 표본 분포가 어떤 특성에 대해 알려진 모집단 분포와 일치하도록 조정을 하는 것이 필요합니다. 사후 층화에 따른 가중치는 모집단 비율/표본비율 입니다. 여를 들어 수도권 고등학생 남녀 비율이 40%, 60%인데, 표본에서의 비율이 60%, 40%가 나왔습니다. 이런 경우 사후층화에 따른 가중치를 적용해 주어야 합니다. 남자의 사후층화 가중치는 40/60, 여자의 가중치는 60/40이 계산이 됩니다.
최종 가중치는 w1 * w2 * w3을 곱하여 구하게 됩니다.
[참고문헌] 통계학의 이해 I, K-MOOC 여인권 교수님 강의.
'기초 의학 통계' 카테고리의 다른 글
4. 자료의 종류와 특성 (0) | 2024.05.08 |
---|---|
2. 표본 추출 (0) | 2024.05.03 |
1. 모집단과 표본 (0) | 2024.05.02 |