통계분석 방법은 자료의 속성과 분석 목적에 따라 달라지게 됩니다. 따라서 자료의 속성에 따라 분류할 필요가 있습니다.
변수(variable)
변수란 변할 수 있는 숫자를 말합니다. 체중과 신장은 측정 대상에 따라 다양한 수치로 측정이 될 수 있으므로 변수에 속합니다. 일변량 자료(univariate data)는 하나의 변수로만 이루어진 자료를 말하며, 다변량 자료(multivariate data)는 여러 개의 변수로 이루어진 자료를 말합니다. 관측 개체(observation)란 변수(키, 몸무게 등)를 측정한 개개의 개체를 말합니다.
자료의 분류
자료(data)는 크게 범주형 자료(categorial data)와 수치 자료(numerical data)로 분류할 수 있습니다. 범주형 자료는 명목자료(nominal data)와 순서자료( ordinal data)로 분류할 수 있으며, 수치자료는 이산자료(discrete data)와 연속 자료(continous data)로 분류할 수 있습니다.
명목형 자료(categorial data)는 단순히 범주를 나타내는 자료로 크고 작음을 비교할 수 없는 자료입니다. 남자, 여자와 같은 자료는 남자와 여자라는 범주를 구분할 뿐이지 서로 크기를 비교할 수는 없습니다. 여기서 남자는 1, 여자는 2로 정의하여 구분한다고 하더라도, 서로 크기 비교가 되지 않습니다.
순서자료(ordinal data)는 명목형 자료와는 반대로 범주 간에 서로 크기 비교가 가능한 자료형을 말합니다. 예를 들어 비만도의 경우 저체중, 정상, 과체중, 비만, 고도비만으로 범주화를 할 수 있고, 각 범주 자료들은 크기 비교가 가능합니다. 혈압의 경우도 저혈압, 정상혈압, 고혈압으로 범주화를 할 수 있고, 각 범주들의 크기 비교가 가능합니다.
이산자료(discrete data)는 셀 수 있는 형태의 자료를 말합니다. 예를 들어 매 년 발생하는 교통사고 건수를 알아봅시다. 2022년 90건, 2023년 100건.... 이런 식으로 자료를 취합할 수 있습니다. 이렇게 셀 수 있는 형태의 자료를 이산 자료라고 합니다. 예를 자세히 살펴보면 범주형 자료의 발생 빈도를 의미한 다는 것을 알 수 있습니다.
연속자료(continous data)는 연속적인 속성을 가지는 자료입니다. 신장, 체중, 시간 등이 여기에 해당합니다. 일반적으로 신장은 173cm로 표시하지만, 정확하게는 173.123564112..... 이런 식으로 연속적인 속성을 가집니다. 연속자료는 대부분 이산화를 통해 절사된 형태로 표시됩니다.
[참고문헌] 통계학의 이해 I, K-MOOC 여인권 교수님 강의.
'기초 의학 통계' 카테고리의 다른 글
3. 가중치 (0) | 2024.05.04 |
---|---|
2. 표본 추출 (0) | 2024.05.03 |
1. 모집단과 표본 (0) | 2024.05.02 |