전체 글 (54) 썸네일형 리스트형 리스트(list)를 데이터 프레임(dataframe) 만들기 리스트를 데이터 프레임으로 만들어 보는 방법을 알아보자. 먼저 pandas를 import 한다. import pandas as pd fruits, sell라는 이름의 리스트 변수를 정의한다. fruits = ['사과', '배', '참외']sell = [60, 15, 25] 여기서 fruits와 sell을 column으로 하는 dataframs을 만들어 보고자 한다. 해당 코드는 다음과 같다. df = pd.DataFrame({key:value, key:value})# 여기서 key는 column 명을 입력하고, value는 해당 column에 해당하는 값인 list 변수를 입력한다. 따라서 위에서 설정한 fruits, sell이라는 list를 dataframe으로 만드는 코드는 다음과 같다. .. 4. 자료의 종류와 특성 통계분석 방법은 자료의 속성과 분석 목적에 따라 달라지게 됩니다. 따라서 자료의 속성에 따라 분류할 필요가 있습니다. 변수(variable) 변수란 변할 수 있는 숫자를 말합니다. 체중과 신장은 측정 대상에 따라 다양한 수치로 측정이 될 수 있으므로 변수에 속합니다. 일변량 자료(univariate data)는 하나의 변수로만 이루어진 자료를 말하며, 다변량 자료(multivariate data)는 여러 개의 변수로 이루어진 자료를 말합니다. 관측 개체(observation)란 변수(키, 몸무게 등)를 측정한 개개의 개체를 말합니다. 자료의 분류 자료(data)는 크게 범주형 자료(categorial data)와 수치 자료(numerical data)로 분류할 수 있습니다. 범주형 자료는 명목자료(.. 3. 가중치 가중치(weight)란 모집단의 구성정보는 표본을 추출하는 데 있어 매우 중요한 사전정보입니다. 모집단이 서로 다른 특성을 가지는 부모집단으로 구성되어 있을 경우, 특정 부모집단에서 표본이 많이 추출되거나 적게 추출되면 모집단에 대한 왜곡된 결과가 나올 수 있습니다. 이러한 문제를 해결하기 위하여 가중치를 적용하게 됩니다. 여기서 가중치란 한 개의 표본이 몇 개를 대표하는 지를 의미합니다. 추출확률에 따른 가중치(w1) 등확률 추출인 경우 표본으로 선택될 확률이 n/N이고, 표본에서 차지하는 비중이 1/일 경우 표본 한 명이 N/n명을 대표하게 됩니다. 따라서 가중치(w1)은 N/n이 됩니다. 예를 들어 A 고등학교 학생 100명 중 50명이 표본으로 추출되었고, B고등학교 학생 100명 중 20명이 .. 2. 표본 추출 확률 표본 추출 확률 표본 추출법은 모집단에서 표본으로 추출될 확률을 알 수 있는 추출 방법입니다. 예를 들어 100명의 모집단에서 10명을 무작위로 표본을 추출한다면 표본으로 수집될 확률은 10/100입니다. 확률표본추출을 하기 위해서는 표집틀이 필요합니다. 표집틀이란 표본으로 추출할 대상이 있는 명부 혹은 목록을 뜻합니다. 선거등록명부, 의료보험공단 목록 등이 표집틀에 해당합니다. 확률 표본 추출은 모집단을 대표할 수 있는 표본을 얻을 수 있습니다. 확률 표본 추출법은 아래 4가지의 방법이 있습니다. 단순확률추출(simple random sampling) 크기가 N인 모집단에서 크기가 n인 표본을 무작위로 추출하는 방법입니다. 모든 개체들이 표본에 선택될 확률이 n/N으로 동일합니다. 계통표본추출.. 1. 모집단과 표본 통계학의 정의 통계학이란 관심 또는 연구의 대상인 모집단의 특성을 파악하기 위해 모집단으로부터 일부의 자료(표본)을 수집하고 수집된 표본을 정리, 요약, 분석하여 표본의 특성을 파악한 후 표본의 특성을 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공하는 학문을 말한다. 모집단의 정의 모집단이란 통계적인 관찰의 대상이 되는 집단 전체를 의미합니다. 다시 말해 연구자가 알고 싶어 하는 집단 전체를 의미합니다. 전수조사란? 모집단 전체를 대상으로 조사를 하는 경우를 전수조사라고 합니다. 하지만 모집단 전체를 조사하는 것이 현실적으로 어려운 경우가 많으므로 표본을 선택하여 조사를 하게 됩니다. 표본의 정의 모집단으로부터 선택된 일부의 개체를 말합니다. 예를 들어 각종 여론조사에 참여한 유권자들.. 파이썬 카이제곱 검정(교차 분석) 코드, 예시 카이제곱 검정(교차 분석)이란? 카이제곱 검정이란 독립 변수와 종속 변수가 모두 범주형 자료인 경우, 두 변수가 연관성이 있는지 여부를 확인하는 검정입니다. 여기서 독립변수란 연구자가 의도적으로 변화시키는 변수로써 다른 변수의 영향을 받지 않습니다. 종속변수란 독립변수의 변화에 따라서 변화하는 변수를 말합니다. 예를 들어 비만 유무가 고혈압 유무에 영향을 미치는지를 알아보고자 합니다. 여기서 비만은 종속 변수이고 고혈압은 종속 변수가 됩니다. 그리고 비만은 비만 유, 무를 확인하므로 범주형 변수이고, 고혈압 또한 고혈압 유, 무를 확인하므로 범주형 변수가 됩니다. 이와 같이 비만 유무(범주형 변수)가 고혈압 유무에 영향을 미치는 지를 알아보고자 할 때는 카이제곱 검정을 사용하게 됩니다. 카이제곱 검정 파.. [pandas] dataframe에 column 추가 하기, insert 함수 안녕하세요. 오늘은 pandas를 이용하여 dataframe에 column을 추가해 보겠습니다. dataframe에 column을 추가하기 위해서는 insert 함수를 사용합니다. insert 함수의 기본 문법은 다음과 같습니다. data.insert(loc, column, value) insert 함수 속에 기입하는 parameter의 의미는 다음과 같습니다. loc: 삽입될 열의 위치 column: 삽입될 열의 이름 value: 삽입될 열의 값 그럼 실습을 해 보겠습니다. 키와 몸무게가 있는 csv 파일을 가져와 bmi를 계산하여 WEIGHT(몸무게) 다음 열에 bmi 열을 추가하는 예제를 해 보겠습니다. import pandas as pd data = pd.read_csv("파일 경로") # 실제 .. [python]선형 회귀 모델 구현해 보기(1) 파이썬 선형회귀모델 구현! import matplotlib.pyplot as plt import pandas as pd from sklearn.linear_model import LinearRegression 선형 회귀 모델을 구형하기 위하여 필요한 모듈을 import 한다. 데이터 처리를 위한 pandas를 import 한다. 선형 회귀 모델을 구현하기 위하여 sklearn.linear_model 에서 LinearRegression을 import 한다. dataset = pd.read_csv("example1.csv") pandas의 read_csv 명령어를 이용해 분석하고자 하는 파일을 불러와서 dataset이라는 변수에 저장한다. 분석하고자 하는 csv 파일은 python 파일과 같은 폴더에 위치하.. 이전 1 2 3 4 ··· 7 다음