판다스란?
파이썬의 데이터 처리 라이브러리판다스 불러오기
pandas를 다음의 명령어로 import 한다.import pandas as pd
데이터 생성
DataFrame
DataFrame은 표의 형식을 하고 있는 데이터이다.
표의 각 칸은 값(value)을 가지고 있다.
DataFrame은 행(row)과 열(column)으로 표시할 수 있다.
DataFrame은 다음의 명령어로 생성할 수 있다.
DataFrame 생성
df = pd.DataFrame({'yes': [50, 21], 'no':[131, 2]})
df
yes | no | |
---|---|---|
0 | 50 | 131 |
1 | 21 | 2 |
DataFrame은 row와 column으로 구성된다.
위 표에서 yes, no는 column 명이며 각각의 세로행의 값들이 column 값이다.
row는 표의 가로행 값들을 의미하는데 첫 번째 가로행이 0번 row이며, 0번 index라고도 표현한다.
따라서 두번째 가로행은 1번 row이며 1번 index로 표현한다.
위 DataFrame의 0번 row(index)의 "yes" column의 값은 50이다.
1번 row(index)의 "no" column 값은 2이다
df = pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']})
df
Bob | Sue | |
---|---|---|
0 | I liked it. | Pretty good. |
1 | It was awful. | Bland. |
DataFrame은 python dictionary로 생성할 수 있다.
dictionary의 key는 column 명이 되고 각각의 value 값은 column 값이 된다.
위 예제에서 key 값인 'Bob'이 column 명이 되고 value 값인 'I liked it.', 'It was awful.'은 값은 'Bob' column의 0, 1번째 row 값이 된다.
DataFrame의 index 설정
df = pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'],
'Sue': ['Pretty good.', 'Bland.']},
index=['Product A', 'Product B'])
df
Bob | Sue | |
---|---|---|
Product A | I liked it. | Pretty good. |
Product B | It was awful. | Bland. |
특별한 설정이 없으면 1번째 row 는 0번 index, 2번째 rows는 1번 index가 된다.
index를 사용자가 설정할 수 있다.
위 예를 보면 0번 index는 product A, 1번 index는 product B로 설정하였다.
Series
DataFrame은 표의 형식으로 된 데이터를 말하는 반면Series는 연속적인 데이터 값들을 말하며, python의 list와 유사한 데이터 이다.
Series 생성
s= pd.Series([1, 2, 3, 4, 5])
s
0 1 1 2 2 3 3 4 4 5 dtype: int64
Series는 하나의 column에 해당하는 값으로 생성이 되며,
각각의 값은 0부터 시작하는 index 값을 순서대로 갖는다
Series의 index 설정
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')
2015 Sales 30 2016 Sales 35 2017 Sales 40 Name: Product A, dtype: int64
Series로 DataFrame과 마찬가지로 index 값을 설정할 수 있다.
위 예제에서 index를 '2015 Sales', '2016 Sales', '2017 Sales'로 설정하였고,
Series의 이름을 Product A라고 설정하였다.
이 내용은 kaggle pandas tutorial 내용을 기반으로 제가 공부한 내용을 필기한 내용입니다.
'Pandas 기초' 카테고리의 다른 글
리스트(list)를 데이터 프레임(dataframe) 만들기 (0) | 2024.05.10 |
---|---|
[pandas] dataframe에 column 추가 하기, insert 함수 (0) | 2023.11.04 |
Data indexing (0) | 2023.08.08 |
[pandas]CSV 파일 불러오기 (0) | 2023.08.06 |