본문 바로가기

Programming/python

Pandas 사용하기

728x90
반응형

Pandas는 데이터의 조작과 분석을 위해 만들어진 파이썬 라이브러리이다. 

 


 

 

기본적인 사용법은 우선

pip3 install pandas (맥)

pip install pandas (윈도우)

로 라이브러리를 설치해야 한다.

 

 

설치를 완료한 후 

 

 

간단한 코드를 작성해보자.

 


 

import pandas as pd

prime_num = pd.Series([2, 3, 5, 7, 11, 13])

print(prime_num, '\n')
print(type(prime_num), '\n')
print(prime_num.values, '\n')
print(type(prime_num.values))

 

우선 2부터 13까지의 소수를 판다스의 Series함수를 이용해서 prime_num에 시리즈 데이터로 담아준다.

 

그리고 각 출력문을 확인해보면?

 

0     2
1     3
2     5
3     7
4    11
5    13
dtype: int64 

<class 'pandas.core.series.Series'>

[ 2  3  5  7 11 13]

<class 'numpy.ndarray'>

 

데이터 값이 정수인 prime_num 변수는 인덱스 값과 밸류 값을 같이 보여준다.

그리고 파일 타입은 판다스의 시리즈 데이터이다.

 

이번엔 prime_num의 밸류 값만 출력하고 그 타입을 출력하면

배열(ndarray)의 값이라고 알려준다.

 


 

그리고 문득 인덱스와 밸류 값이 나란히 출력되는 걸 보고 나는 파이썬 자료형 중에 키와 밸류 값을 쌍으로 가지는 딕셔너리 자료형이 생각났다. 

 

아니나 다를까 역시 딕셔너리형으로도 판다스에서는 Series로 활용 가능하다.

 

import pandas as pd

shopping_list = {
    'shampoo' : 12000,
    'ramen' : 3000,
    'beer' : 5000,
    'eggs' : 8000
}
shopping_list = pd.Series(shopping_list)

print(shopping_list)

 

요로코롬 쇼핑할 것(키)과 그 가격(밸류)으로 이루어진 딕셔너리를 Series로 만들어줬다.

 

출력 값은

 

shampoo    12000
ramen       3000
beer        5000
eggs        8000
dtype: int64

 

 

 


 

또 재밌는 점은 직접 인덱스를 설정할 수도 있다.

 

import pandas as pd

prime_num = pd.Series([2, 3, 5, 7, 11, 13], index=['가', '나', '다', '라','마', '바'])

print(prime_num, '\n')

 

Series 함수 내에 직접 index를 설정하면 내가 설정한 대로 인덱스 값 변경이 가능하다.

 

 

가     2
나     3
다     5
라     7
마    11
바    13
dtype: int64 

 

728x90
반응형