본문 바로가기
728x90
반응형

Programming/Pandas17

[Pandas] Cleaning Data Cleaning Data 분석을 위해 읽어온 원본 데이터의 데이터 타입이 올바른지 확인하지 않으면 분석과정에 사용하는 다양한 통계적 지표나 필터결과가 오류를 발생시킨다. 원데이터를 datetime, "int", "category"데이터로 형식을 변화시키고 category와 int형 데이터의 describe()함수의 결과의 차이를 확인한다. # Cleaning data and difference btwn describe() of int, category data types import pandas as pd import datetime as dt df = pd.DataFrame({"year": ['1900','1901','1910','2021', &.. 2022. 12. 22.
[Pandas] Text파일의 데이터 읽기 Pandas 라이브러리로 text파일을 읽는 방법을 정리한다. 아래와 같은 형태의 text파일 읽는 경우를 가정한다. #으로 시작하는 라인은 주석으로 데이터를 읽을 때 무시하도록 한다. 아래와 같이 read_csv()함수를 이용하여 파일을 읽어올 때 데이터를 구분하는 구분자를 "\n"으로 설정하고 무시해야하는 주석의 시작 문자인 "#"을 전달한다. text파일에는 header가 없기 때문에 header=None으로 설정한다. # Using Numpy to import flat files import pandas as pd data = pd.read_csv('read_test.txt', sep="\n", header=None, comment='#', ) data 결과는 위외 같은 pandas 객체로 데이터.. 2022. 12. 20.
[Pandas] 데이터 결합/병합 .merge() 데이터 결합(병합) .merge()¶ 병합은 서로다른 데이터프레임 객체에 동일하게 존재하는 값을 통해 양쪽 데이터를 연관 지어 하나의 데이터프레임으로 모델링할 수 있는 유용한 방법입니다. In [114]: kospi = pd.read_csv("./^KS11.csv", index_col ='Date') kospi.head() Out[114]: Open High Low Close Adj Close Volume Date 2020-12-28 2820.949951 2834.590088 2799.560059 2808.600098 2808.600098 1006200 2020-12-29 2810.550049 2823.439941 2792.060059 2820.510010 2820.510010 104680.. 2022. 1. 8.
[Pandas] 데이터접합 방향설정 및 이름설정 데이터 접합 방향 설정 및 그룹이름 지정 (keys)¶ 연결하는 2개의 데이터프레임의 구조가 다른 경우 연결 시 정보가 없는 부분을 NaN으로 처리합니다. In [239]: df1 = pd.DataFrame(np.arange(0,10).reshape(2,5), columns=['c1', 'c2', 'c3', 'c4', 'c5']) df1 Out[239]: c1 c2 c3 c4 c5 0 0 1 2 3 4 1 5 6 7 8 9 In [238]: df2 = pd.DataFrame(np.arange(10,20).reshape(5,2), columns = ['c1', 'c6']) df2 Out[238]: c1 c6.. 2022. 1. 7.
[Pandas] 데이터 연결 (concat), 인덱스 연결 데이터의 접합/연결 (concat)¶ pandas에서 접합(concat)은 둘 이상의 pandas객체로부터 가져온 데이터를 연결해 새 객체로 만드는 과정을 말합니다. In [216]: df1 = pd.DataFrame(np.arange(10).reshape(5,2)) df1 Out[216]: 0 1 0 0 1 1 2 3 2 4 5 3 6 7 4 8 9 In [224]: df2 = pd.DataFrame(np.arange(10,20).reshape(5,2)) df2 Out[224]: 0 1 0 10 11 1 12 13 2 14 15 3 16 17 4 18 19 In [225]: pd.concat([df1, df2]) Out[225]: 0 1 0 0 1 1 2 3 2 4 5 3 6 7 4 8 9 0 10 1.. 2022. 1. 7.
[Pandas] 데이터 변경해서 새로운 컬럼생성 (MDD 컬럼) 데이터 변형¶ 데이터셋 대체하기¶ In [176]: kospi.head() Out[176]: Open High Low Close Adj Close Volume Date 2020-12-28 2820.949951 2834.590088 2799.560059 2808.600098 2808.600098 1006200 2020-12-29 2810.550049 2823.439941 2792.060059 2820.510010 2820.510010 1046800 2020-12-30 2820.360107 2878.209961 2809.350098 2873.469971 2873.469971 1074000 2021-01-04 2874.500000 2946.540039 2869.110107 2944.449951 2944.449.. 2022. 1. 7.
[Pandas] 중복 데이터 제거하기 중복 데이터 다루기 데이터프레임에는 중복 로우가 존재할 수 있습니다. 중복 데이터가 계산 결과에 영향을 주는 의미있는 데이터가 아니라면 중복 데이터를 적절하게 처리하는 것이 필요할 수 있습니다. df_duplicated = pd.DataFrame({'city': ['seoul']*3 + ['busan']*2, 'num' : ['02'] *3 + ['051']*2}) df_duplicated city num 0 seoul 02 1 seoul 02 2 seoul 02 3 busan 051 4 busan 051 도시 이름에 맞는 지역번호를 정보로 저장하는 데이터프레임으로 생성합니다. city 컬럼 정보를 이용하여 지역번호를 .. 2022. 1. 4.
728x90
반응형