정규표현식 (re Module) #. re 모듈import re - 정규식 처리 모듈- 패턴 매칭, 치환, 분리 text = 'lololo' 1. findall 메서드 - re.findall(pattern, string, flags=0) - 패턴과 일치하는 모든 원소 출력 * 주로 사용 - 벡터 연산 불가re.findall('ol', text)['ol', 'ol'] 2. search 메서드 - re.search(pattern, string, flags=0) - 패턴과 일치하는 첫 번째 원소 출력 - 직접 출력 불가 => group 메서드 사용re.search('ol', text)re.search('ol' , text).group(0)'ol' 3. match 메서드- re.match(pattern, str..
참고글 : [Python] Pandas - DataFrame[Python] Pandas - DataFrame 관련 메서드 #. 문자열 분리, 결합, 공백 제거 (.split, .join, .strip)# 문자열 분리 : split메서드pro.EMAIL0 captain@abc.net1 sweety@abc.net...14 napeople@jass.com15 silver-her@daum.netName: EMAIL, dtype: object pro.EMAIL.map(lambda x : x.split('@')) # 벡터 연산 불가0 [captain, abc.net] 1 [sweety, abc.net]...14 [napeople, jass.com]15 [silver-her, daum.net]Name: EMAIL, ..
# 피벗 (.pivot) * 중요 - 데이터 테이블 재배치(구조 변경) - 여러 column을 index, values, columns 값으로 사용 가능 - Group 연산, 테이블 요약, 그래프 등을 위해 사용 - set_index로 계층적 색인 생성 후, unstack 메서드로 형태를 변경하는 과정의 축약형 p1.pivot?p1.pivot(index=None, columns=None, values=None)# index : index 색인으로 사용될 컬럼# columns : column 색인으로 사용될 컬럼# values : value에 채우고자 하는 컬럼 p1 = pd.read_csv('melt_ex.csv') p1.pivot('year','mon') # 멀티인덱스로 생성p1.set_index(['..
import pandas as pd import numpy as np from pandas import Series, DataFrame #. 배열 결합 (np.concatenate)np.concatenate?concatenate((a1, a2, ...), axis=0, out=None) ar1 = np.arange(4).reshape(2,2)array([[0, 1], [2, 3]])np.concatenate([ar1, ar1], axis=1)array([[0, 1, 0, 1], [2, 3, 2, 3]])np.concatenate([ar1, ar1], axis=0)array([[0, 1], [2, 3], [0, 1], [2, 3]]) #. 데이터 프레임 결합 (pd.concat)pd.concat?pd.co..
# xlrd, openpyxl 패키지 설치> conda install xlrd > conda install openpyxl # excel 파일 불러오기 (pd.ExcelFile, .parse)xls_file.parse?xls_file.parse(sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, co..
import pandas as pdimport numpy as npfrom pandas import Series, DataFrame # 데이터 병합(Join) - pandas.mergedf1.merge?df1.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None) # 주요 옵션# how : join 방법 (default는 inner join), - Outer Join은 'outer' / Inner Join은 'inner' / Left Join은..
import pandas as pd # np.read_csv, np.read_tablepd.read_csv?pd.read_csv( ['filepath_or_buffer', "sep=','", 'delimiter=None', "header='infer'", 'names=None', 'index_col=None', 'usecols=None', 'squeeze=False', 'prefix=None', 'mangle_dupe_cols=True', 'dtype=None', 'engine=None', 'converters=None', 'true_values=None', 'false_values=None', 'skipinitialspace=False', 'skiprows=None', 'nrows=None', 'na_..
Multi-index & Multi-column #. 생성 - 인덱스의 개수, 상위 level & 하위 level의 개수가 일치해야 함 - 생성할 일은 많지 않음 :( 1. Series s1 = Series([1,2,3,4,5,6], index=[['a','a','b','b','c','c'], [1,2,1,2,1,2]]) s1a 1 1 2 2 b 1 3 2 4 c 1 5 2 6 dtype: int64 2. DataFrame 생성 후 설정 df1 = DataFrame({'value':[1,2,3,4,5,6], 'ind1':['a','a','b','b','c','c'], 'ind2':[1,2,1,2,1,2]}) df1 = df1.set_index(['ind1','ind2']) # 리스트 형식으로 인덱스에 동..