1. DataFrame 생성 & data 삽입--123456789import pandas as pd result_df = pd.DataFrame(columns=['col1', 'col2', 'col3'], dtype=str)res_idx = 0 for i in tqdm(range(0,100)): ... result_df.loc[res_idx] = [col1, col2, col3] res_idx += 1Colored by Color Scriptercs
Data Table(데이터 테이블) 데이터 테이블은 성능과 관련해서 중요한 개념입니다. Table 구조의 데이터의 특정 컬럼별 주소값을 갖는 index를 생성하여 key를 통한 연산 및 검색을 빠르게 수행 데이터 색인 혹은 연산 시 인덱스를 설정한 테이블과 설정하지 않은 테이블의 성능 차이가 데이터가 방대해질 수록 커지기 때문에 대용량의 데이터 처리를 위해 인덱스는 필수! 입니다. 데이터 테이블(data table) : 인덱스(목차) 설정이 가능한 데이터 프레임 Key별로 가지고 있는 주소값을 통해 저장공간을 효율적으로 색인(인덱싱)할 수 있습니다. 데이터 테이블은 찾고자 하는 정보 기반으로 주소를 저장하기 때문에, 조건 연산 수행 시 가장 빠른 특징이 있습니다.특히, key를 통한 조건 검색(색인), ..
rank : 벡터 값들의 순위 출력 rank(x, # 벡터 na.last = TRUE, # na는 마지막에 출력 ties.method = # 동률 순위에 대한 계산 방법 ( defualt = average) c("average", # 각 순위의 평균으로 통일 "first", # 처음 오는 순서대로 1순위 (처음으로 발견된 데이터 우선) "last", # 마지막 데이터에 1순위 (마지막에 발견된 데이터 우선) "random", # 순서 상관없이 랜덤 "max", # 동률 순위 중 가장 높은 값 출력 "min")) # 동률 순위 중 가장 낮은 값 출력(대부분의 rank 구현 방법 ) > disease library(doBy) > disease$rank orderBy(~ 콜레라, disease) 월별 콜레라 ..
데이터의 n번째 이전(이후) 행의 값 가져오기 data.table::shift() shift(x, # 벡터(원본 데이터) n=1L, # 몇 번째 이전(이후)값을 가져올지 지정 fill=NA, # 채울 값이 없을 경우 default값 설정 type=c("lag", "lead"), # 이전 값을 가져올지 이후 값을 가져올지 give.names=FALSE) # 값 이름 지정 ### delivery_02.csv 파일을 읽고> del str(del)> head(del) 일자 시간대 업종 시도 시군구 읍면동 통화건수1 20180201 0 음식점-족발/보쌈전문 서울특별시 강남구 논현동 52 20180201 0 음식점-족발/보쌈전문 서울특별시 강남구 역삼동 53 20180201 0 음식점-족발/보쌈전문 서울특별시 강서..
아래와 같은 데이터를 R로 읽어오면 아래와 같이 공백을 NA로 채우게 됩니다. > subway subway 전체 구분 X05.06 X06.07 X07.08 X08.09 X09.10 X10.11 X11.12 ...1 서울역(1) 승차 17,465 18,434 50,313 93,398 78,705 86,342 93,585 ...2 하차 7,829 48,553 110,250 233,852 121,983 79,628 75,577 ...3 시 청(1) 승차 2,993 4,473 7,633 10,404 13,328 16,953 25,467 ...4 하차 4,142 19,730 67,995 175,458 83,777 48,363 47,519 ...5 종 각 승차 7,371 7,836 14,545 24,578 23,6..
교차 테이블로 데이터 구조 변경 1. stack()과 unstack() : 비교적 간단한 구조의 변경 stack() 함수와 unstack() 함수를 사용하여 데이터 구조를 변경해보았었습니다. [R] 데이터 구조 변경 - stack, unstack > m1 d1 d2 head(m1) year mon latte americano mocha1 2000 1 400 482 2982 2000 2 401 483 2993 2000 3 402 484 300...> head(d1) year name info value1 2000 latte qty 1002 2000 mocha qty 803 2000 latte price 2200...> head(d2) year name qty price1 2000 latte 100 1200..
sqldf 패키지 sqldf() 함수 : R에서 SQL문법을 활용하여 데이터 조작 sqldf() 함수는 R에서 SQL을 사용하여 데이터 처리가 가능하게 해줍니다. > install.packages("sqldf")> install.packages("googleVis") # Fruits 데이터 셋 사용을 위함> library(sqldf)> library(googleVis) > Fruits Fruit Year Location Sales Expenses Profit Date1 Apples 2008 West 98 78 20 2008-12-312 Apples 2009 West 111 79 32 2009-12-313 Apples 2010 West 89 76 13 2010-12-31...> sqldf('SELECT *..
plyr 패키지 plyr 패키지는 데이터 분할, 적용, 조합 세 단계로 데이터를 처리하는 함수를 제공해줍니다. 배열(a), 데이터 프레임(d), 리스트(l)에 적용 가능 > install.packages("plyr") > library(plyr) 1. adply() 함수 : 그룹 연산 adply() 함수는 apply()함수와 동일하지만 apply()는 벡터로 리턴, adply()는 데이터 프레임으로 리턴이 가능합니다. apply(데이터 셋, 적용방향, 적용(그룹)함수) # 적용방향 = 1:같은 행별, 2:같은 열별, c(1,2): 원소별 [R] apply 계열 함수 - 적용 함수(원소별 연산, 그룹별 연산) plyr :: adply( .데이터, # 행렬, 배열, 데이터 프레임 .margins, # 적용방..