#. 색인 (.np.ix_, .iloc, .loc) *# 슬라이스 색인 (얕은 복사, 원본 갱신) - 1차원 : ar[n:m] # n~m-1 - 2차원 : arr[:2] # 행 우선 (n~1행) arr[:2, 1:] # (n~1행, 1~m열) # 다차원 색인 - arr[[1,5,3], [2,6,4]] # point 색인 (1,2), (5,6), (3,4) - arr[[1,5,3], [:,[2,6,4]] # 1,5,3행의 2,6,4열 # np.ix_() 함수 색인 - arr[np.ix_([1,5,3], [2,6,4])] # 1,5,3행의 2,6,4열 (np.ix_ 함수 : 위치 값으로 전달) # iloc[] 정수 색인 - df.iloc[0,:] # 0번째 행 - df.iloc[:,0] # 0번째 열 - d..
그룹 연산(Group by) - 연산대상.groupby(그룹핑 대상) - groupby의 결과는 Dictionary 형태 - groupby 수행 시 결과는 보여주지 않음 로 그룹핑이 되었다고만 출력 - 분리 -> 적용 -> 결합 : 다른 언어와 다르게 파이썬은 분리(split)까지 동작. 적용과 결합을 위해 연산 메서드를 적용 pd.groupby? pd.groupby(*args, **kwargs) #. 그룹 연산(pd.groupby) sub = pd.read_csv('subway.csv', encoding='cp949') # 노선번호별 승차에 대한 평균 # 방법 1) 일부 컬럼 전달(속도상 유리) sub['승차'].groupby(sub['노선번호']).mean() # 방법 2) 전체(연산 가능한 모든 컬..
막대 그래프 그리기 Barplot(vector or matrix, 옵션) : 막대 그래프 그리기 # beside = T 옵션 : 그룹으로 묶어서 출력. 매트릭스 형태의 데이터만 가능(데이터 프레임 전달 불가) # beside = F (default) 는 하나의 막대로 묶음 # column끼리 묶어서 row끼리 비교 => 그룹별 비교를 위해 교차 테이블로 변환 필요 x head(del) 일자 시간대 업종 시도 시군구 읍면동 통화건수 1 20180201 0 음식점-족발/보쌈전문 서울특별시 강남구 논현동 5 2 20180201 0 음식점-족발/보쌈전문 서울특별시 강남구 역삼동 5 3 20180201 0 음식점-족발/보쌈전문 서울특별시 강서구 내발산동 5 ###############################..
그룹 연산 1. tapply() 함수 tapply(vector, index, function) # 벡터만 가능그룹 연산 tapply() 함수 참고[R] apply 계열 함수 - 적용 함수(원소별 연산, 그룹별 연산) 2. aggregate() 함수 aggregate() 함수는 tapply() 함수와 유사하게 그룹 연산을 수행합니다. ## method for class 'data.frame' aggregate(x, # 연산 대상, date frame 가능 by, # group by 컬럼, list로 전달, 여러 컬럼 전달 가능 FUN) # 함수 # student data에서 학년별 키와 몸무게의 평균 > std aggregate(std[,c('HEIGHT','WEIGHT')], + by = list(std..
각 행을 그룹으로 묶기 - GROUP BY group by 는 공통적인 데이터별로 묶어서 연산처리를 하고싶을 때 사용합니다. 그렇게되면 그룹 별 하나의 결과값이 출력되겠죠? 쉽게 예를 들자면, 전체 회원 데이터에서 남-여 회원의 수, 나이대 별(20대-30대-40대) 회원 수 이럴 때, count 함수와 group by 를 함께 사용한답니다. 만약 회사에 3개의 '부서'가 있는데, '같은 부서'의 직원들끼리 묶어라. 라고 한다면 그룹이 3개 이므로 3개의 행이 출력됩니다. 여기서 '부서번호' 를 사용해서 같은 부서끼리 묶었으므로 (원래는 단일행이지만 group by 에 사용되었기 때문에) select 절에서 그룹함수와 같이 사용이 가능합니다. 하지만, group by 에 사용된 컬럼 이외의 컬럼은 단독으..