
특정 문자열 사이 문자열 추출하기 (HTML tag 사이 문자열 추출) Wikipedia dump data 추출을 하면서 특정 문자열 사이에 있는 문자열을 추출해야 하는 상황이 생겼다. 정규식이 익숙지 않았던 터라 여러 sample 들을 짜깁기 한 결과 드디어 성공을 했다...u_u regexr.com에서 열심히 짜깁기 해보자. 별거 아니긴 하지만 특정 문자 사이 문자 추출은 자주 사용하게 될 것 같아서 기록해 두고자 한다. 예를 들어, HTML tag 사이 문자열을 추출할 수도 있을 것 같다. Wikipedia dump data 문자열 추출 후 HTML tag 사이 문자열도 추출해보자. TEXT 문자열 추출 text 지미 카터0530712206307022392021-11-17T05:16:11Z211.2..
정규표현식 (re Module) #. re 모듈import re - 정규식 처리 모듈- 패턴 매칭, 치환, 분리 text = 'lololo' 1. findall 메서드 - re.findall(pattern, string, flags=0) - 패턴과 일치하는 모든 원소 출력 * 주로 사용 - 벡터 연산 불가re.findall('ol', text)['ol', 'ol'] 2. search 메서드 - re.search(pattern, string, flags=0) - 패턴과 일치하는 첫 번째 원소 출력 - 직접 출력 불가 => group 메서드 사용re.search('ol', text)re.search('ol' , text).group(0)'ol' 3. match 메서드- re.match(pattern, str..
정규 표현식 정규 표현식은 방대한 데이터에서 원하는 정보만 추출하고 싶을 때 유용하게 사용됩니다. 파이썬에서도 동일하게 적용되니까 알아두면 두루두루 잘 사용할 수 있겠죠!? 문자열 관련 유용한 패키지 stringr도 참고하세요! [R] 문자열 관련 함수 - stringr 패키지, 정규식 1. grep() 함수 : 특정 패턴만 골라내기 grep(패턴, 문자열) stringr 패키지의 str_detect() 함수와 비슷하지만, 인자 부분이 다르죠? grep 함수는 탐색할 대상을 두 번째 인자에 넣어줍니다. > library(stringr) > v1 str_detect(v1, 'ab') [1] TRUE TRUE FALSE FALSE FALSE FALSE > v1[str_detect(v1, 'ab')] [1] ..
문자열 함수 - Stringr 패키지 stringr 패키지는 문자열 데이터를 가공하기 위해 자주 사용되는 유용한 패키지입니다.문자열 치환, 벡터 연산, 함수의 결과를 반복문없이 저장해주는 등 편리한 함수들을 가지고 있습니다. install.packages("stringr")library(stringr) 1. str_detect() 함수 str_detect() 함수는 원소별 패턴 검사를 위해 사용됩니다. 오라클의 like 연산자와 유사하죠. str_detect(대상, 패턴) # 대소구분. 논리값으로 리턴 > v1 str_detect(v1,'a')[1] TRUE TRUE FALSE FALSE FALSE> v1[c(T,T,F,F,F)] # boolean 벡터. 원소에 논리값을 매칭시켜서 true인 값만 색인하..