특정 문자열 사이 문자열 추출하기 (HTML tag 사이 문자열 추출) Wikipedia dump data 추출을 하면서 특정 문자열 사이에 있는 문자열을 추출해야 하는 상황이 생겼다. 정규식이 익숙지 않았던 터라 여러 sample 들을 짜깁기 한 결과 드디어 성공을 했다...u_u regexr.com에서 열심히 짜깁기 해보자. 별거 아니긴 하지만 특정 문자 사이 문자 추출은 자주 사용하게 될 것 같아서 기록해 두고자 한다. 예를 들어, HTML tag 사이 문자열을 추출할 수도 있을 것 같다. Wikipedia dump data 문자열 추출 후 HTML tag 사이 문자열도 추출해보자. TEXT 문자열 추출 text 지미 카터0530712206307022392021-11-17T05:16:11Z211.2..
Korean spacing Model Taekyoon 님이 개발하신 한국어 띄어쓰기 모델 Trainable Korean spacing (TaKos) 을 간략하게 테스트해보고자 한다. 자연어처리에서는 텍스트를 토큰 단위로 구분하여 다루는데, 가장 쉬운 토크나이징 방법은 띄어 쓴 단어를 구분하는 것 한국어의 경우 띄어쓰기는 텍스트의 의미를 구분하는 데 큰 영향을 줌 Reference takos-alpha 한국어 띄어쓰기 프로그램 도전기 Install git clone https://github.com/Taekyoon/takos-alpha.git pip install -r requirements python setup.py install Requirements packages torch numpy pandas..
NAVER 금융 ETF 종목 엑셀 추출 매번 ETF 종목 현재가 검색하는 귀차니즘이 발동하여... NAVER 금융 ETF 페이지 Scraping 을 해보려고 한다. 항상 Scraping 전에 robots.txt 확인이 필요한다. https://finance.naver.com/robots.txt를 확인해보면 Allow: /sise/ 라고 automated scraping 허용이 되는 것을 확인할 수 있다. Get Chrome Debug Mode Driver chrome 을 자동화 모드가 아닌 Debug 모드로 실행 def get_driver(url): subprocess.Popen( r'C:\Program Files (x86)\Google\Chrome\Application\chrome.exe --r..
Scrape Linkedin People Search Results with Python 먼저 scraping 하고자 하는 링크는 https://www.linkedin.com/search/results/people/?keywords.. 이고 https://www.linkedin.com/robots.txt 에 접속해서 automated scraping 허용 여부를 확인해보자. Disallow 목록에 포함되지 않는다면 시작 !! Run Chrome Debug mode chrome 을 자동화 모드가 아닌 Debug 모드로 실행 subprocess.Popen( r'C:\Program Files\Google\Chrome\Application\chrome.exe --remote-debugging-port=9..
Java Quartz Scheduler Java의 Scheduling Library를 활용해서 일정 시간마다 코드를 실행시켜보자. Quartz Quartz는 다중 Thread Architecture기반 Thread 환경 관리를 위해 ThreadPool 에 의존 주요 Interface Scheduler – scheduler 와 상호작용하는 기본 API Job – 실제 작업을 수행하는 개체 JobDetail – Job instances 정의에 사용 Trigger – 주어진 작업(Job)이 수행될 조건 결정 (특정시간, 횟수, 반복주기 등) JobBuilder – Job의 instances 정의하는 JobDetail instances 빌드에 사용 TriggerBuilder – Trigger instances ..
Python MS-SQL 연동 (pymssql) Documentation pymssql 설치 pip install pymssql MS SQL 연동 Auto commit 을 사용할 경우 conn.autocommit(True) 을 설정해주면 된다. conn = pymssql.connect(server, username, password, database) # MSSQL 접속 cursor = conn.cursor() # 쿼리 생성과 결과 조회를 위해 사용 SELECT 한글 깨짐을 해결하기 위해 .encode('ISO-8859-1').decode('euc-kr') 방법을 많은 분들이 사용하는 듯 하다. cursor.execute('SELECT * FROM POST;')..
The Scheduled Annotation in Spring @Scheduler를 사용해서 일정한 시간 간격으로, 혹은 특정 일정에 코드가 실행되도록 해보자. Spring Scheduler Dependency Spring Boot starter 에 기본적으로 의존 org.springframework.scheduling Enable Scheduling Project Application Class에 @EnableScheduling 추가 @EnableScheduling // 추가 @SpringBootApplication public class SchedulerApplication { public static void main(String[] args) { SpringApplication.run(Schedu..
Microservice Architecture(MSA) 빠르게 훑어보기 Monolithic Architecture 기존 SW 개발 방식 하나의 war 또는 ear에 모든 서비스 기능이 포함 서비스 기능들을 하나의 Application에 담는 것 특정 기능의 작은 이슈가 Application 전체에 영향을 미칠 수 있음 모듈 간 의존성이 강함 Microservices Architecture Microservice : 하나의 큰 Application을 여러 개의 다른 역할을 수행하는 Application으로 분리하였을 때 각 Application을 의미 Microservices Architecture : 이렇게 Microservice를 분리하여 여러 개의 작은 Application으로 쪼개어 변경과 조합이 ..