![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bcGtaE/btrocAYHS4s/3oZ8BNYsgmj7D1llpnE681/img.png)
Json 구조의 로그 파일 분석 Json 구조의 로그 파일을 분석하는 코드를 작성해보자. 간단한 설명은 주석을 참고해보자. Log file Example Line-by-line json type. 라인 단위로 Json 형태의 로그가 저장되어있는 파일이다. {"success":"true", "fileType":"pdf", "summary":[{"page_count":"3", "sentence_count":"20", "char_count":"80"}]} {"success":"true", "fileType":"docx", "summary":[{"page_count":"6", "sentence_count":"50", "char_count":"140"}]} Code import json import os file..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/c0pzFP/btrnjh6JzNS/hLNV3nhUysEmn8s2vN1yK1/img.png)
특정 문자열 사이 문자열 추출하기 (HTML tag 사이 문자열 추출) Wikipedia dump data 추출을 하면서 특정 문자열 사이에 있는 문자열을 추출해야 하는 상황이 생겼다. 정규식이 익숙지 않았던 터라 여러 sample 들을 짜깁기 한 결과 드디어 성공을 했다...u_u regexr.com에서 열심히 짜깁기 해보자. 별거 아니긴 하지만 특정 문자 사이 문자 추출은 자주 사용하게 될 것 같아서 기록해 두고자 한다. 예를 들어, HTML tag 사이 문자열을 추출할 수도 있을 것 같다. Wikipedia dump data 문자열 추출 후 HTML tag 사이 문자열도 추출해보자. TEXT 문자열 추출 text 지미 카터0530712206307022392021-11-17T05:16:11Z211.2..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/RZPeS/btrmiev5zG8/aS1sMzukyGoqCVaI3PLhbK/img.jpg)
Scrape Linkedin People Search Results with Python 먼저 scraping 하고자 하는 링크는 https://www.linkedin.com/search/results/people/?keywords.. 이고 https://www.linkedin.com/robots.txt 에 접속해서 automated scraping 허용 여부를 확인해보자. Disallow 목록에 포함되지 않는다면 시작 !! Run Chrome Debug mode chrome 을 자동화 모드가 아닌 Debug 모드로 실행 subprocess.Popen( r'C:\Program Files\Google\Chrome\Application\chrome.exe --remote-debugging-port=9..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/WfIiR/btrlV1ybh3l/QkNLWC5TGOUHmIbHMNKlK1/img.png)
Java Quartz Scheduler Java의 Scheduling Library를 활용해서 일정 시간마다 코드를 실행시켜보자. Quartz Quartz는 다중 Thread Architecture기반 Thread 환경 관리를 위해 ThreadPool 에 의존 주요 Interface Scheduler – scheduler 와 상호작용하는 기본 API Job – 실제 작업을 수행하는 개체 JobDetail – Job instances 정의에 사용 Trigger – 주어진 작업(Job)이 수행될 조건 결정 (특정시간, 횟수, 반복주기 등) JobBuilder – Job의 instances 정의하는 JobDetail instances 빌드에 사용 TriggerBuilder – Trigger instances ..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bAYGls/btrlvCyP4Sc/b2QifOEr61guDsTmKMaUuk/img.png)
Python MS-SQL 연동 (pymssql) Documentation pymssql 설치 pip install pymssql MS SQL 연동 Auto commit 을 사용할 경우 conn.autocommit(True) 을 설정해주면 된다. conn = pymssql.connect(server, username, password, database) # MSSQL 접속 cursor = conn.cursor() # 쿼리 생성과 결과 조회를 위해 사용 SELECT 한글 깨짐을 해결하기 위해 .encode('ISO-8859-1').decode('euc-kr') 방법을 많은 분들이 사용하는 듯 하다. cursor.execute('SELECT * FROM POST;')..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/yHPf7/btrlpWx0zYX/g20EaetYbnlrVMwH60kR3K/img.png)
The Scheduled Annotation in Spring @Scheduler를 사용해서 일정한 시간 간격으로, 혹은 특정 일정에 코드가 실행되도록 해보자. Spring Scheduler Dependency Spring Boot starter 에 기본적으로 의존 org.springframework.scheduling Enable Scheduling Project Application Class에 @EnableScheduling 추가 @EnableScheduling // 추가 @SpringBootApplication public class SchedulerApplication { public static void main(String[] args) { SpringApplication.run(Schedu..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bGPHKz/btri1cXjqey/UTfKCBCDjLnyDResoJG0bk/img.png)
CLOVA OCR API 이미지를 텍스트로 추출하기 위한 API 중 NAVER OCR API를 활용해보고자 한다. Ready 결제수단등록 NAVER CLOVA 사용을 위해 결제수단 등록이 필요하다. https://www.ncloud.com/mypage/billing/payment CLOVA OCR 이용 신청하기 결제수단 등록을 완료했다면 CLOVA OCR 이용 신청을 해보자. https://www.ncloud.com/product/aiService/ocr 도메인 생성 이용 신청을 완료하면 NAVER CLOUD PLATFORM Dashboard 로 이동되었던 것 같다.. NAVER CLOUD PLATFORM Dashboard > Recently Viewd > CLOVA OCR > Domain 도메인 이름,..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/bvZgbI/btri5k8bwzv/qjyDgzzavuTOlHm93kpkj0/img.png)
Java Write a text file Files Paths.get() 결과 파일 저장 경로 주어진 URI를 Path 객체로 변환 public static Path get(URI uri) Files.deleteIfExists() 해당 경로에 파일이 존재할 경우 삭제 public static boolean deleteIfExists(Path path) throws IOException Files.write() 파일에 텍스트 작성 (각 줄은 char sequence) 줄 구분 기호로 끝나는 각 줄을 사용하여 파일에 순서대로 기록 문자는 지정된 문자 집합을 사용하여 바이트로 인코딩 public static Path write(Path path, Iterable