CLOVA OCR API 이미지를 텍스트로 추출하기 위한 API 중 NAVER OCR API를 활용해보고자 한다. Ready 결제수단등록 NAVER CLOVA 사용을 위해 결제수단 등록이 필요하다. https://www.ncloud.com/mypage/billing/payment CLOVA OCR 이용 신청하기 결제수단 등록을 완료했다면 CLOVA OCR 이용 신청을 해보자. https://www.ncloud.com/product/aiService/ocr 도메인 생성 이용 신청을 완료하면 NAVER CLOUD PLATFORM Dashboard 로 이동되었던 것 같다.. NAVER CLOUD PLATFORM Dashboard > Recently Viewd > CLOVA OCR > Domain 도메인 이름,..
Python Multiprocessing GIL(Global Interpreter Lock) 파이썬에서는 하나의 프로세스 안에 모든 자원의 Lock을 Global하게 관리함으로써 한번에 하나의 쓰레드만 자원을 컨트롤하여 동작 여러 쓰레드를 동시에 실행시키지만, 결국 GIL 때문에 한번에 하나의 쓰레드만 계산을 실행 GIL로 자원 관리(GC..)를 쉽게 구현 가능해졌지만, 멀티 코어 부분에서는 아쉬움 파이썬의 경우에는 GIL이 존재하여 멀티 쓰레드보다는 멀티 프로세스를 사용하는 것이 좋음 multiprocessing 쓰레딩 모듈로 쓰레드를 생성 할 수 있는 것과 동일한 방식으로 프로세스를 생성 프로세스는 각자가 고유한 메모리 영역을 가지기 때문에 쓰레드에 비하면 메모리 사용이 늘어난다는 단점 싱글 머신 아..
Python Crawling Useful features Read Excel File & Show Progress bar & Make DataFrame import pandas as pd from tqdm import tqdm file_name = 'test_file' file_df = pd.read_excel('C:\\Users\\cristoval\\Desktop\\data\\' + file_name + '.xlsx') data = {'id': [], 'title': [], 'link' : []} result_df = pd.DataFrame(data=data) for idx, row in tqdm(file_df.iterrows()): # do something result_df = result_df.a..
Wikipedia 국/영문 데이터 수집/분석 자연어 처리를 위해 wikipedia 데이터를 활용해보자. Download Wiki dump file https://dumps.wikimedia.org/kowiki/latest/ https://dumps.wikimedia.org/kowiki/latest/kowiki-latest-pages-articles.xml.bz2 2021/07 기준 데이터 : 1208126 건 https://dumps.wikimedia.org/enwiki/latest/ https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 2021/07 기준 데이터 : 15839021 건 pages-articles.xm..
OpenNMT-py Step 1: Prepare the data 사용할 데이터 지정은 .yaml 구성 파일에 작성 toy_en_de.yaml ## 샘플 생성 위치 save_data: toy-ende/run/example ## 어휘 생성 위치 src_vocab: toy-ende/run/example.vocab.src tgt_vocab: toy-ende/run/example.vocab.tgt # 기존 파일 덮어쓰기 방지 overwrite: False # Corpus opts: data: corpus_1: path_src: toy-ende/src-train.txt path_tgt: toy-ende/tgt-train.txt valid: path_src: toy-ende/src-val.txt path_tgt: t..
Python Setting For NLP Install Docker & Ubuntu SSH https://data-make.tistory.com/674 Install Python Install Python & PyDev in Eclipse Reference Install Python packages offline Reference ############################################################## ## 1. python install package (transformers, pytorch, OpenNMT-py) ## python -m pip --trusted-host pypi.org --trusted-host files.pythonhosted.org insta..
#. Problemhttps://www.acmicpc.net/problem/2437* The copyright in this matter is in BOJ #. Resolution Process 1. Read and understand problem 2. Redefine the problem + abstract 3. Create solution plan (select Algorithm, Data structure) 4. Prove the plan (check performance time and usage memory) 5. Carry out the plan 6. Look back on the plan and find a way to improve it #. Solve그리디는 최적의 상태가 존재하는지, ..
#. Problemhttps://www.acmicpc.net/problem/11066* The copyright in this matter is in BOJ #. Resolution Process 1. Read and understand problem 2. Redefine the problem + abstract 3. Create solution plan (select Algorithm, Data structure) 4. Prove the plan (check performance time and usage memory) 5. Carry out the plan 6. Look back on the plan and find a way to improve it #. SolveDP의 가장 어려운 유형의 문제이 ..