![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/8bt3M/btrmKiMf0QG/folI91RPEhTSgPPa4Wf1Sk/img.png)
Korean spacing Model Taekyoon 님이 개발하신 한국어 띄어쓰기 모델 Trainable Korean spacing (TaKos) 을 간략하게 테스트해보고자 한다. 자연어처리에서는 텍스트를 토큰 단위로 구분하여 다루는데, 가장 쉬운 토크나이징 방법은 띄어 쓴 단어를 구분하는 것 한국어의 경우 띄어쓰기는 텍스트의 의미를 구분하는 데 큰 영향을 줌 Reference takos-alpha 한국어 띄어쓰기 프로그램 도전기 Install git clone https://github.com/Taekyoon/takos-alpha.git pip install -r requirements python setup.py install Requirements packages torch numpy pandas..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/d0yQZZ/btq9PTD6Ywu/g59h99lxL5eaJkOaDWzVkk/img.png)
Text preprocessing 유원준님의 "딥 러닝을 이용한 자연어 처리 입문" 책을 (제가 보기 편하게) 간략히 정리한 글입니다. Table Of Contents Tokenization Word Tokenization Sentence Tokenization 한국어 토큰화 품사 태깅(part-of-speech tagging) Cleaning and Normalization 표제어 추출 & 어간 추출 Stopword Regular Expression Splitting Data Text Preprocessing Tools for Korean Text Tokenization Word Tokenization pip install nltk Do, n't from nltk.tokenize import word_..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/dkixWA/btq8TvLITkK/WeaIwTokMO1kgKeBo3SYQ1/img.png)
OpenNMT-py Step 1: Prepare the data 사용할 데이터 지정은 .yaml 구성 파일에 작성 toy_en_de.yaml ## 샘플 생성 위치 save_data: toy-ende/run/example ## 어휘 생성 위치 src_vocab: toy-ende/run/example.vocab.src tgt_vocab: toy-ende/run/example.vocab.tgt # 기존 파일 덮어쓰기 방지 overwrite: False # Corpus opts: data: corpus_1: path_src: toy-ende/src-train.txt path_tgt: toy-ende/tgt-train.txt valid: path_src: toy-ende/src-val.txt path_tgt: t..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/2jXF1/btq8HHlR1vl/FonksfeiOQGfQfYi5r4ke1/img.jpg)
Python Setting For NLP Install Docker & Ubuntu SSH https://data-make.tistory.com/674 Install Python Install Python & PyDev in Eclipse Reference Install Python packages offline Reference ############################################################## ## 1. python install package (transformers, pytorch, OpenNMT-py) ## python -m pip --trusted-host pypi.org --trusted-host files.pythonhosted.org insta..