Korean spacing Model Taekyoon 님이 개발하신 한국어 띄어쓰기 모델 Trainable Korean spacing (TaKos) 을 간략하게 테스트해보고자 한다. 자연어처리에서는 텍스트를 토큰 단위로 구분하여 다루는데, 가장 쉬운 토크나이징 방법은 띄어 쓴 단어를 구분하는 것 한국어의 경우 띄어쓰기는 텍스트의 의미를 구분하는 데 큰 영향을 줌 Reference takos-alpha 한국어 띄어쓰기 프로그램 도전기 Install git clone https://github.com/Taekyoon/takos-alpha.git pip install -r requirements python setup.py install Requirements packages torch numpy pandas..
Text preprocessing 유원준님의 "딥 러닝을 이용한 자연어 처리 입문" 책을 (제가 보기 편하게) 간략히 정리한 글입니다. Table Of Contents Tokenization Word Tokenization Sentence Tokenization 한국어 토큰화 품사 태깅(part-of-speech tagging) Cleaning and Normalization 표제어 추출 & 어간 추출 Stopword Regular Expression Splitting Data Text Preprocessing Tools for Korean Text Tokenization Word Tokenization pip install nltk Do, n't from nltk.tokenize import word_..
OpenNMT-py Step 1: Prepare the data 사용할 데이터 지정은 .yaml 구성 파일에 작성 toy_en_de.yaml ## 샘플 생성 위치 save_data: toy-ende/run/example ## 어휘 생성 위치 src_vocab: toy-ende/run/example.vocab.src tgt_vocab: toy-ende/run/example.vocab.tgt # 기존 파일 덮어쓰기 방지 overwrite: False # Corpus opts: data: corpus_1: path_src: toy-ende/src-train.txt path_tgt: toy-ende/tgt-train.txt valid: path_src: toy-ende/src-val.txt path_tgt: t..
Python Setting For NLP Install Docker & Ubuntu SSH https://data-make.tistory.com/674 Install Python Install Python & PyDev in Eclipse Reference Install Python packages offline Reference ############################################################## ## 1. python install package (transformers, pytorch, OpenNMT-py) ## python -m pip --trusted-host pypi.org --trusted-host files.pythonhosted.org insta..