Korean spacing Model Taekyoon 님이 개발하신 한국어 띄어쓰기 모델 Trainable Korean spacing (TaKos) 을 간략하게 테스트해보고자 한다. 자연어처리에서는 텍스트를 토큰 단위로 구분하여 다루는데, 가장 쉬운 토크나이징 방법은 띄어 쓴 단어를 구분하는 것 한국어의 경우 띄어쓰기는 텍스트의 의미를 구분하는 데 큰 영향을 줌 Reference takos-alpha 한국어 띄어쓰기 프로그램 도전기 Install git clone https://github.com/Taekyoon/takos-alpha.git pip install -r requirements python setup.py install Requirements packages torch numpy pandas..
OpenNMT-py Step 1: Prepare the data 사용할 데이터 지정은 .yaml 구성 파일에 작성 toy_en_de.yaml ## 샘플 생성 위치 save_data: toy-ende/run/example ## 어휘 생성 위치 src_vocab: toy-ende/run/example.vocab.src tgt_vocab: toy-ende/run/example.vocab.tgt # 기존 파일 덮어쓰기 방지 overwrite: False # Corpus opts: data: corpus_1: path_src: toy-ende/src-train.txt path_tgt: toy-ende/tgt-train.txt valid: path_src: toy-ende/src-val.txt path_tgt: t..
지도학습을 위한 데이터 샘플링 지도학습과 비지도학습(이동) 1. Train data set, Test data set 으로 분리Train Data = 모델의 훈련을 위한 훈련용 데이터Test Data = 모델을 평가하기 위해 정답(결과)을 이미 알고있는 테스트용 데이터 *) caret::createDataPartition() 함수를 사용한 샘플링 가장 좋은 샘플링 방법 !!!# sampleBy 도 균등 샘플링이 가능하지만, 나머지 30%의 test data를 저장하기 위해 train data의 행 번호를 추출해야하는 번거로움이 있습니다. createDataPartition 함수는 이 모든 것을 한 번에 해결해준답니다.. Goood> library(caret)> rn train test table(trai..