[자연어처리] Subword Tokenizer (BPE, SentencePiece, Wordpiece Model)
Subword Modeling 개요 자연어처리 모델을 훈련할 때 tokenizing 된 단어의 개수(단어사전, vocab)는 모델 성능에 다양한 영향을 미치게 된다. 여기서 특히 OOV 문제는 굉장한 이슈거리이다. OOV(Out-Of-Vocabulary) 또는 UNK(Unknown Token) 기계가 모르는 단어로 인해 문제를 푸는 것이 까다로워지는 상황 -> OOV 문제 특히 한국어의 경우 형태소 분석기를 많이 사용하는데, OOV 문제 해결을 위해 사용자 단어 사전을 만들어주기도 한다. -> 하지만, 엄청난 노가다 작업이 필요하다. 이러한 상황들을 해결하기 위해 나온 것이 Subword Segmentation 서브워드 분리 작업은 하나의 단어는 더 작은 단위의 의미있는 여러 subword(책+가방)의 ..
Python
2021. 10. 12. 21:21