Subword Modeling 개요 자연어처리 모델을 훈련할 때 tokenizing 된 단어의 개수(단어사전, vocab)는 모델 성능에 다양한 영향을 미치게 된다. 여기서 특히 OOV 문제는 굉장한 이슈거리이다. OOV(Out-Of-Vocabulary) 또는 UNK(Unknown Token) 기계가 모르는 단어로 인해 문제를 푸는 것이 까다로워지는 상황 -> OOV 문제 특히 한국어의 경우 형태소 분석기를 많이 사용하는데, OOV 문제 해결을 위해 사용자 단어 사전을 만들어주기도 한다. -> 하지만, 엄청난 노가다 작업이 필요하다. 이러한 상황들을 해결하기 위해 나온 것이 Subword Segmentation 서브워드 분리 작업은 하나의 단어는 더 작은 단위의 의미있는 여러 subword(책+가방)의 ..
Wikipedia 국/영문 데이터 수집/분석 자연어 처리를 위해 wikipedia 데이터를 활용해보자. Download Wiki dump file https://dumps.wikimedia.org/kowiki/latest/ https://dumps.wikimedia.org/kowiki/latest/kowiki-latest-pages-articles.xml.bz2 2021/07 기준 데이터 : 1208126 건 https://dumps.wikimedia.org/enwiki/latest/ https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 2021/07 기준 데이터 : 15839021 건 pages-articles.xm..