본문 바로가기 메뉴 바로가기

Data Makes Our Future

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

Data Makes Our Future

검색하기 폼
  • 분류 전체보기 (740)
    • Data (18)
      • Statistics (10)
      • Analysis (8)
    • SQL (24)
      • Organize (3)
      • Install (2)
    • R (58)
      • Collection (4)
      • Process (33)
      • Analysis (11)
      • Visualize (4)
      • Install (3)
    • Python (56)
      • Collection (10)
      • Process (27)
      • Visualize (2)
      • Install (3)
    • Web (164)
      • API (16)
      • Spring (58)
      • JAVA (49)
      • Infra (11)
    • PS (366)
      • Algorithm (45)
      • Problem_Solving (311)
      • PS_Note (7)
    • Books (35)
    • ADsP (4)
    • eTc (15)
  • 방명록

Subword (1)
[자연어처리] Subword Tokenizer (BPE, SentencePiece, Wordpiece Model)

Subword Modeling 개요 자연어처리 모델을 훈련할 때 tokenizing 된 단어의 개수(단어사전, vocab)는 모델 성능에 다양한 영향을 미치게 된다. 여기서 특히 OOV 문제는 굉장한 이슈거리이다. OOV(Out-Of-Vocabulary) 또는 UNK(Unknown Token) 기계가 모르는 단어로 인해 문제를 푸는 것이 까다로워지는 상황 -> OOV 문제 특히 한국어의 경우 형태소 분석기를 많이 사용하는데, OOV 문제 해결을 위해 사용자 단어 사전을 만들어주기도 한다. -> 하지만, 엄청난 노가다 작업이 필요하다. 이러한 상황들을 해결하기 위해 나온 것이 Subword Segmentation 서브워드 분리 작업은 하나의 단어는 더 작은 단위의 의미있는 여러 subword(책+가방)의 ..

Python 2021. 10. 12. 21:21
이전 1 다음
이전 다음
최근에 올라온 글
최근에 달린 댓글
링크
  • Gitbook
  • resume
Total
Today
Yesterday
TAG
  • spring
  • java
  • Algorithm
  • BFS
  • PYTHON
  • R
  • 백준
  • dp
  • coding
  • DFS
  • 시뮬레이션
  • DATA
  • C
  • c++
  • BOJ
more

Blog is powered by Tistory / Designed by Tistory

티스토리툴바