텍스트 전처리 및 토큰화:BPE, wordpiece, unigram 을 중심으로subword tokenization 비교
1주차 OT를 마치고, 이번주부터 자연어처리 강의의 본격적인 수업이 시작되었다! 이번주는 텍스트 전처리 및 토큰화-BPE, wordpiece, unigram 을 중심으로subword tokenization에 대해 다루었다.1.텍스트 전처리 과정텍스트 전처리는 보통 텍스트정제, 토큰화, 불용어 제거, 정규화, 서브워드 토큰화 과정을 거친다.(순서는 바뀔 수 있음) 대표적으로 사용하는 전처리 패키지는 다음과 같다.기본전처리:re, string토큰화 및 NLP 전처리:PyKoSpacing, NLTK, spaCy, Mecab, SOYNLP서브워드 토큰화:SentencePiece, BERT Tokenizer추가 기능 : TextBlob(감성분석), fastText(단어 임베딩), word2vec텍스트 정제텍스트 ..
2025. 3. 16.