Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- 정칙행렬
- NMT
- one-hot vector
- Linear Algebra
- 데이터프레임
- sigmoid
- DataFrame
- 프로그래머를 위한 선형대수
- SVD
- 동시발생 행렬
- Python
- 신경망 학습
- 밑바닥부터 시작하는 딥러닝
- 자연어처리
- ReLU
- 선형대수학
- 딥러닝
- 벡터간 유사도
- NLP
- Transformer
- 밑바닥부터 시작하는 딥러닝2 2장
- RNN
- PPMI
- 연립일차방정식
- word embedding
- machine translation
- 판다스
- word2vec
- pandas
- 역행렬
Archives
- Today
- Total
목록Tokenization (1)
생각하는감자
Tokenization
Tokenization이란, text를 더 작은 조각인 token으로 분리하는 과정을 의미한다. Tokenizers Word based Tokenizer Character based Tokenizer Subword based Tokenizer *결과적으로 subword based tokenizer을 사용한다. Word based Tokenizer 말 그대로 "단어"단위로 쪼개는 것을 의미한다. 예를 들어 input으로 ['The deveil is in the details.']라고 들어온다면 output은 ['The', 'devil', 'is', 'in', 'the', 'details', '.']로 출력된다. 이 tokenizer를 사용하게 되면 메모리 문제가 발생하고 vocabulary size가 작으..
NLP
2023. 1. 12. 16:15