Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- ReLU
- 동시발생 행렬
- 딥러닝
- 밑바닥부터 시작하는 딥러닝2 2장
- word embedding
- word2vec
- 정칙행렬
- 프로그래머를 위한 선형대수
- 데이터프레임
- 벡터간 유사도
- NLP
- pandas
- 판다스
- NMT
- RNN
- Python
- 역행렬
- 선형대수학
- 자연어처리
- machine translation
- DataFrame
- 신경망 학습
- PPMI
- Transformer
- Linear Algebra
- 밑바닥부터 시작하는 딥러닝
- 연립일차방정식
- sigmoid
- one-hot vector
- SVD
Archives
- Today
- Total
목록layer normalization (1)
생각하는감자

기존 seq2 seq모델에는 한계점이 있었다. 인코더가 결과적으로 하나의 context vector를 만드는 과정에서 동일한 layer를 time step 횟수만큼 거쳐서 정보가 전달되어야 한다. 결과적으로 정보가 같은 모듈을 반복적으로 통과해 가면서 변질되고 유실될 수 있다는 것이다. 이를 보정하기 위해서 어텐션이 고안된 것이기도 하다. Transformer는, 어텐션을 RNN을 보정하기 위한 용도가 아니라 이것만으로 인코더와 디코더를 만들어보자라는 아이디어를 가지고 구현되었다. 즉, 기존 seq2seq의 구조인 인코더-디코더를 따르지만 이를 모두 attention만으로 구현한 모델인 것이다. RNN을 사용하지 않고, 인코더-디코더 구조를 설계하였지만 RNN보다 우수한 성능을 보여준다. Transfor..
NLP
2023. 1. 15. 18:35