일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- SVD
- NMT
- 동시발생 행렬
- sigmoid
- word2vec
- 판다스
- Transformer
- Linear Algebra
- Python
- PPMI
- 연립일차방정식
- 밑바닥부터 시작하는 딥러닝2 2장
- 밑바닥부터 시작하는 딥러닝
- 딥러닝
- RNN
- 정칙행렬
- 데이터프레임
- 벡터간 유사도
- machine translation
- ReLU
- 선형대수학
- NLP
- word embedding
- 프로그래머를 위한 선형대수
- DataFrame
- one-hot vector
- 역행렬
- 신경망 학습
- pandas
- 자연어처리
- Today
- Total
목록word embedding (3)
생각하는감자

GloVe : Global Vectors for Word Representation GloVe는 동일한 word pair에 대해 반복적인 계산을 하지 않기 위해 만들어졌다. 모든 word들의 입력 및 출력 벡터들의 모든 조합의 내적 값들을 다 계산해놓은 co-accurrence matrix를 먼저 만들고 이 행렬이 Ground Truth 에 해당하는 행렬과 근사적으로 같아야 한다는 것이 GloVe의 아이디어이다. 수식으로 표현하면 다음과 같다. i 는 모든 입력 단어이고 j 는 모든 출력단어이다. 이 부분부터 보자면, 해당 계산은 ground truth similarity를 의미한다. log함수의 특징 중 하나는 값이 크면 클수록 증가폭이 작아진다는 것인데, log 함수를 사용한 이유는, 값이 커진다고 ..

one-hot vector라는 것은 관련된 것만 1로 표현하고 다른것은 모두 0으로 표현하는 형태의 벡터를 의미한다. 예를들어, 혈액형 4가지를 표현한다고 하면,, A형, B형, AB형, O형이 있을때 각각을 1, 2, 3, 4 등의 숫자로 표현하면 어쩔 수 없이 분류간의 대소관계가 생기게 된다. 이를 범주형 변수라고도 하는데, 이를 word 를 embedding 하는 데에 사용하기에는 적합하지 않다. 대신, A형을 [1 0 0 0], B형을 [0 1 0 0] 의 형태로 표현한다면 대소관계를 만들지 않고 분류할 수 있게 되고 이때 [1 0 0 0]과 같은 벡터를 one-hot vector라고 하는 것이다. Word2Vec Algorithm 기본적인 아이디어는 coaccurance에 비례하여 벡터간의 거리..

Word Embedding ? → 단어를 벡터로 표현하는 것 → 비슷한 의미의 단어는 비슷한 벡터 표현을 가지며, 이들은 벡터 공간 상에서 비슷하게 위치한다. (= 서로의 거리가 짧음) Bag of Words Word2Vec GloVe 등이 있다. 1) Bag of Words text가 단어들의 가방으로 표현된다고 보는 것으로, 문법이나 단어의 순서를 고려하지 않고 빈도수를 저장한다. 저자의 의도가 단어의 사용여부와 그 빈도수에 의해 드러나는 것이라고 가정하는 것이다. Modeling BoW unique 한 단어들로 구성된 vocabulary를 만듦 각각의 단어를 one-hot vector로 인코딩함 : one-hot vector이라는 것은 vector상에서 자신과 관련된 곳만 1로 표현하고 나머지는 다..