728x90
시작하기 앞서 "원-핫 인코딩의 한계"를 다시 한번 말씀드리겠습니다.
1. 벡터를 저장하기 위해 필요한 공간이 계속 늘어난다
2. 단어의 유사도를 표현하지 못한다
원핫 인코딩의 단점을 보완하기 위해 나온 것이 "워드 임베딩"입니다.
워드 임베딩(Word Embedding)이란 ?
단어를 밀집 벡터(dense vector)의 형태로 표현하는 방법을 워드 임베딩이라고 합니다.
워드 임베딩 과정을 통해 나온 결과를 임베딩 벡터(embedding vector)라고도 합니다
- | 원-핫 벡터 | 임베딩 벡터 |
---|---|---|
차원 | 고차원(단어 집합의 크기) | 저차원 |
다른 표현 | 희소 벡터의 일종 | 밀집 벡터의 일종 |
표현 방법 | 수동 | 훈련 데이터로부터 학습함 |
값의 타입 | 1과 0 | 실수 |
워드 임베딩의 종류
- LSA
- Word2Vec
- FastText
- Glove
728x90
'자연어처리(NLP)' 카테고리의 다른 글
TF-IDF 해석 방법(+ 예제, 실험) (0) | 2023.01.05 |
---|---|
Skip-gram (0) | 2022.12.16 |
CBOW(Continuous Bag of Words) (2) | 2022.12.16 |
워드투벡터(Word2Vec) (0) | 2022.12.16 |
NLP에서 원-핫 인코딩(One-hot encoding)이란? (0) | 2022.12.16 |