자연어처리(NLP)

워드 임베딩(Word Embedding)

ThLee 2022. 12. 16. 11:26
728x90

시작하기 앞서 "원-핫 인코딩의 한계"를 다시 한번 말씀드리겠습니다.

1. 벡터를 저장하기 위해 필요한 공간이 계속 늘어난다

2. 단어의 유사도를 표현하지 못한다

 

원핫 인코딩의 단점을 보완하기 위해 나온 것이 "워드 임베딩"입니다.

 

워드 임베딩(Word Embedding)이란 ?

단어를 밀집 벡터(dense vector)의 형태로 표현하는 방법을 워드 임베딩이라고 합니다.
워드 임베딩 과정을 통해 나온 결과를 임베딩 벡터(embedding vector)라고도 합니다

 

- 원-핫 벡터 임베딩 벡터
차원 고차원(단어 집합의 크기) 저차원
다른 표현 희소 벡터의 일종 밀집 벡터의 일종
표현 방법 수동 훈련 데이터로부터 학습함
값의 타입 1과 0 실수

 

워드 임베딩의 종류

  1.  LSA
  2. Word2Vec
  3. FastText
  4. Glove
728x90