- 01. 정보검색(IR , Information Retrieval)
- 02. 정보추출(IE, Information Extraction)
- 03. 음성인식(STT, Speech-to-text or Speech Recognition)
- 04. 단어분류(Word Classification)
- 05. 품사태깅(POS, Part-Of-Speech Tagging)
- 06. 개체명 인식(Named Entity Recognition)
- 07. 중의성 해소(Word Sense Disambiguation or Word Sense Induction)
- 08. 구문 분석(Setence Parsing or Syntactic Analysis)
- 09. 문장/문서 분류(Sentence/Document Classification)
- 10. 감정 분석(Sentiment Analysis or Opinion Mining)
- 11. 의미역 결정(Semantic Role Labeling)
- 12. 자동 대화 시스템(Dialogue System 또는 Dialogue Manager)
- 13. 질의 응답(Question Answering)
- 14. 기계 번역(MT, Machine Translation)
- 1. 규칙/패턴 기반 방법론
- 2. 예시/검색 기반 방법론
- 3. 통계 기반 방법론
- 4. 인공신경망 기반 방법론
01. 정보검색(IR , Information Retrieval)
구글로 대표되는 검색 엔진을 만드는 학문.
최근 10년간 가장 빠르게 발전하였고, 돈도 많은 분야. 그 만큼 많은 연구자/회사들이 달려들어 하고 있어 후발주자로 입문하기 굉장히 빡세다
넓은 의미로는 수 많은 문서 중에서 유저가 원하는 문서를 빠른 속도로 찾아내는 과정
02. 정보추출(IE, Information Extraction)
비정형의 문서로부터 정규화된 정보를 뽑아내는 기술, 크게 개체명 인식(NER)과 관계 추출(relation extraction)으로 나뉘어진다. 예를 들어 위키피디아 문서에서 사람, 회사 이름을 뽑아내고, 뽑힌 개체간의 관계(소속, 이직 등)를 추출하는 것이 있다.
03. 음성인식(STT, Speech-to-text or Speech Recognition)
컴퓨터가 인간의 음성 언어를 이해하게 만드는 학문 분야. 대표적인 예로 Siri의 음성 인식 부분.
음성 인식 분야에서 Speech Recognition과 Speech-to-text (STT)는 살짝 구분되는데, Speech Recognition이 컴퓨터가 인간의 음성 언어를 이해하는 것까지 목표로 삼는다면, STT는 인간의 음성 언어를 문자 언어로 변환 시키는 것 만을 목표로 삼는다. 즉, Siri가 Speech Recognition 시스템이라면, 청각 장애인을 위하여 소리를 글자로 화면에 표시해주는 기술은 STT.
04. 단어분류(Word Classification)
문장 내 각 단어들의 카테고리를 목적에 따라 컴퓨터가 자동으로 분류하는 학문. 목적에 따라 아래와 같은 종류로 나뉘며 주로 HMM, CRF, 딥 러닝 등 기계학습 방법들이 사용된다.
05. 품사태깅(POS, Part-Of-Speech Tagging)
주어진 문장의 단어들의 품사가 무엇인지 컴퓨터가 자동으로 인식하는 학문. 한국어나 일본어처럼 형태학적으로 풍부한 언어들은 사전에 형태소 분석 과정이 필요하다. 주로 기계 번역/감정 분석/구문 분석 등 과정의 전처리 과정으로 사용된다.
06. 개체명 인식(Named Entity Recognition)
문장 내 인명, 지명과 같은 고유명사들을 인식/분류하는 과정.
07. 중의성 해소(Word Sense Disambiguation or Word Sense Induction)
한 단어가 여러 의미가 있을 경우 문맥에 맞는 의미를 컴퓨터가 자동으로 인식하는 과정.
08. 구문 분석(Setence Parsing or Syntactic Analysis)
문장의 구조, 의존 구조 등 구조를 컴퓨터가 자동으로 인식하는 학문. 언어학적 개념/목적에 의해 구구조 구문 분석(Structural Parsing)과 의존 구문 분석(Dependency Parsing)으로 나뉜다. 주로 기계 번역/감정 분석/대화 시스템 등 과정의 전처리 과정으로 사용된다.
09. 문장/문서 분류(Sentence/Document Classification)
한 문장/문서가 어떤 분류/카테고리에 속하는지 컴퓨터가 자동으로 분류하는 학문. 예를 들면 카테고리가 컴퓨터/스포츠/시사/연예가 있으면 포털사이트의 모 기사가 어떤 카테고리에 해당되는지 분류하는 과정.
10. 감정 분석(Sentiment Analysis or Opinion Mining)
한 문장이 어떤 의도/감정을 나타내고 있는지 컴퓨터가 자동으로 분류하는 학문. 예를 들면 영화평론사이트에서 남겨진 유저댓글이 해당 영화에 대해 긍정/부정으로 평가했는지 분류하는 과정. 목적/결과물에 따라 문장 분류에 포함되기도 한다. 완전히 문장 분류에 해당될 수 없는 이유는 일부 감성분석 task는 단순 분류가 아니라 감정 트리(sentiment tree)를 만들어내는 것이기 때문이다.
최근에 인공신경망 기법이 큰 폭의 성능향상으로 주목을 받고 있다.
11. 의미역 결정(Semantic Role Labeling)
문장에서 주어, 목적어가 무엇인지, 그들의 의미적 관계가 어떠한지 컴퓨터가 자동으로 결정해주는 과정. 주로 자동 대화 시스템에서 사용된다.
이론언어학의 의미론 (그 중에서도 특히 형식의미론) 및 통사론이 많이 개입되는 분야이다.
12. 자동 대화 시스템(Dialogue System 또는 Dialogue Manager)
유저가 입력/말 한 문장에 대해 컴퓨터가 자동으로 가장 적합한 문장을 생성하여 보여주거나 음성으로 전환하여 "대화"를 시뮬레이션 하는 학문을 말한다. 온라인 채팅 봇, Siri등이 해당 기술을 이용하였다. 유저의 의도를 파악하는것이 관건이고 감정 분석/의미역 결정 과정이 전처리 과정으로 사용된다. 학습에는 주로 HMM기반 기계학습 방법론이 사용된다.
13. 질의 응답(Question Answering)
자동 대화 시스템의 간략화한 버전으로 질문만을 답하게 되어있다. IBM에서 개발하여 퀴즈방송에서 1위를 차지한 왓슨이 이에 해당된다.
14. 기계 번역(MT, Machine Translation)
언어 A로 되어있는 글을 언어 B로 자동으로 바꾸는 것을 연구하는 분야.
- 1. 규칙/패턴 기반 방법론
- 2. 예시/검색 기반 방법론
- 3. 통계 기반 방법론
- 4. 인공신경망 기반 방법론
출처 : 자연 언어 처리 - 나무위키 (namu.wiki)