728x90
형태소 분석기 성능 비교
Konlpy간 성능 비교(okt, kkma, komoran, hannanum, mecab)
- 성능 순위 : mecab > komoran > kkma > hannanum > okt
- 속도 순위 : mecab >>> kkma > okt > hannanum > komoran
(komoran이 속도가 유독 느린 이유 : "요시요시요시" 같은 반복되는 문장을 분석하는데 긴 시간이 소요된다. 가끔 메모리가 터지기도 한다) - 최종 결과 : mecab
- 이유 : 성능도 준수하며, 속도 측면에서 큰 장점을 갖는다.(web에서 형태소분석하는데 오래걸리면 안되서 속도가 큰 장점으로 생각한다)
mecab 사용 품사간 성능 비교
- 사용 품사 3분류
- 체언, 용언
- 체언, 용언, 관형사, 부사
- 체언, 용언, 관형사, 부사, 조사
- 결과
- 품사가 많을수록 학습성능이 향상됨을 알 수 있다
- 감탄사, 영어, 숫자 등은 텍스트전치리 과정에서 제거됨에 따라 품사를 제외함
mecab vs khaiii(카이) vs kiwi간 성능 비교
- 간단 설명
- khaiii(카이) : 카카오에서 만든 형태소분석기
- kiwi : 지능형 한국어 형태소 분석기 , 빠른 속도와 범용적인 성능을 갖는다
- 결과
- 속도 : mecab > khaiii > kiwi
- 성능 : 큰 차이가 없음. 속도가 중요한 판단요소가 된다
BERT vs KR-BERT 모델 성능 비교
- 형태소분석기
- mecab
- khaiii
- kiwi
- bert vs kr-bert 성능 비교
- 성능 : kr-bert > bert
- 속도 : 테스트 실패함
- 실패 이유 : web(flask)에서 두 모델의 속도를 비교할 계획이였지만, bert모델은 문제 없지만, kr-bert모델이 문제가 발생함
728x90