NLP
base line [데이콘 제공] 코드 리뷰
https://dacon.io/competitions/official/236037/codeshare/7260?page=1&dtype=recent [Baseline] TfidfVectorizer + MLP 문장 유형 분류 AI 경진대회 dacon.io 사용 환경 코랩 cpu 기준 : 10 epochs 7분 소요(학습) 결과 : 0.5343 (base line 변경없이, 10 epochs) 순서 마운트 & 임포트 하이퍼파라미터 설정 Seed 설정 Data load Train test split Processing(전처리) 문장(Text) 벡터화 Label Encoding(유형,극성,시제,확실성) DataSet & DataLoader Model Train 함수 Valid 함수 Run!! Inference Su..
TF-IDF 해석 방법(+ 예제, 실험)
글을 작성하는 이유 😃 데이콘에서 "문장 유형 분류 AI 경진대회"에서 베이스라인으로 공유한 ipynb 코드 중에서 TF-IDF가 있었다. TF-IDF가 무엇이며, 왜하는지, 어떻게 해석하는지 궁금증을 해소하기 위해 작성한다. TF-IDF(Term Frequency - Inverse Document Frequency)는 무엇인가? 🤔 특정 단어가 특정 문서에서 얼마나 중요한 것인지를 나타내기 위해 사용되는 수치이다. 특정 문서에서 핵심어를 추출하거나, 검색엔진에서 검색 결과의 순위를 결정 또는 문서들 사이의 비슷한 정도를 구하는 용도로 사용할 수 있다. (1) TF(d,t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수. (2) DF(t) : 특정 단어 t가 등장한 문서의 수. 예를들어, 바나나는 문..
[NLP 프로젝트] 형태소분석기 성능 비교(okt,kkma,komoran,hannanum,mecab,khaiii,kiwi)
형태소 분석기 성능 비교 Konlpy간 성능 비교(okt, kkma, komoran, hannanum, mecab) 성능 순위 : mecab > komoran > kkma > hannanum > okt 속도 순위 : mecab >>> kkma > okt > hannanum > komoran (komoran이 속도가 유독 느린 이유 : "요시요시요시" 같은 반복되는 문장을 분석하는데 긴 시간이 소요된다. 가끔 메모리가 터지기도 한다) 최종 결과 : mecab 이유 : 성능도 준수하며, 속도 측면에서 큰 장점을 갖는다.(web에서 형태소분석하는데 오래걸리면 안되서 속도가 큰 장점으로 생각한다) mecab 사용 품사간 성능 비교 사용 품사 3분류 체언, 용언 체언, 용언, 관형사, 부사 체언, 용언, 관형사,..