sklearn

    TF-IDF 해석 방법(+ 예제, 실험)

    글을 작성하는 이유 😃 데이콘에서 "문장 유형 분류 AI 경진대회"에서 베이스라인으로 공유한 ipynb 코드 중에서 TF-IDF가 있었다. TF-IDF가 무엇이며, 왜하는지, 어떻게 해석하는지 궁금증을 해소하기 위해 작성한다. TF-IDF(Term Frequency - Inverse Document Frequency)는 무엇인가? 🤔 특정 단어가 특정 문서에서 얼마나 중요한 것인지를 나타내기 위해 사용되는 수치이다. 특정 문서에서 핵심어를 추출하거나, 검색엔진에서 검색 결과의 순위를 결정 또는 문서들 사이의 비슷한 정도를 구하는 용도로 사용할 수 있다. (1) TF(d,t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수. (2) DF(t) : 특정 단어 t가 등장한 문서의 수. 예를들어, 바나나는 문..