프로젝트

[프로젝트] 카톡 채팅 대화 중 폭력성이 담긴 문장은 얼마나 있을까?

ThLee 2022. 8. 11. 15:42
728x90

공동 깃허브 (원본 깃허브)

https://github.com/NLP-yd10/CheckViolence

 

GitHub - NLP-yd10/CheckViolence: code

code. Contribute to NLP-yd10/CheckViolence development by creating an account on GitHub.

github.com

 

개인 것허브 (추가적인 정리 및 코드 추가)

https://github.com/git-ThLee/PJT_Determining_Violence_in_Chat

 

GitHub - git-ThLee/PJT_Determining_Violence_in_Chat

Contribute to git-ThLee/PJT_Determining_Violence_in_Chat development by creating an account on GitHub.

github.com

 


PJT_Determining_Violence_in_Chat

Pytorch 사용

참여자

이름 깃허브 성과
정준녕 깃허브 bert모델 base라인 구현
flask 구현
정새롬 깃허브 ko-bert모델 추가
텍스트전처리
이정훈 깃허브 PM
PPT, 발표
wandB 연동
이태훈(나) 깃허브 형태소분석기 성능비교
텍스트전처리

기획

  1. 학교에서 사이버 폭력이 증가하는 속도에 비해 처벌 및 사이버 폭력 파악이 어려움
  2. 카카오톡 채팅 기록을 통해 채팅 내용 속의 폭력성을 판단하여, 보호자(학부모)에게 폭력성을 알려줌
    1. 채팅 내용간 폭력성이 높게 나오면, 사이버 폭력을 의심할 수 있음
    2. 사이버 폭력이 아니더라도, 자녀와 친구들 사이의 내용이 폭력성이 높음을 인지할 수 있음

image


사용 툴

사용 툴 목적
깃허브 개발 코드 공유용
구글드라이브(공유) 기획서 및 PPT 등 파일 공유용
슬랙 소통 및 회의용
코랩(무료,유료) 딥러닝 모델 학습을 위한 개발 환경

사용 데이터

  1. 텍스트 윤리검증
    • 출처 : AI-Hub
    • 사이트 : 텍스트윤리검증
    • 파일 형식 : json
    • 데이터 수 : 약 36만개
    • 용도 : 모델 학습용
  2. 한국어 혐오표현 데이터셋
    • 출처 : Smilegate(github)
    • 사이트 : Smilegate
    • 파일 형식 : tsv
    • 데이터 수 : 약 1만 5천개
    • 용도 : 모델 학습용
  3. DC 인사이드 댓글 크롤링
    • 파일 형식 : txt
    • 용도 : 폭력성 높은 채팅 데이터 생성용(test용)

기간

  • 7월 25일(월) ~ 8월 5일(금)
  • 2주

형태소 분석기 사용에 따른 성능 향상 결과 

  • 형태소 분석기 미사용 : 0.48
  • 형태소 분석기 사용 : 0.62
형태소 분석기 성능 평가를 통해 0.48 -> 0.62 약 14% 성능 향상을 시켰음

(이건 내가 한거라 쓴다 ㅎㅎ)


프로세스

image


구현 결과 예시 화면(Flask)

image


프로세스

728x90