프로젝트

[프로젝트] 카톡 채팅 대화 중 폭력성이 담긴 문장은 얼마나 있을까?

ThLee 2022. 8. 11. 15:42

728x90

공동 깃허브 (원본 깃허브)

https://github.com/NLP-yd10/CheckViolence

GitHub - NLP-yd10/CheckViolence: code

code. Contribute to NLP-yd10/CheckViolence development by creating an account on GitHub.

github.com

개인 것허브 (추가적인 정리 및 코드 추가)

https://github.com/git-ThLee/PJT_Determining_Violence_in_Chat

GitHub - git-ThLee/PJT_Determining_Violence_in_Chat

Contribute to git-ThLee/PJT_Determining_Violence_in_Chat development by creating an account on GitHub.

github.com

PJT_Determining_Violence_in_Chat

Pytorch 사용

참여자

이름	깃허브	성과
정준녕	깃허브	bert모델 base라인 구현 flask 구현
정새롬	깃허브	ko-bert모델 추가 텍스트전처리
이정훈	깃허브	PM PPT, 발표 wandB 연동
이태훈(나)	깃허브	형태소분석기 성능비교 텍스트전처리

기획

학교에서 사이버 폭력이 증가하는 속도에 비해 처벌 및 사이버 폭력 파악이 어려움
카카오톡 채팅 기록을 통해 채팅 내용 속의 폭력성을 판단하여, 보호자(학부모)에게 폭력성을 알려줌
1. 채팅 내용간 폭력성이 높게 나오면, 사이버 폭력을 의심할 수 있음
2. 사이버 폭력이 아니더라도, 자녀와 친구들 사이의 내용이 폭력성이 높음을 인지할 수 있음

사용 툴

사용 툴	목적
깃허브	개발 코드 공유용
구글드라이브(공유)	기획서 및 PPT 등 파일 공유용
슬랙	소통 및 회의용
코랩(무료,유료)	딥러닝 모델 학습을 위한 개발 환경

사용 데이터

텍스트 윤리검증
- 출처 : AI-Hub
- 사이트 : 텍스트윤리검증
- 파일 형식 : json
- 데이터 수 : 약 36만개
- 용도 : 모델 학습용
한국어 혐오표현 데이터셋
- 출처 : Smilegate(github)
- 사이트 : Smilegate
- 파일 형식 : tsv
- 데이터 수 : 약 1만 5천개
- 용도 : 모델 학습용
DC 인사이드 댓글 크롤링
- 파일 형식 : txt
- 용도 : 폭력성 높은 채팅 데이터 생성용(test용)

기간

7월 25일(월) ~ 8월 5일(금)
2주

형태소 분석기 사용에 따른 성능 향상 결과

형태소 분석기 미사용 : 0.48
형태소 분석기 사용 : 0.62

형태소 분석기 성능 평가를 통해 0.48 -> 0.62 약 14% 성능 향상을 시켰음

(이건 내가 한거라 쓴다 ㅎㅎ)

프로세스

구현 결과 예시 화면(Flask)

프로세스

728x90