728x90
공동 깃허브 (원본 깃허브)
https://github.com/NLP-yd10/CheckViolence
개인 것허브 (추가적인 정리 및 코드 추가)
https://github.com/git-ThLee/PJT_Determining_Violence_in_Chat
PJT_Determining_Violence_in_Chat
Pytorch 사용
참여자
이름 | 깃허브 | 성과 |
---|---|---|
정준녕 | 깃허브 | bert모델 base라인 구현 flask 구현 |
정새롬 | 깃허브 | ko-bert모델 추가 텍스트전처리 |
이정훈 | 깃허브 | PM PPT, 발표 wandB 연동 |
이태훈(나) | 깃허브 | 형태소분석기 성능비교 텍스트전처리 |
기획
- 학교에서 사이버 폭력이 증가하는 속도에 비해 처벌 및 사이버 폭력 파악이 어려움
- 카카오톡 채팅 기록을 통해 채팅 내용 속의 폭력성을 판단하여, 보호자(학부모)에게 폭력성을 알려줌
- 채팅 내용간 폭력성이 높게 나오면, 사이버 폭력을 의심할 수 있음
- 사이버 폭력이 아니더라도, 자녀와 친구들 사이의 내용이 폭력성이 높음을 인지할 수 있음
사용 툴
사용 툴 | 목적 |
---|---|
깃허브 | 개발 코드 공유용 |
구글드라이브(공유) | 기획서 및 PPT 등 파일 공유용 |
슬랙 | 소통 및 회의용 |
코랩(무료,유료) | 딥러닝 모델 학습을 위한 개발 환경 |
사용 데이터
- 텍스트 윤리검증
- 출처 : AI-Hub
- 사이트 : 텍스트윤리검증
- 파일 형식 : json
- 데이터 수 : 약 36만개
- 용도 : 모델 학습용
- 한국어 혐오표현 데이터셋
- 출처 : Smilegate(github)
- 사이트 : Smilegate
- 파일 형식 : tsv
- 데이터 수 : 약 1만 5천개
- 용도 : 모델 학습용
- DC 인사이드 댓글 크롤링
- 파일 형식 : txt
- 용도 : 폭력성 높은 채팅 데이터 생성용(test용)
기간
- 7월 25일(월) ~ 8월 5일(금)
- 2주
형태소 분석기 사용에 따른 성능 향상 결과
- 형태소 분석기 미사용 : 0.48
- 형태소 분석기 사용 : 0.62
형태소 분석기 성능 평가를 통해 0.48 -> 0.62 약 14% 성능 향상을 시켰음
(이건 내가 한거라 쓴다 ㅎㅎ)
프로세스
구현 결과 예시 화면(Flask)
프로세스
728x90