전체 글
[CloudFlare] "CloudFlare + 가비아" 도메인 구입 및 적용하기
# 목차 준비과정 CloudFlare 배포하기 가비아 회원가입 도메인 구매 도메인 검색해보기 도메인 구입하기 도메인 등록하기 구매한 도메인 들어가기 도메인 정보 변경 - 도메인 클릭 네임서버 변경하기 CloudFlare 도메인 등록하기 1. 준비과정 1.1 CloudFlare 배포하기 CloudFlare는 이미 배포되었다는 가정으로 진행하겠습니다 1.2 가비아 회원가입 가비아 회원가입은 어려움이 없으니 생략하겠습니다 2. 도메인 구매 2.1 도메인 검색해보기 원하시는 도메인을 검색해주세요( 예를 들어, never 만 검색하시면 됩니다) 제가 구매한 도메인 thleewave로 검색해보겠습니다 검색을 하시고 원하시는 도메인을 선택해주세요 저는 thleewave.com을 선택하겠습니다 (등록이 완료되면 www..
[오픈톡-프로그래밍 알려드림]
언어: 스크래치 소개 스크래치는 MIT에서 만든 블록 코딩 프로그램으로, 초등학생부터 중학생까지 쉽게 배울 수 있는 언어입니다. 그러나 프로그래밍을 처음 배울 때에는 어려운 점이 많아 문제를 해결하기가 어려울 수 있습니다. 이번에는 스크래치에서 발생하는 문제점과 해결 방법에 대해 살펴보겠습니다. 문제점: 게임오버 후 미로화면으로 넘어가지 않는 문제 스크래치로 게임을 만들다보면 게임오버 후 다시 시작하려면 스페이스바를 눌러야 합니다. 하지만 게임오버 후 스페이스바를 눌러도 미로화면으로 넘어가지 않는 경우가 있습니다. 이 문제를 해결하기 위해서는 어떻게 해야 할까요? 해결 방법: 모두 멈추기 블록 제거하기 해결 방법은 간단합니다. 스크래치에서는 게임오버 시 "오버" 신호를 보내게 됩니다. 그러나 스페이스바로..
base line [데이콘 제공] 코드 리뷰
https://dacon.io/competitions/official/236037/codeshare/7260?page=1&dtype=recent [Baseline] TfidfVectorizer + MLP 문장 유형 분류 AI 경진대회 dacon.io 사용 환경 코랩 cpu 기준 : 10 epochs 7분 소요(학습) 결과 : 0.5343 (base line 변경없이, 10 epochs) 순서 마운트 & 임포트 하이퍼파라미터 설정 Seed 설정 Data load Train test split Processing(전처리) 문장(Text) 벡터화 Label Encoding(유형,극성,시제,확실성) DataSet & DataLoader Model Train 함수 Valid 함수 Run!! Inference Su..
TF-IDF 해석 방법(+ 예제, 실험)
글을 작성하는 이유 😃 데이콘에서 "문장 유형 분류 AI 경진대회"에서 베이스라인으로 공유한 ipynb 코드 중에서 TF-IDF가 있었다. TF-IDF가 무엇이며, 왜하는지, 어떻게 해석하는지 궁금증을 해소하기 위해 작성한다. TF-IDF(Term Frequency - Inverse Document Frequency)는 무엇인가? 🤔 특정 단어가 특정 문서에서 얼마나 중요한 것인지를 나타내기 위해 사용되는 수치이다. 특정 문서에서 핵심어를 추출하거나, 검색엔진에서 검색 결과의 순위를 결정 또는 문서들 사이의 비슷한 정도를 구하는 용도로 사용할 수 있다. (1) TF(d,t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수. (2) DF(t) : 특정 단어 t가 등장한 문서의 수. 예를들어, 바나나는 문..
Skip-gram
Skip-gram이란? Skip-gram는 Word2Vec의 방식 중 하나이다. CBOW는 중심에 있는 단어를 가지고, 주변에 있는 단어들을 예측하는 방법이다. 앞서 언급한 동일한 예문에 대해서 인공 신경망을 도식화해보면 위와 같다. 이제 중심 단어에 대해서 주변 단어를 예측하기 때문에, 투사층에서 벡터들의 평균을 구하는 과정은 없다. 여러 논문에서 성능 비교를 진행했을 때, 전반적으로 Skip-gram이 CBOW보다 성능이 좋다고 알려져 있다.
CBOW(Continuous Bag of Words)
CBOW란? CBOW는 Word2Vec의 방식 중 하나이다. CBOW는 주변에 있는 단어들을 가지고, 중간에 있는 단어들을 예측하는 방법이다. 예문 : "The fat cat sat on the mat" {"The", "fat", "cat", "on", "the", "mat"}으로부터 sat을 예측하는 것은 CBOW가 하는 일("sat"이 빠져있음)이다. 예측해야하는 단어 "sat"은 중심단어(center word)라고 하고, 예측에 사용되는 주변 단어(context word)라고 한다. 중심 단어(sat)을 예측하기 위해서 앞, 뒤로 몇 개의 단어를 볼지를 결정했다면 이 범위를 윈도우(window)라고 한다. 예를 들어, 윈도우 크기가 2이고, 예측하고자 싶은 단어가 sat이라면 앞의 두 단어(fat,..
워드투벡터(Word2Vec)
워드투벡터 실험 공간 사이트 Korean Word2Vec ABOUT 이곳은 단어의 효율적인 의미 추정 기법(Word2Vec 알고리즘)을 우리말에 적용해 본 실험 공간입니다. Word2Vec 알고리즘은 인공 신경망을 생성해 각각의 한국어 형태소를 1,000차원의 벡터 스페이 word2vec.kr 고양이 + 애교 = 강아지 한국 - 서울 + 도쿄 = 일본 박찬호 - 야구 + 축구 = 호나우두 분산 표현(Distributed Prpresentation) 희소 표현(sparse representation) 방법은 하나의 값만 1이고, 나머지는 전부 0으로 표현되는 벡터 표현 방법이다. 원-핫 인코딩을 통해서 생성된다. 분산 표현(distributed representation) 방법은 기본적으로 분포 가설(di..
워드 임베딩(Word Embedding)
시작하기 앞서 "원-핫 인코딩의 한계"를 다시 한번 말씀드리겠습니다. 1. 벡터를 저장하기 위해 필요한 공간이 계속 늘어난다 2. 단어의 유사도를 표현하지 못한다 원핫 인코딩의 단점을 보완하기 위해 나온 것이 "워드 임베딩"입니다. 워드 임베딩(Word Embedding)이란 ? 단어를 밀집 벡터(dense vector)의 형태로 표현하는 방법을 워드 임베딩이라고 합니다. 워드 임베딩 과정을 통해 나온 결과를 임베딩 벡터(embedding vector)라고도 합니다 - 원-핫 벡터 임베딩 벡터 차원 고차원(단어 집합의 크기) 저차원 다른 표현 희소 벡터의 일종 밀집 벡터의 일종 표현 방법 수동 훈련 데이터로부터 학습함 값의 타입 1과 0 실수 워드 임베딩의 종류 LSA Word2Vec FastText G..
NLP에서 원-핫 인코딩(One-hot encoding)이란?
원-핫 인코딩을 해야하는 이유? 컴퓨터는 문자보다는 숫자를 더 잘 처리 할 수 있다. 그렇기에 NLP에서는 문자를 수자로 바꾸는 여러가지 기법들이 있다. 그 중 원-핫 인코딩(One-hot Encoding)이 가장 기본적인 표현 방법이며, 머신러닝과 딥러닝을 위해서는 반드시 배워야하는 방법이다. 단어 사전(vocabulary)란 ? 단어 사전은 서로 다른 단어들의 집합이다. book 과 books는 다른 단어로 간주되며, 텍스트의 모든 단어의 중복을 허용하지 않고 모아 놓은 것이다. 텍스트에 단어가 총 5,000개가 존재한다면, 단어 사전의 크기는 5,000이 된다. 5,000개의 단어가 있는 단어 사전은 각 단어들마다 1번~5,000번까지 인덱스를 부여한다. 예를 들어, book은 150번, dog는 ..
[알고리즘] 입력 속도 비교 ( Python3, Pypy3) - input() vs sys.stdin.readline()
백준을 풀다보면 의문인 점이 생긴다. 알고리즘에 따라 결과가 나와야하는데, 가끔 똑같은 알고리즘인데 코드 몇 줄 바꾼다고 결과가 달라지는 경우가 있다. 많은 사람들이 고통 받는 "시간초과"가 이에 해당한다. 만약, 시간초과가 뜨신다면 다음과 같은 방식으로 코드를 수정해보세요. 1. Python3 대신 Pypy3로 변경해서 제출하기 처음엔 Pypy3가 Python3과 다른 언어인줄 알았습니다. 뭐 사실 같은 언어는 아니죠... Python에서 돌아가는 대부분의 코드가 pypy에서도 돌아가요. 그리고 속도는 pypy가 훨씬 빠르죠.(백준에서는 빠른게 짱이니까...) 사실 pypy3로 바꿔서 내면 시간초과 문제를 해결하는데 큰 도움이 됩니다. 하지만, 실무에서 그러면 안되겟죠? 그래서 저는 정답 유무 확인용으..