본문 바로가기
반응형

분류 전체보기135

주성분분석(PCA) 주성분분석(PCA)은 수치형 변수가 어떤 식으로 공변하는 지 알아내는 기법 용어정리 - 주성분 : 예측변수들의 선형결합 - 부하(loading) : 예측변수들을 성분으로 변형할 때 사용되는 가중치 - 스크리그래프 : 성분들의 변동을 표시한 그림. 성분들의 상대적인 중요도를 보여준다. 즉, 전체 변수들의 변동성을 거의 대부분 설명할 수 있느 적은 수의 변수들의 집합을 주성분이라고 한다. PCA는 선형판별분석의 비지도 학습 버전이라고도 할 수 있다. 가중치 (w1, w2)를 주성분의 부하 라고 한다. 주성분 분석을 할 때, 첫 번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두 번째 주성분으로는 첫 번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실 없이 가장 많이 설명할 수 있도록 변.. 2020. 12. 31.
Keyword Extract using KeyBERT 긴 문장에서 중요한 키워드만을 뽑아내기 위해 조사하던 중 BERT를 이용한 keybert를 발견했다. KeyBERT는 이곳을 참고했다. https://github.com/MaartenGr/KeyBERT MaartenGr/KeyBERT Minimal keyword extraction with BERT. Contribute to MaartenGr/KeyBERT development by creating an account on GitHub. github.com 설치는 간단하다 pip install keybert BERT embedding방법으로는 Flair, Huggingface Transformers, spaCy 가 있으나 이 모델에서는 sentence-transformers 패키지를 사용 이 keyber.. 2020. 12. 29.
TextRank를 이용하여 핵심 문장 추출하기 기사와 같은 긴 문장을 요약하기 위해 TextRank를 이용하였다. textrank를 사용하기 위해 참고한 곳이다. github.com/lovit/textrank lovit/textrank Implementation TextRank and related utils. Contribute to lovit/textrank development by creating an account on GitHub. github.com TextRank는 키워드 추출 기능과 핵심 문장 추출 기능, 두 가지를 제공한다. TextRank에서는 명사, 동사, 형용사와 같은 단어만 단어 그래프를 만드는 데 이용. 모든 종류의 단어를 이용하면 'a','the' 와 같은 단어들이 다른 단어들과 압도적인 co-occurrence 를 지니.. 2020. 12. 28.
VSCode로 ssh접속시 Password없이 접속 vscode를 ssh로 접속할 때마다 password를 반복적으로 입력해야 하는 불편함이 있다. 접속할 때만 입력하면 다행인데 폴더 이동할 때마다 입력하라고 하니 여간 불편한 게 아니었다. 이번에는 장장 4시간에 걸쳐서 해결한 방법을 최대한 자세히 기록하고자 한다. 윈도우 컴퓨터에서 보안키를 발급해서, 자주 사용하는 서버에 키 파일을 넣어두면 비밀번호를 입력하지 않아도 된다. 나중에 서버에서 키 파일을 삭제하면, 다시 비밀번호를 입력해야 한다. 그러면 키를 발급하는 방법부터 설명하도록 하겠다. WindowsPowerShell에 들어가서 ssh-keygen -t rsa -b 4096 을 입력한다. Enter file in which to save the key (C:\Users\(name)\.ssh\id_.. 2020. 12. 16.
GPT2 에서 문장을 생성 시 단어를 확률에 따라 선택하는 방법 GPT2 에서 문장을 생성 시, 마지막에 레이어를 하나 더 붙여 소프트 맥스로 출력 각 단어의 확률값이 나오게 됩니다. 여기에서 어떤 단어를 선택할 지에 대한 방법을 알아보았습니다. 출처 : jalammar.github.io/illustrated-gpt2/ 1. Greedy Search 탐욕적 기법으로 말 그대로 가장 높은 확률의 단어 하나만 고릅니다. 매우 간단하지만 선택되지 않은 단어 다음에 더 높은 확률의 단어가 있을 경우 찾을 수가 없습니다. 'The' 뒤에서 가장 높은 확률인 'nice'가 선택 되지만 ('The','dog','has') =0.4*0.9=0.36 으로 ('The','nice','woman')=0.5*0.4=0.2 보다 큰데도 불구하고 선택되지 않는 단점이 생기게 됩니다. 이를 보.. 2020. 12. 15.
SCP [Linux]SCP를 이용해 로컬과 원격에 파일 전송하기 SCP 명렁어 scp : secure copy(remotee file copy program)의 줄임말(네트워크로 연결된 호스트 간에 파일 주고 받기) local -> remote remote -> local remote -> remote 복사가 모두 가능 ssh를 이용하기 때문에 password 입력함 기본사용 문법 scp [options][source][target]기본형태 # Local -> Remote # linux ip주소 찾기 (ifconfig -> inet addr) scp 보낼파일(경로) 유저명@ip주소:목적디렉토기# Remote -> Local scp 유저명@ip주소:파일디렉토리 목적파일명(경로)# Remote(Source) -> .. 2020. 12. 14.
반응형