본문 바로가기
반응형

Data28

TextRank를 이용하여 핵심 문장 추출하기 기사와 같은 긴 문장을 요약하기 위해 TextRank를 이용하였다. textrank를 사용하기 위해 참고한 곳이다. github.com/lovit/textrank lovit/textrank Implementation TextRank and related utils. Contribute to lovit/textrank development by creating an account on GitHub. github.com TextRank는 키워드 추출 기능과 핵심 문장 추출 기능, 두 가지를 제공한다. TextRank에서는 명사, 동사, 형용사와 같은 단어만 단어 그래프를 만드는 데 이용. 모든 종류의 단어를 이용하면 'a','the' 와 같은 단어들이 다른 단어들과 압도적인 co-occurrence 를 지니.. 2020. 12. 28.
GPT2 에서 문장을 생성 시 단어를 확률에 따라 선택하는 방법 GPT2 에서 문장을 생성 시, 마지막에 레이어를 하나 더 붙여 소프트 맥스로 출력 각 단어의 확률값이 나오게 됩니다. 여기에서 어떤 단어를 선택할 지에 대한 방법을 알아보았습니다. 출처 : jalammar.github.io/illustrated-gpt2/ 1. Greedy Search 탐욕적 기법으로 말 그대로 가장 높은 확률의 단어 하나만 고릅니다. 매우 간단하지만 선택되지 않은 단어 다음에 더 높은 확률의 단어가 있을 경우 찾을 수가 없습니다. 'The' 뒤에서 가장 높은 확률인 'nice'가 선택 되지만 ('The','dog','has') =0.4*0.9=0.36 으로 ('The','nice','woman')=0.5*0.4=0.2 보다 큰데도 불구하고 선택되지 않는 단점이 생기게 됩니다. 이를 보.. 2020. 12. 15.
cdQA-annotator 데이터셋 구성 cdQA-annotator는 node.js기반으로 squad(korquad) 데이터셋을 쉽게 만들어주는 도구이다. github.com/cdqa-suite/cdQA-annotator cdqa-suite/cdQA-annotator ⛔ [NOT MAINTAINED] A web-based annotator for closed-domain question answering datasets with SQuAD format. - cdqa-suite/cdQA-annotator github.com paragraphs안에 context와 question과 answer를 넣어서 json을 만들 필요 없이 context만 잘 정리해서 넣어주면 된다. 실험삼아 wikipedia dataset을 불러와서 csv로 저장한 후 py.. 2020. 12. 10.
Question Generation cdQA를 연구하던 중 사람이 일일이 질문과 답변을 작성하기 수고스럽다고 생각해 질문을 생성해주는 모델을 찾았다. github.com/codertimo/KorQuAD-Question-Generation codertimo/KorQuAD-Question-Generation question generation model with KorQuAD dataset. Contribute to codertimo/KorQuAD-Question-Generation development by creating an account on GitHub. github.com 먼저, 내가 임의로 수집한 데이터셋에 답변을 달아주었다. (cdQA-annotator를 이용하였다. cdQA-annotator를 띄우는 방법은 나중에 다시 작성하.. 2020. 12. 10.
반응형