본문 바로가기
반응형

Data/자연어 처리6

LLM(Large Language Model) 기본 정리 및 활용 방안 | LIM LLM은 "Large Language Model"의 약자로, 대규모 데이터 세트에서 훈련된 인공지능 언어 모델을 의미한다. GPT 시리즈와 같은 모델은 OpenAI에 의해 개발되었고, 이는 대표적인 LLM의 한 예이다. LLM은 대규모의 학습 데이터셋과 엄청난 컴퓨터 리소스를 필요로 한다. 파라미터수가 엄청나기 때문이다 (이래서 엔비디아 주가가,,나만 못 샀어,,) LLM에 사용되는 딥러닝 모델인 Transformer 이 모델은 다들 많이 아시다시피 "Attention Is All You Need" 라는 논문에서 처음 소개되었다. 기존의 순차적인 데이터 처리 방식(ex. RNN, LSTM) 대신, "어텐션 매커니즘" 을 이용하여 전체 입력 데이터를 한 번에 처리함으로써, 처리 속도를 대폭 향상시키고, 더.. 2024. 3. 17.
Keyword Extract using KeyBERT 긴 문장에서 중요한 키워드만을 뽑아내기 위해 조사하던 중 BERT를 이용한 keybert를 발견했다. KeyBERT는 이곳을 참고했다. https://github.com/MaartenGr/KeyBERT MaartenGr/KeyBERT Minimal keyword extraction with BERT. Contribute to MaartenGr/KeyBERT development by creating an account on GitHub. github.com 설치는 간단하다 pip install keybert BERT embedding방법으로는 Flair, Huggingface Transformers, spaCy 가 있으나 이 모델에서는 sentence-transformers 패키지를 사용 이 keyber.. 2020. 12. 29.
TextRank를 이용하여 핵심 문장 추출하기 기사와 같은 긴 문장을 요약하기 위해 TextRank를 이용하였다. textrank를 사용하기 위해 참고한 곳이다. github.com/lovit/textrank lovit/textrank Implementation TextRank and related utils. Contribute to lovit/textrank development by creating an account on GitHub. github.com TextRank는 키워드 추출 기능과 핵심 문장 추출 기능, 두 가지를 제공한다. TextRank에서는 명사, 동사, 형용사와 같은 단어만 단어 그래프를 만드는 데 이용. 모든 종류의 단어를 이용하면 'a','the' 와 같은 단어들이 다른 단어들과 압도적인 co-occurrence 를 지니.. 2020. 12. 28.
GPT2 에서 문장을 생성 시 단어를 확률에 따라 선택하는 방법 GPT2 에서 문장을 생성 시, 마지막에 레이어를 하나 더 붙여 소프트 맥스로 출력 각 단어의 확률값이 나오게 됩니다. 여기에서 어떤 단어를 선택할 지에 대한 방법을 알아보았습니다. 출처 : jalammar.github.io/illustrated-gpt2/ 1. Greedy Search 탐욕적 기법으로 말 그대로 가장 높은 확률의 단어 하나만 고릅니다. 매우 간단하지만 선택되지 않은 단어 다음에 더 높은 확률의 단어가 있을 경우 찾을 수가 없습니다. 'The' 뒤에서 가장 높은 확률인 'nice'가 선택 되지만 ('The','dog','has') =0.4*0.9=0.36 으로 ('The','nice','woman')=0.5*0.4=0.2 보다 큰데도 불구하고 선택되지 않는 단점이 생기게 됩니다. 이를 보.. 2020. 12. 15.
cdQA-annotator 데이터셋 구성 cdQA-annotator는 node.js기반으로 squad(korquad) 데이터셋을 쉽게 만들어주는 도구이다. github.com/cdqa-suite/cdQA-annotator cdqa-suite/cdQA-annotator ⛔ [NOT MAINTAINED] A web-based annotator for closed-domain question answering datasets with SQuAD format. - cdqa-suite/cdQA-annotator github.com paragraphs안에 context와 question과 answer를 넣어서 json을 만들 필요 없이 context만 잘 정리해서 넣어주면 된다. 실험삼아 wikipedia dataset을 불러와서 csv로 저장한 후 py.. 2020. 12. 10.
Question Generation cdQA를 연구하던 중 사람이 일일이 질문과 답변을 작성하기 수고스럽다고 생각해 질문을 생성해주는 모델을 찾았다. github.com/codertimo/KorQuAD-Question-Generation codertimo/KorQuAD-Question-Generation question generation model with KorQuAD dataset. Contribute to codertimo/KorQuAD-Question-Generation development by creating an account on GitHub. github.com 먼저, 내가 임의로 수집한 데이터셋에 답변을 달아주었다. (cdQA-annotator를 이용하였다. cdQA-annotator를 띄우는 방법은 나중에 다시 작성하.. 2020. 12. 10.
반응형