본문 바로가기
반응형

Data28

[Udemy] ChatGPT 와 파이썬을 활용한 데이터 사이언스 및 데이터 분석 수강 후기 | LIM 현재 나는 글또 9기를 진행중에 있습니다. 이번 9기에서는 운이 좋게도 유데미에서 2개로 강의를 들어볼 수 있는 쿠폰을 주셔서 가장 관심이 있던 ChatGPT 를 이용한 데이터 분석을 수강하게 되었습니다. https://www.udemy.com/course/chatgpt-for-data-science-and-data-analysis-in-python-korean/ 강의에서 배우게 되는 내용은 다음과 같습니다. 최적의 결과를 내주는 효율적인 ChatGPT 프롬프트를 설계하는 법 ChatGPT 로 데이터 사이언스 프로젝트를 시작해 시작 시간을 최대 90%까지 줄이는 법 ChatGPT와 생성형 AI 기술을 데이터 사이언스 프로젝트 수행에 활용해 프로젝트 실행 시간을 절반까지 줄이는 법 파이썬, Tableau,.. 2024. 3. 31.
LLM(Large Language Model) 기본 정리 및 활용 방안 | LIM LLM은 "Large Language Model"의 약자로, 대규모 데이터 세트에서 훈련된 인공지능 언어 모델을 의미한다. GPT 시리즈와 같은 모델은 OpenAI에 의해 개발되었고, 이는 대표적인 LLM의 한 예이다. LLM은 대규모의 학습 데이터셋과 엄청난 컴퓨터 리소스를 필요로 한다. 파라미터수가 엄청나기 때문이다 (이래서 엔비디아 주가가,,나만 못 샀어,,) LLM에 사용되는 딥러닝 모델인 Transformer 이 모델은 다들 많이 아시다시피 "Attention Is All You Need" 라는 논문에서 처음 소개되었다. 기존의 순차적인 데이터 처리 방식(ex. RNN, LSTM) 대신, "어텐션 매커니즘" 을 이용하여 전체 입력 데이터를 한 번에 처리함으로써, 처리 속도를 대폭 향상시키고, 더.. 2024. 3. 17.
[Spark] Apache Spark와 RDD | LIM Spark 의 등장 배경 Spark은 대규모 데이터 처리를 위한 오픈소스 분산 컴퓨팅 시스템이다. Spark의 등장 배경은 크게 두 가지 주요 요소에 기반한다. [처리 속도] Hadoop의 MapReduce는 대규모 데이터 처리에 혁명을 가져왔지만, 일부 작업에서는 상대적으로 느린 처리 속도를 보였다. 특히, 반복적인 알고리즘과 실시간 데이터 처리가 필요한 작업에서 이러한 속도 문제가 더욱 도드라졌다. Spark은 이러한 문제를 해결하기 위해 메모리 내(in-memory) 데이터 처리를 통해 빠른 데이터 처리 속도를 제공한다. [다양한 데이터 처리 요구 사항] 데이터 처리의 다양화로 인해 단순히 대량의 데이터를 처리하는 것뿐만 아니라, 실시간 스트리밍 처리, 머신러닝, 그래프 처리 등 다양한 유형의 데이.. 2024. 2. 10.
[dbt] 쿼리 결과를 변수에 저장하고 싶은 경우 | LIM dbt 내부에서 쿼리 결과를 변수로 지정하고 싶을 때에는 run_query 를 사용하면 된다. 다음과 같이 사용할 수 있다. 각 쿼리는 6개월 동안의 달의 첫 번째 날짜와, 마지막 날짜를 가져오는 쿼리이다. {% set get_start_date %} select format_date('%Y-%m-01', date_sub(current_date('Asia/Seoul'), interval seq month)) from unnest(generate_array(1, 6)) as seq {% endset %} {% set get_end_date %} select format_date('%Y-%m-%d', last_day(date_sub(current_date('Asia/Seoul'), interval seq m.. 2023. 12. 6.
[dbt] dbt에서 for loop 작성하기(jinja macro) | LIM dbt for loop 작성하는 것은 파이썬의 for loop 을 작성하는 것과 매우 유사하다. 나의 경우 union all 을 할 때 for loop 을 사용했다. 💡 테스트할 테이블 스키마 date_column: date month: int64 [for loop 을 사용하지 않은 쿼리] select date('2023-01-01') as date_column, 1 as month union all select date('2023-02-01') as date_column, 2 as month union all select date('2023-03-01') as date_column, 3 as month [dbt 를 활용해서 for loop 을 사용] {{ config( materialized="tabl.. 2023. 11. 28.
[dbt] dbt 도입 이유와 필요성 | LIM dbt란 무엇인가 data build tool 의 약자로, 추출 -> 변형 -> 적재 중 변형을 더 쉽게 하기 위한 도구이다. Transformation 만을 위한 도구이기 때문에 Extract나 Load 를 위해서는 다른 도구와 같이 사용해야 한다. ETL 보다는 ELT 작업에 좀 더 적합한 툴이다. 위 그림에서 보다시피 Raw Data 에서 Transformation 즉, 변형을 dbt 툴에서 관리하고, 각 데이터 소비자들에게 필요한 Data Mart 를 관리해주는 것이 dbt 의 역할이다. dbt 도입의 필요성 현재 우리회사는 BigQuery를 거의 Data Lake + Data WareHouse 의 개념으로 사용하고 있다. 전사 내 모든 데이터를 BigQuery에 저장하기로 했고, 그 결과 Bi.. 2023. 8. 13.
반응형