본문 바로가기
반응형

Dag3

Airflow 특정 Task 재실행 | LIM Airflow를 이용할 때, 실패한 특정 task를 다시 실행하고 싶은 경우가 있다. 이전까지는.. 그냥 맨 처음부터 실행하는 방법만 있는 줄 알았다.. Task 가 적은 경우 괜찮지만 Task 도 많고 시간도 오래 걸리는 작업은... 하지만 특정 Task 가 실패 후 코드를 수정해서 업데이트 한 다음, 실패한 Task 만 다시 실행해서 올바르게 수행이 되었는지 확인하는 방법이 있다! 즉, Airflow는 DAG run 단위로 재수행 하는 방법, Task 단위로 재수행 하는 방법이 있는 것이다. 왜 이걸 이제야 찾아보고 정리하는 걸까..⭐️ Airflow UI 이용하는 방법 실패한 위 Task는 해당 DAG의 거의 마지막 Task 였다. 이 Task 가 계속 실패하고 테스트하면서 앞에 수많은 Task 들.. 2022. 12. 7.
[Airflow] CustomOperator 생성 | LIM 회사에서 task를 생성할 때 task가 단순 request만 요청하는 작업이 많아졌고 기존에는 requests.get()하고 return값을 처리하는 함수를 따로 만들었는데 이 함수가 간단하게 operator로 생성되면 좋을 것 같아서 CustomOperator 생성하는 방법을 찾아보게 되었다. airflow 공식 document와 BaseOperator, PythonOperator를 참조해서 만들었다. ✅ airflow 공식 document https://airflow.apache.org/docs/apache-airflow/2.2.3/howto/custom-operator.html airflow를 사용하면서 느끼는 거지만 공식 document 설명이 좀 불친절한 것 같다. 특히 원래 CustomDec.. 2022. 6. 12.
[Airflow] Airflow 기본 개념 📌 Airflow란? Python 코드로 워크플로우(workflow)를 작성하고, 스케쥴링, 모니터링 하는 하나의 플랫폼이다.. Airflow를 통해서 데이터엔지니어링의 ETL(Extract, Transform, Load) 작업을 자동화하고, DAG(Directed Acyclic Graph)의 형태의 워크플로우 작성이 가능하다. 이를 통해 더 정교한 dependcy를 가진 파이프라인을 설정할 수 있게 된다. 간략하게 Airflow가 무엇인지 살펴보았고, Airflow를 구성하고 있는 구성요소들에 대해 알아보도록 한다. Scheduler - 모든 DAG와 Task에 대하여 모니터링 및 관리하고 실행해야 할 Task를 스케줄로 관리(각 task id는 고유하다) DAG - Directed Acyclic Gr.. 2021. 8. 14.
반응형