728x90
반응형

카카오 제네시스 - 카프카 기반 스트리밍 데이터 플랫폼

2021년 Kakao 에서 봤던 Cory 님(광고추천팀 - 데이터 플랫폼 개발)이 작성한 글이고 내가 요즘 공부하는 카프카, 업무와 직관된 데이터 플랫폼이라는 제목 워딩에 끌려 클릭했다.

개인적으로 사용자에게 직접 서비스될 수 있는 분야가 업무적으로 더 선호된다. 하지만 이미 플랫폼에 집중된 내 업무로는 직접 서비스할 기회는... 적다. 거의 없을 수도..

그런데 광고 추천이라니. 내가 직접 서비스하진 않더라도 결국에는 개인화된 광고를 서빙하는 작업을 하는 플랫폼일 것이다! 완전 끌린다.

(나는 누가 쓰는지도 모르고.. 그냥 들어오는 데이터 ETL 하는 느낌인데 말이다.. ㅠㅠ)

아무튼 그래서 이번 기술 블로그 엄청 재밌게 읽었다! 공부 의욕 뿜뿜!

들어가면 나오는 내용이지만 나만을 위한 정리

  • 기존 카프카 데이터 파이프라인 아키텍처의 관리에서의 어려움과 리소스 낭비로 새로운 카프카 커넥트 기반 데이터 플랫폼을 구성
  • 고려한 점: 오너십 / 모니터링 / 배포 / 데이터 리니지(화면)
  • 카프카 커넥트 사용
    • ETL 역할을 수행하는 것을 커넥터라고 하며, 싱크 커넥터는 consumer, 소스 커넥터는 producer 역할을 한다.
    • 카프카 커넥트는 분산 커넥트와 단일 커넥트로 나뉜다.

  • 카프카 커넥트를 API 동작이 아닌, 지속적 운영을 위해 vue.js로 어드민 페이지를 만들어서 모든 파이프라인 관련 동작을 제네시스 웹을 통해 수행 가능하록 개발.
  • 카프카 커넥트를 운영하며 고려해야 할 점
    • 반드시 웹 화면이 필요
      • REST API를 통해 파이프라인을 생성, 수정, 삭제할 수 있지만 언제까지나 API 툴로 운영할 수가 없음
      • 오픈소스로 나와 있는 카프카 커넥트 웹을 사용해도 됨
    • 커스텀 커넥터 개발 → 보안 관련 이슈
    • 커넥터 클러스터 구분 운영
      • 커넥터의 특성(메몰리 많이 사용/CPU 많이 사용)에 따라 커넥트 클러스터를 분리하여 운영하는 것을 고려

도커로 말아서 올렸더라. 도커도 또 공부하려면 한참인데 정말...!!

이거 다 개발하려면 진짜 많은 시간과 노력이 들었겠다 싶다.

나도 하고 싶다. 배울게 너무 많다...!


한 줄 느낀 점:
플랫폼 운영하려면 알아야 할게 많다. 좋게 생각하면 배우는 거 좋아하는 나한테 딱!

728x90
반응형
728x90
반응형

Apache Airflow에 대해 알아보자

 

아파치 에어플로우는 데이터 처리 파이프라인을 조율하기 위해 만든 오픈소스 도구.

Cron 같은 느낌


Apache Airflow 사용하는 이유

  • 데이터 ETL 과정을 통해 데이터를 가공하며 적재하는데
  • 이때여러 개의 sequential한 로직이 존재하게 . (앞의 결과가 작업의 input 되는 )
  • 위와 같은 작업이 여러개일 경우 이러한 workflow 관리도구로 airflow 사용할 있으며,
  • 비슷한 workflow 관리도구로 하둡 에코시스템의 우지와 같은 솔루션이 있음.

 

장점

  • Python 기반으로 만들어 져 데이터 분석 하는 분들도 쉽게 코드를 작성할 있음
  • Airflow 콘솔이 따로 존재해 task 관리를 서버에서하지  않아도 되고 작업별 시간이 나오기 때문에 bottleneck 찾을 때에도 유용함

DAG: 방향성 비순환 그래프

  • 에어플로우 상의 작업흐름은 DAG 설계되기 때문에 이를 어떻게 독립적으로 실행 가능한 태스크들로 나뉠 있을까 생각해보고
  • 그 다음에  태스크를 그래프로 결합하여 전체적인 논리 흐름에 맞게 합칠 수 있음
  • Task 집합체이자 workflow

 

DAG 생성

  1. default_args 정의(owner, start_date 정의)
  2. DAG 객체 생성(dag id, schedule_interval 정의)
  3. DAG 안에 Operator 활용해 task 생성(SparkSubmitOperator, BashOperator )
  4. Task들을 연결( >>, << 활용하거나 t1.set_upstream(t2) 또는 t2.set_downstream(t1) 같은 표현)

DAG 객체 생성 -> Operator 활용해 Task 작성 -> Task 연결

728x90
반응형

+ Recent posts