728x90
반응형
여러가지 이유로 Spark DataFrame 의 row count 보다는 크기를 계산하여야 한다.
- Broadcast join 이 적합한지 확인용
- Executor 자원을 얼마나 할당할지 확인용
- 데이터 크기를 비교하여 DataFrame 이 정상적으로 생긴 것인지 확인용
- 다양하게...
disk 에 저장하지 않고도 Spark 에서 DataFrame 의 크기를 알려주는 API 가 있다.
import org.apache.spark.util.SizeEstimator
// dataframe 생성
SizeEstimator.estimate(df)
이런 방법으로 데이터 크기를 측정할 수 있다.
728x90
반응형
'코딩해 > Kafka, Spark, Data Engineering' 카테고리의 다른 글
Spark Dataframe - Array column size | 칼럼 사이즈 구하기 (1) | 2024.09.14 |
---|---|
Spark 로 Iceberg 테이블 comment(description) 추가 (0) | 2024.08.08 |
[Spark] Executor 개수, 사이즈 정하기 | Spark 튜닝 성능개선 (2) | 2023.12.03 |
[Spark] 스파크 구조와 실행 과정 | 스파크 기초 (1) | 2023.12.03 |
[Spark] java.lang.AssertionError: assertion failed: Concurrent update to the commit log. Multiple streaming jobs detected for 해결방법 (0) | 2023.11.20 |