'데이터프레임' 태그의 글 목록

데이터프레임

Spark DataFrame 크기 계산하기 2024.09.20
Spark Dataframe - Array column size | 칼럼 사이즈 구하기 2024.09.14 1

Spark DataFrame 크기 계산하기

2024. 9. 20. 18:24

728x90

여러가지 이유로 Spark DataFrame 의 row count 보다는 크기를 계산하여야 한다.

Broadcast join 이 적합한지 확인용
Executor 자원을 얼마나 할당할지 확인용
데이터 크기를 비교하여 DataFrame 이 정상적으로 생긴 것인지 확인용
다양하게...

disk 에 저장하지 않고도 Spark 에서 DataFrame 의 크기를 알려주는 API 가 있다.

import org.apache.spark.util.SizeEstimator
// dataframe 생성
SizeEstimator.estimate(df)

이런 방법으로 데이터 크기를 측정할 수 있다.

728x90

'코딩해 > Kafka, Spark, Data Engineering' 카테고리의 다른 글

Spark Dataframe - Array column size \| 칼럼 사이즈 구하기 (1)	2024.09.14
Spark 로 Iceberg 테이블 comment(description) 추가 (0)	2024.08.08
[Spark] Executor 개수, 사이즈 정하기 \| Spark 튜닝 성능개선 (2)	2023.12.03
[Spark] 스파크 구조와 실행 과정 \| 스파크 기초 (1)	2023.12.03
[Spark] java.lang.AssertionError: assertion failed: Concurrent update to the commit log. Multiple streaming jobs detected for 해결방법 (0)	2023.11.20

Spark Dataframe - Array column size | 칼럼 사이즈 구하기

2024. 9. 14. 22:32

728x90

Spark Dataframe 에서 칼럼 사이즈 구하기: 스칼라 & 파이썬

1. Scala

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

// 스파크 세션 생성
val spark = SparkSession.builder()
  .appName("ArrayLengthExample")
  .getOrCreate()

// 예제 데이터프레임 생성
import spark.implicits._
val df = Seq(
  (Array(1.0, 2.0, 3.0)),
  (Array(4.0, 5.0)),
  (Array.empty[Double])
).toDF("double_array")

// double_array 배열의 길이를 계산
val dfWithArrayLength = df.withColumn(
  "array_length",
  size(col("double_array"))
)

// 결과 출력
dfWithArrayLength.show(truncate = false)

2. Python

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, size

# 스파크 세션 생성
spark = SparkSession.builder \
    .appName("ArrayLengthExample") \
    .getOrCreate()

# 예제 데이터프레임 생성
data = [
    ([1.0, 2.0, 3.0],),
    ([4.0, 5.0],),
    ([],)
]

df = spark.createDataFrame(data, ["double_array"])

# double_array 배열의 길이를 계산
df_with_array_length = df.withColumn(
    "array_length",
    size(col("double_array"))
)

# 결과 출력
df_with_array_length.show(truncate=False)

728x90

'코딩해 > Kafka, Spark, Data Engineering' 카테고리의 다른 글

Spark DataFrame 크기 계산하기 (0)	2024.09.20
Spark 로 Iceberg 테이블 comment(description) 추가 (0)	2024.08.08
[Spark] Executor 개수, 사이즈 정하기 \| Spark 튜닝 성능개선 (2)	2023.12.03
[Spark] 스파크 구조와 실행 과정 \| 스파크 기초 (1)	2023.12.03
[Spark] java.lang.AssertionError: assertion failed: Concurrent update to the commit log. Multiple streaming jobs detected for 해결방법 (0)	2023.11.20

PREV 1 NEXT

Haonly's Blog

데이터프레임

Spark DataFrame 크기 계산하기

'코딩해 > Kafka, Spark, Data Engineering' 카테고리의 다른 글

Spark Dataframe - Array column size | 칼럼 사이즈 구하기

Spark Dataframe 에서 칼럼 사이즈 구하기: 스칼라 & 파이썬

'코딩해 > Kafka, Spark, Data Engineering' 카테고리의 다른 글

+ Recent posts

티스토리툴바