728x90
반응형

Spark Dataframe 에서 칼럼 사이즈 구하기: 스칼라 & 파이썬

1. Scala

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
// 스파크 세션 생성
val spark = SparkSession.builder()
.appName("ArrayLengthExample")
.getOrCreate()
// 예제 데이터프레임 생성
import spark.implicits._
val df = Seq(
(Array(1.0, 2.0, 3.0)),
(Array(4.0, 5.0)),
(Array.empty[Double])
).toDF("double_array")
// double_array 배열의 길이를 계산
val dfWithArrayLength = df.withColumn(
"array_length",
size(col("double_array"))
)
// 결과 출력
dfWithArrayLength.show(truncate = false)

 

2. Python

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, size
# 스파크 세션 생성
spark = SparkSession.builder \
.appName("ArrayLengthExample") \
.getOrCreate()
# 예제 데이터프레임 생성
data = [
([1.0, 2.0, 3.0],),
([4.0, 5.0],),
([],)
]
df = spark.createDataFrame(data, ["double_array"])
# double_array 배열의 길이를 계산
df_with_array_length = df.withColumn(
"array_length",
size(col("double_array"))
)
# 결과 출력
df_with_array_length.show(truncate=False)
728x90
반응형

+ Recent posts