728x90
반응형
Spark Dataframe 에서 칼럼 사이즈 구하기: 스칼라 & 파이썬
1. Scala
import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ // 스파크 세션 생성 val spark = SparkSession.builder() .appName("ArrayLengthExample") .getOrCreate() // 예제 데이터프레임 생성 import spark.implicits._ val df = Seq( (Array(1.0, 2.0, 3.0)), (Array(4.0, 5.0)), (Array.empty[Double]) ).toDF("double_array") // double_array 배열의 길이를 계산 val dfWithArrayLength = df.withColumn( "array_length", size(col("double_array")) ) // 결과 출력 dfWithArrayLength.show(truncate = false)
2. Python
from pyspark.sql import SparkSession from pyspark.sql.functions import col, size # 스파크 세션 생성 spark = SparkSession.builder \ .appName("ArrayLengthExample") \ .getOrCreate() # 예제 데이터프레임 생성 data = [ ([1.0, 2.0, 3.0],), ([4.0, 5.0],), ([],) ] df = spark.createDataFrame(data, ["double_array"]) # double_array 배열의 길이를 계산 df_with_array_length = df.withColumn( "array_length", size(col("double_array")) ) # 결과 출력 df_with_array_length.show(truncate=False)
728x90
반응형
'코딩해 > Kafka, Spark, Data Engineering' 카테고리의 다른 글
Spark DataFrame 크기 계산하기 (0) | 2024.09.20 |
---|---|
Spark 로 Iceberg 테이블 comment(description) 추가 (0) | 2024.08.08 |
[Spark] Executor 개수, 사이즈 정하기 | Spark 튜닝 성능개선 (2) | 2023.12.03 |
[Spark] 스파크 구조와 실행 과정 | 스파크 기초 (1) | 2023.12.03 |
[Spark] java.lang.AssertionError: assertion failed: Concurrent update to the commit log. Multiple streaming jobs detected for 해결방법 (0) | 2023.11.20 |