728x90
반응형

Spark Dataframe 에서 칼럼 사이즈 구하기: 스칼라 & 파이썬

1. Scala

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

// 스파크 세션 생성
val spark = SparkSession.builder()
  .appName("ArrayLengthExample")
  .getOrCreate()

// 예제 데이터프레임 생성
import spark.implicits._
val df = Seq(
  (Array(1.0, 2.0, 3.0)),
  (Array(4.0, 5.0)),
  (Array.empty[Double])
).toDF("double_array")

// double_array 배열의 길이를 계산
val dfWithArrayLength = df.withColumn(
  "array_length",
  size(col("double_array"))
)

// 결과 출력
dfWithArrayLength.show(truncate = false)

 

2. Python

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, size

# 스파크 세션 생성
spark = SparkSession.builder \
    .appName("ArrayLengthExample") \
    .getOrCreate()

# 예제 데이터프레임 생성
data = [
    ([1.0, 2.0, 3.0],),
    ([4.0, 5.0],),
    ([],)
]

df = spark.createDataFrame(data, ["double_array"])

# double_array 배열의 길이를 계산
df_with_array_length = df.withColumn(
    "array_length",
    size(col("double_array"))
)

# 결과 출력
df_with_array_length.show(truncate=False)
728x90
반응형
728x90
반응형

Python Fast API 활용하여 간단한 알람 기능을 수행하는 API를 개발중인데,
점점 알람을 보내는 endpoint 가 증가하며 API에 기능이 추가됨에 따라 상태 코드를 세분화할 필요성을 느꼈다.

200 번대 response가 OK인 것은 알겠는데,,

{a요청, b요청} --> 처리 --> {a: 실패, b: 성공} 

위와 같이 두가지 요청 중 한가지만 성공 했을 때 HTTP response 상태코드는

200이어야할지 400, 500 대의 에러코드여야할지 고민이 들었다.

Multi-Status Response: 207
200대 OK 에도 multi-status response 번호인 207 response를 사용하면 partial 한 failure에 대해 응답을 줄 수 있다.
참고: https://datatracker.ietf.org/doc/html/rfc4918#section-13

 

RFC 4918 - HTTP Extensions for Web Distributed Authoring and Versioning (WebDAV)

 

datatracker.ietf.org

HTTP response 더 공부해야겠다..

728x90
반응형
728x90
반응형

도커 알 못이 파이썬 스크립트를 서버에서 돌려야 해서 도커로 이미지 빌드하고 올리는 과정 정리

(한 3개월 전에 도커로 올렸었는데 오늘 다시 하려니 까먹어서 정리해 놓기로 마음먹음)

 

1. 파이썬 스크립트를 작성한다.

2. 도커파일을 작성한다.

  -> 도커파일에 무슨 내용을 적어야 할 지부터 일단 의문이었던 기억.

3. 도커 빌드.(이미지 만들기)

  -> 그냥 도커 빌드 명령어를 쓰면 됨

4. 도커 푸시

5. 원하는 서버에서 도커 풀 받아서

6. 원하는 포트를 지정해 도커 런!

 

일단은 위와 같은 단계로 도커 이미지를 만들고 빌드를 시키고 서버에서 작동을 시켰다.

각 과정에서 사용한 명령어 정리 한 후 '와당탕탕' ㅋㅋㅋ을 정리해보려고 한다.


1. 파이썬 스크립트 작성

이건 그냥 원하는 스크립트를 뚝딱뚝딱 작성하면 되는 것이니 패스! 

나는 fastapi로 api를 만들었다.(?)

 

2. 도커파일을 작성한다

스크립트가 실행되는 위치에 Dockerfile <-- 이 이름으로 된 파일을 작성한다.

나는 파이참 IDE를 사용해서 코드를 짜서 그냥 New File 눌러서 Dockerfile로 이름 적어 파일을 생성했다. .yaml 파일 작성하듯이 내용을 작성하면 된다.

다양한 명령어가 있고 효율 좋게(?) 돌아가게 하는 기능도 있지만 나는 아래와 같이 간단하게 작성했다.

# 베이스 이미지 명시
FROM python:3.7.8

# 컨테이너 실행 전 수행할 쉘 명령어
RUN mkdir -p /opt/myservice
WORKDIR /opt/myservice
COPY . .
RUN pip install -r ./requirements.txt


# 컨테이너가 시작되었을 때 실행할 쉘 명렁어
# 도커파일 내 1회만 실행할 수 있음
EXPOSE 8802
CMD python main.py

 

3. 도커 빌드

> docker build --tag server:port/myservice:0.1 .

위 명령어로 도커 빌드를 하고 나는 업무용 서버에 이미지를 빌드할 것이기 때문에(?) 일단 저렇게 이미지를 빌드하였다.

저렇게 빌드하고 '> docker images' 명령어를 치면 이미지가 생성된 것을 확인할 수 있다.

 

4. 도커 푸시

위에서 생성한 도커 이미지를 서버에 푸시하기 위한 과정이다.

> docker push server:port/myservice:0.1

지정된 서버에 해당 이름으로 이미지가 푸쉬되었다.

 

5. 도커 풀

작동하기 원하는 서버에서 이미지를 올린 서버로부터 이미지를 내려받는 과정이다.

> docker pull server:port/myservice:0.1

위 명령어로 도커 이미지를 pull 받았고 docker ps 해보면 이미지가 받아진 것을 확인할 수 있다.

이제 하나 남음!!!

 

6. 도커 런

이미지를 받았으니 이제 컨테이너 실행을 시켜주면 된다.

도커 런을 시키면 되는데 이 때 옵션을 다양하게 붙이면 원하는 대로 뭔가 해볼 수 있는 듯 하다 ㅋㅋ

나는 그냥.. 필요한 것만 아래와 같이 사용했다.

 > docker run -d -it -p 8802:8802 --name myservice0.1 server:port/myservice:0.1

 

참고: https://docs.docker.com/engine/reference/commandline/run/

불러오는 중입니다...

위 링크에서 여러가지 옵션들을 확인할 수 있다.


와당탕탕 1. 도커 빌드가 안된다!

일단 스크립트를 작성해서 도커 빌드를 해보려고 했음

스크립트야 그냥 api 개발한 거고 도커 빌드를 해보려는데 이상한 에러들이 뜸

=> ERROR [internal] load metadata for docker.io/library/python:3.7.8
= failed to fetch oauth token: unexpected status: 401 Unauthorized

요런 에러들...

그래서 찾아봤더니 도커 로그아웃하고 다시 로그인 하면 된단다!!

> docker logout
> docker login

위와 같이 명령어를 하나씩 쳐 주고 도커 빌드를 하니 성공!

물론 login 할 때 username과 password를 알고 있어야 한다. ㅋㅋㅋㅋ 기억 안나서 뇌정지 온 사람(나)

 

 

와당탕탕 2. 포트 지정 (feat. Dockerfile)

도커 빌드하고 이미지 push 이후 원하는 서버에서 pull 받아 run을 할 때 포트 지정을 해 주려고 한다.

두번째 도커 개발이라 도커파일 작성조차 익숙하지 않아 이 전에 개발했던 Dockerfile을 복사해서 설정값을 그냥 아무 생각 없이 띵가띵가 바꿨다.

그러고 서버에서 이미지 pull 받아 아래 명령어로 run 시키는데 돌긴 돌아도 테스트가 안되는 것이었다!!

> docker run -d -it -p 8802:8802 --name name0.2 myserver2:5000/name:0.2

 '> doekr ps' 해보면 포트가 자꾸 8800를 가리키게 되어 있었다.

뭘까뭘까 엄청 고민해 보다가 하.. 내가 이 전에 올린 api의 포트를 8800으로 해놨는데 해당 Dockerfile 그대로 복사해서 쉽게쉽게 가려다가 그 8800 포트 적은게 그대로 이미지로 만들어져 버렸던 거구나... 싶었다.

그래서 Dockerfile의  EXPOSE 값을 내가 원하는 포트번호인 8802로 수정하고 위 명령어로 런 시키니 잘 작동하는 것 확인!

728x90
반응형
728x90
반응형

Python argument 파싱(parsing)

.py 프로그램 실행 argument 주고 파싱하는 방법

 

1. Bash 또는 terminal에서 실행:

> python main.py --option1=test1 --option2=test2

 

 

2. main.py 에서

import argparse



def main(args):

	option1 = args.option1

	…


if __name__ == '__main__':

	parser = argparse.ArgumentParser(description="option test")



	parser.add_argument('--option1', help="description option1", type=str, action='store')	

	parser.add_argument('--option2', help="description option2", default='default value', type=str, action='store')



	args = parser.parse_args()

	main(args)

위와 같이 실행

728x90
반응형
728x90
반응형

딕셔너리(dictionary) 생성 & 초기화

 

 

파이썬에서 딕셔너리를 생성하고 iterable하게 값을 넣어주고 싶을 때가 있는데, 
이때 key값이 존재하지 않는데 `my_dict[key]` 를 하게 되면 에러 메시지를 보게 됩니다.

그래서 key 값이 `my_dict`에 있는지 먼저 확인하고자 아래와 같이 코드를 짜게 되는데요,

if key not in my_dict:
    my_dict[key] = []
my_dict[key].append(new_value)

나쁘지 않습니다. 저도 이렇게 주로 코딩해왔습니다.

 

그런데 훨씬 간단하게 코드를 짜는 방법이 있습니다.

my_dict.setdefault(key, []).append(new_value)

이렇게 setdefault() 를 통해 존재하지 않는 키를 처리할 수 있습니다.

 

또는,  defaultdict()를 사용하는 방법도 있습니다!

>>> from collections import defaultdict
>>> my_default_dict = defaultdict(list)
>>> for i in range(5):
>>>     my_default_dict[0].append(i+1)
>>> print(my_default_dict)
defaultdict(<class 'list'>, {0: [1, 2, 3, 4, 5]})

defaultdict를 import 해 주고 list형으로 선언해줍니다. 그러면 값이 잘 들어가죠?

만약 아래와 같이 defaultdict가 아닌 일반 dictionary 형으로 위와 같이 접근하려면

이런 에러가 발생합니다.

 

자료구조를 많이 알고 있는 게 코드를 짤 때 여러모로 도움이 되는 것 같습니다. Python에서 dictionary자료형은 많이 쓰니 잘 알고 있으면 좋을 것 같아요 :)

728x90
반응형
728x90
반응형

Python 이중 어레이 초기화

 

1. 지능형 리스트로 표현

>>> board = [['_'] * 3 for _ in range(3)]
>>> board
[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]

>>> board[1][2] = 'X'
>>> board
[['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]

 

2. 잘못된 표현

- 동일한 리스트에 대한 세 개의 참조를 가진 리스트는 잘못된 리스트입니다.

>>> wrong_board = [['_'] * 3] * 3
>>> wrong_board
[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]

>>> wrong_board[1][2] = 'X'
>>> wrong_board
[['_', '_', 'X'], ['_', '_', 'X'], ['_', '_', 'X']]

  - 즉, 이렇게 코드를 작성한다면 최상위 리스트가 동일한 내부 리스트에 대한 참조를 세 개 가지게 되어
  - 세 개의 행이 모두 동일한 객체를 참조하게 된다.

 

참고) 한빛미디어 '전문가를 위한 파이썬'

728x90
반응형

+ Recent posts