목록MLOPS (62)
중요한건 꺾이지 않는 맥북
https://kubernetes.io/ko/docs/tasks/administer-cluster/dns-custom-nameservers/#:~:text=%ED%8C%8C%EB%93%9C%EB%A5%BC%20%EC%9C%84%ED%95%B4%20%EB%8B%A4%EB%A5%B8%20DNS%20%EC%84%A4%EC%A0%95%EC%9D%B4%20%ED%95%84%EC%9A%94%ED%95%9C%20%EA%B2%BD%EC%9A%B0 DNS 서비스 사용자 정의하기 이 페이지는 클러스터 안에서 사용자의 DNS 파드(Pod) 를 설정하고 DNS 변환(DNS resolution) 절차를 사용자 정의하는 방법을 설명한다. 시작하기 전에 쿠버네티스 클러스터가 필요하고, kubectl 커맨드- kubernetes.i..
root@BD1-L-KUBESPAWNER-MASTER-001:/home# k logs -n kube-system weave-net-rxfmb weave -f DEBU: 2023/11/23 16:08:09.204629 [kube-peers] Checking peer "82:91:72:42:5a:a7" against list &{[{fe:e0:e6:ce:b5:32 bd1-l-kubespawner-master-001} {8a:bf:f3:33:54:40 c1-l-kubespawner-worker-020} {ea:fc:bf:75:e6:79 c1-l-kubespawner-worker-003} {32:a2:6b:a7:95:18 c1-l-kubespawner-worker-006} {ce:6c:75:6b:77:67 c1..

1.NVIDIA Multi-Instance GPU Nvidia, cuda 관련 toolkit, driver가 설치되어있다는 전제하에 진행했습니다! SUDO 권한으로 진행하는 것을 권장합니다. 기존에는 nvidia-smi 결과가 위와같이 MIG mode가 Disabled 인것을 볼 수 있습니다. MIG 를 적용하기 위해선, nvidia-smi -mig 1 명령어를 통해 적용할 수 있습니다. 특정 GPU 카드에만 적용하기 위해선 nvidia-smi -mig 1 -i {gpu id} 로 gpu id를 지정하여 enable이 가능합니다. 모든 gpu 카드에 적용했으나 위처럼 Enabled* 로 아래와 같은 오류가 발생한다면, 아직 사용 가능하지 않음을 의미합니다. root@OP-L-APOLLO-GPU-007:/..
상황 쿠버네티스 클러스터의 워커노드 1번 VM의 컴퓨팅 자원 Scale Up을 진행했습니다. 그 후, 몇일이 지나 워커노드가 NotReady 상태인 이슈가 발생했습니다. 당시에는 수동으로 kubelet restart를 해주어 해결했는데, 계속 주기적으로 워커노드 NotReady인 상황이 발생했습니다. kubelet 에러 메세지는 아래와 같습니다. Aug 07 10:06:02 MD2-L-KNUH-WIDE-KUBESPAWNER-WORKER-001 kubelet[40194]: E0807 10:06:02.918771 40194 conn.go:254] Error on socket receive: read tcp 127.0.0.1:45467->127.0.0.1:40854: use of closed network c..
Airflow version: 2.2.5 helm repo: apache-airflow chart version: 1.3.0 저는 쿠버네티스 환경에서 Kubernetes native하게 동작하는 Airflow 를 사용하고 있습니다. 일반적인 Airflow on Kubernetes는 사용자에게 독립적으로 Aiflow를 각각 띄워주는 방식인데, 이렇게 서비스하게 되면 컴퓨팅 자원이 기하급수적으로 늘어날것이라 예상했으며 한정적인 자원에서 Airflow를 서비스하기 위해 KubernetesExecutor 리소스를 활용하여 Kubernetes 자원을 효율적으로 사용하였습니다. KubernetesExecutor를 사용하면 다음과 같은 장점이 있습니다. (출처: https://engineering.linecorp.c..
더보기 글을 작성하기에 앞서 해당 이슈를 제기해준 동료이자 선배인 Lee에게 감사의 말씀을 드립니다...🙇♂️ Docker 컨테이너에 NAS 또는 local file system 마운트하면서 팀 내에서 ML 모델 개발을 하고 있었습니다. NAS 크기가 7~800 테라바이트 수준이어서 크게 신경안썼는데 어느 순간 생각치도 못한 크기의 디스크 공간을 차지하면서 실제 사용공간보다 더 많은 공간을 차지하고 있었습니다. root@C1-L-APOLLO-GPU-001:~# df -h Filesystem Size Used Avail Use% Mounted on udev 378G 0 378G 0% /dev tmpfs 76G 3.4M 76G 1% /run /dev/mapper/C1--L--APOLLO--GPU--001-..
5a6d2b76cd56: Preparing 64afb6fa4c53: Pushing [==================================================>] 620.8MB/620.8MB a1bb0e6134fd: Preparing 6069ed0c1062: Preparing 64afb6fa4c53: Pushing [===================================> ] 443.2MB/620.8MB c019ca13498b: Pushed 8965905d5c74: Pushed 3fcda9c2261a: Pushed 096b56019919: Pushed 985b105f7238: Layer already exists 120dbecf84cc: Layer already exists 55..
배경 Airflow on Kubernetes 를 구축하던 상황이었습니다. helm 차트로 Airflow를 설치하던 중, PostgreSQL 생성에서 이슈가 발생했는데요. PostgreSQL 생성하는 statefulset에서는 PVC를 활용하여 저장공간을 마운트하게 되어있는데, 저는 해당 DB 를 영구적으로 보존하기 위해 postgresql 의 /bitnami/postgresql 경로를 nas 장비의 /a/b/c 라는 경로에 마운트를 해놓은 PV를 활용했습니다. 하지만, PostgreSQL Pod의 상태는 Error 였는데요. 과정 PostgreSQL Pod 의 첫번째 로그는 아래와 같았습니다. postgresql 07:19:25.61 postgresql 07:19:25.61 Welcome to the B..