Kserve StandAlone 설치 이슈
KServe로 프로젝트가 이전되기 전의 KFserving standalone을 Kubernetes 상에서 구축중이었습니다.
KFServing Version: 0.5.1
이슈 1
Failed to pull image "gcr.io/kfserving/kfserving-controller:v0.5.1"
MacBook-Pro:kfserving-lts jaeuheo$ docker pull gcr.io/kfserving/kfserving-controller:v0.5.1
WARNING: Python 3.5-3.7 will be deprecated on August 8th, 2023. Please use Python version 3.8 and up.
If you have a compatible Python interpreter installed, you can use it by setting
the CLOUDSDK_PYTHON environment variable to point to it.
Error response from daemon: pull access denied for gcr.io/kfserving/kfserving-controller, repository does not exist or may require 'docker login': denied: Permission denied for "v0.5.1" from request "/v2/kfserving/kfserving-controller/manifests/v0.5.1".
위 에러가 발생한 이유는 단순합니다. docker login에서 permission deny가 났거나 해당 도커 레포가 삭제되었다는 것입니다.
gcloud CLI를 설치한 후 아래 명령어로 로그인하여 진행했으나 여전히 에러가 나는 상황이 발생했습니다.
gcloud auth login
gcloud 도큐먼트의 맨 상단 빨간색 박스의 안내 글을 보면, 2023년 5월 15일부터 Container Registry가 지원 중단되고 Artifact Registry로 대체됩니다. 라고 안내되어 있는 것을 볼 수 있습니다.
https://cloud.google.com/container-registry/docs/advanced-authentication?hl=ko
인증 방식 | Container Registry 문서 | Google Cloud
Container Registry는 지원 중단되었습니다. 2024년 5월 15일 후 Artifact Registry는 이전 Container Registry 사용량이 없는 프로젝트에서 gcr.io 도메인의 이미지를 호스팅합니다. 자세히 알아보기 의견 보내기
cloud.google.com
따라서, 정말로 레지스트리가 날라갔는지 확인해보니 아래와 같이 찾을 수 없다고 결과가 나왔습니다.
해당 이슈에 대해서 논의된 바가 있을 것이라고 생각되어 kserve github Issues를 찾아보았더니 KFServing releases v0.4.0/v0.4.1/v0.5.0/v0.5.1/v0.6.0 images have been backed up now under dockerhub kfserving 이라고 나와있었습니다.
https://github.com/kserve/kserve/issues/1976
Unable to pull storage intiializer image - gcr.io/kfserving/storage-initializer:v0.6.0 · Issue #1976 · kserve/kserve
/kind bug What steps did you take and what happened: Try to run an inference service using this version of storage initializer [A clear and concise description of what the bug is.] When the pod sta...
github.com
도커허브에 검색해보니 아래와 같이 해당 레포지토리와 이미지가 존재하였습니다.
따라서, 위 이미지를 워커노드에 수동으로 Pull 받고 kfserving.yaml 을 아래와 같이 kfserving-controller 이미지 필드부분을 수정하여 띄웠습니다.
이슈 2
Failed to pull image "kfserving/kfserving-controller:v0.5.1": rpc error: code = Unknown desc = Error response from daemon: Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)kfserving/kfserving-controller:v0.5.1
도커 이미지를 정상적으로 받아오지만, 위와 같은 이슈가 발생했습니다.
https://registry-1.docker.io/v2/ URL에 요청을 시도하고 있었습니다.
다시 kfserving.yaml 파일을 열어봤더니 아래와 같이 ImagePullPolicy가 Always로 되어있는 것을 보고 인터넷 개방이 안되어있는 상태에서 도커허브로부터 image pull 받아오는 시도를 한다고 생각이 들었습니다.
따라서, 해당부분을 주석처리한 후 kubectl apply 해줍니다.
정상적으로 Pod이 Running 상태가 되는 것을 확인할 수 있습니다!
root@MASTER-001:/istio-1.6.2# k get pod -n kfserving-system -o wide -w
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
kfserving-controller-manager-0 2/2 Running 0 41m 10.244.1.212 worker-001 <none> <none>
이슈 3
ApiException: (403)
Reason: Forbidden
HTTP response headers: HTTPHeaderDict({'Cache-Control': 'no-cache, private', 'Content-Type': 'application/json', 'X-Content-Type-Options': 'nosniff', 'Date': 'Sun, 11 Jun 2023 16:04:43 GMT', 'Content-Length': '425'})
HTTP response body: {"kind":"Status","apiVersion":"v1","metadata":{},"status":"Failure","message":"inferenceservices.serving.kubeflow.org is forbidden: User \"system:serviceaccount:jeawoo0594-30-8ynyugel:default\" cannot create resource \"inferenceservices\" in API group \"serving.kubeflow.org\" in the namespace \"jeawoo0594-30-8ynyugel\"","reason":"Forbidden","details":{"group":"serving.kubeflow.org","kind":"inferenceservices"},"code":403}
jeawoo0594-30-8ynyugel 네임스페이스에 배포한 주피터 서버에서 inferenceservices를 get하려니 발생한 이슈였습니다.
jeawoo0594-30-8ynyugel 네임스페이스의 default service account 가 inferenceservices에 필요한 권한이 없음을 나타냅니다.
기존에 해당 네임스페이스에 default SA가 있었고, role과 rolebinding 만을 생성해주었습니다.
# Create a file named `role.yaml` and add the following content
apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:
name: inference-role
namespace: jeawoo0594-30-8ynyugel
rules:
- apiGroups: ["serving.kubeflow.org"]
resources: ["inferenceservices"]
verbs: ["get", "list", "watch"]
# Apply the Role
kubectl apply -f role.yaml
# Bind the Role to the service account
kubectl create rolebinding inference-rolebinding --role=inference-role --serviceaccount=jeawoo0594-30-8ynyugel:default -n jeawoo0594-30-8ynyugel
위처럼, 우선 READ하는 verbs만 생성해준뒤, 다시 확인 해보니 아래처럼 권한이 생긴것을 확인할 수 있었습니다
ApiException: (404)
Reason: Not Found
HTTP response headers: HTTPHeaderDict({'Cache-Control': 'no-cache, private', 'Content-Type': 'application/json', 'Date': 'Wed, 14 Jun 2023 06:03:29 GMT', 'Content-Length': '272'})
HTTP response body: {"kind":"Status","apiVersion":"v1","metadata":{},"status":"Failure","message":"inferenceservices.serving.kubeflow.org \"flower-sample\" not found","reason":"NotFound","details":{"name":"flower-sample","group":"serving.kubeflow.org","kind":"inferenceservices"},"code":404}
(404 오류 이유는 임의로 존재하지 않는 flower-sample inferenceservices를 get 해오도록 했기 때문입니다)
system:serviceaccount:jeawoo0594-30-8ynyugel:default 각 부분이 의미하는 바에 대해 찾아봤습니다.
system: Kubernetes의 시스템 네임스페이스를 나타냅니다. 네임 system스페이스는 시스템 관련 구성 요소 및 인프라용으로 예약되어 있습니다.
serviceaccount: 다음 섹션에서 service account를 식별함을 나타냅니다.
jeawoo0594-30-8ynyugel: service account가 존재하는 네임스페이스의 이름입니다. Kubernetes에서 네임스페이스는 리소스를 논리적으로 격리하고 서로 분리하는 방법을 제공합니다.
default: service account 자체의 이름입니다. default service account는 각 네임스페이스에 자동으로 생성되며 포드 배포 시 다른 service account가 지정되지 않은 경우 사용됩니다.