[데이터분석]/Python | AI | 머신러닝

실무 중심의 데이터 분석 방법 Part.4

dowon 2024. 7. 29. 22:18

Cloud

데이터를 인터넷과 연결된 중앙컴퓨터에 저장하여 인터넷에 접속하기만 하면 언제든지 서비스를 이용할 수 있음을 의미

Cloud를 이용하면 작업한 컴퓨터에서만 데이터를 불러올 수 있는 것이 아니라 마치 여러 장소에서 동일한 구름을 관찰할 수 있듯이 어디서나 필요한 서비스를 활용할 수 있음

 

-2022년에는 대기업 신규 소프트웨어 투자의 30% 이상이 Cloud Only 전략 채택됨

(관리, 비용 측면에서 cloud가 압도적으로 우세하기 때문)

 

Public Cloud

서비스 유지를 위한 모든 인프라와 IT기술을 클라우드 사업자에서 제공 받는 형태

-IaaS (infrastructure as a service): 클라오드 사업자는 infrastructure만 서비스로 제공해주고, 기업 자체에서 필요한 앱, 서비스 등을 구축하는 것

-PaaS (platform as a service): infrastructure 위에서 동작할 수 있는 아키텍처 앱이나 API등의 개발 컴포넌트를 함께 제공해주는 서비스

-SaaS (software as a service): 각종 소프트웨어나 어플리케이션까지 제공하는 서비스 형태

 

Hybrid Cloud

IT기술은 클라우드 사업자에게 제공받고 서비스 유지를 위한 인프라를 기업의 것과 클라우드를 혼용하는 형태

 

Private Cloud

인프라 확충은 쉽지만, IT기술을 확보하는 것은 어렵기 때문에 클라우드 사업자가 IT기술만 따로 패키징해서 판매하는 형태


On-premise

✅Legacy system을 Cloud로 전환하는 것은 많은 비용과 Risk를 수반

✅ 여전히 많은 회사에서 On-premise에서 서비스를 운영 중

✅ 그럼에도 불구하고 대부분의 회사에서는 Cloud 도입을 검토하고 있거나 PoC 수행중

✅ Cloud 환경에서 분석이 가능한 분석가와 Local에서만 분석 가능한 분석가

✅ Cloud를 몰라도 분석은 할 수 있지만, Cloud를 아는 분석가는 경쟁력을 확보할 수 있음

 

MLOps

✅ 초기 ML 프로세스와는 다르게 상당히 복잡한 형태의 모델 파이프라인이 운영중

✅ On-premise의 경우에는 회사별 상이한 파이프라인에 대한 숙지 필요

※ 매우 복잡하고 현재 쓰이지 않는 솔루션을 사용하기도 함

✅ Public Cloud도 사업자 별로 상이한 형태의 파이프라인을 제공

✅ 하나의 Public Cloud를 통해 MLOps에 대한 개념을 잡아두면 다른 파이프라인은 비교적 쉽게 이해할 수 있음

✅ 모델 파이프라인에 대한 이해를 통해 데이터의 문제, 모델의 문제 등 문제 발생 원인을 특정할 수 있게 되어, 엔지니어들과 원활한 의사소통 가능★

 

AWS SageMaker

Azure Machine Learning


S3

Simple Storage Service를 줄여서 부르는 Object Storage 서비스

디렉토리 구조로 파일 시스템처럼 사용할 수 있음

Glue Catalog 서비스를 통해 DB처럼 사용할 수도 있음 (SQL 사용 가능)

 

Data Loading from S3

boto3: Python용 AWS SDK (software development kit) : boto4는 AWS의 다양한 서비스를 python script를 통해 사용할 수 있도록 해주는 도구