728x90
반응형
안녕하세요 늑대양입니다 🤗
가짜연구소에서 진행하는 아카데미 6기에 참여하게되어 관련된 블로그 포스팅을 진행하고자 합니다.
참여하는 스터디는 DE4E 로 Data Engineering for Everbody 의 줄임말이며, 데이터 엔지니어링 이 메인 주제입니다!
이번 포스팅에서는 금주에 진행될 아래의 스터디 주제에 대해, 미리 생각들을 정리해보고자 합니다.
주제: Data Transformation and Cleaning
- Data cleaning techniques
- Data transformation and normalization
- Joining and aggregating data from multiple sources
- Dealing with missing data
- 데이터를 수집한 이후에는 어떤 처리를 해야할까?
- 중복 데이터, 사용하지 않는 데이터, 가공이 필요한 데이터를 어떻게 분류할 수 있을까?
- 데이터를 처리하는 방법은 어떻게 될까?
- 데이터 처리, 변환, 정규화 등의 과정
- 조인, 집계 및 결측치에 대한 처리 방안
Spark
Spark 란
- Spark는 데이터 엔지니어링, 데이터 사이언스, 머신러닝 등의 작업을 실행할 수 있는 multi-language 엔진/프레임워크
- 단일 노드 뿐만 아니라 cluster 형태로 대량의 컴퓨팅 자원 사용 가능
- 대량의 데이터에 대해, 분산된 컴퓨팅 처리를 신뢰성 있게 진행 가능
Spark의 주요 기능
- Batch/streaming data
- 하나의 프로그래밍 모델과 프레임워크로 batch 처리와 real-time streamin을 통합 개발 가능
- Python, R, scala, java, SQL 등 다양한 언어로 개발 가능
- SQL Analytics
- 반복된 쿼리, ad-hoc 쿼리 모두 ANSI SQL로 빠르게 분산된 처리 결과 확인 가능
- 기존(mapreduce-hive, impala)의 다양한 data warehouse 솔루션 보다 빠름
- Data science at scale
- Petabyte-scale 데이터에 대해, down-sampling 없이도 EDA 수행 진행 가능
- ML
- ML알고리즘을 학습시킬 수 있으며, 로컬에서 작성하고 수행한 코드가 수 천대의 클러스터에서도 동일하게 동작!
긴 글 읽어주셔서 감사합니다 😘
728x90
반응형
'Study > 가짜연구소: DE4E' 카테고리의 다른 글
[가짜연구소] DE4E - Introduction to Data Engineering - 2주차 (0) | 2023.04.09 |
---|---|
[가짜연구소] DE4E - Introduction to Data Engineering - 1주차 (4) | 2023.03.30 |