728x90
반응형
안녕하세요 늑대양입니다 🤗
가짜연구소에서 진행하는 아카데미 6기에 참여하게되어 관련된 블로그 포스팅을 진행하고자 합니다.
참여하는 스터디는 DE4E 로 Data Engineering for Everbody 의 줄임말이며, 데이터 엔지니어링 이 메인 주제입니다!
지난 주에는 OT가 진행되었고 돌아오는 일요일(23.04.02)부터 메인 스터디가 진행됩니다.
아래와 같이 청강도 가능하니, 관심있으신 분들은 같이 토론했으면 좋겠네요 😍
- 매주 일요일 11:00~12:00 진행!!
이번 포스팅에서는 금주에 진행될 아래의 스터디 주제에 대해, 미리 생각을 정리해보고자 합니다.
주제: Introduction to Data Engineering
부제: 도대체 Data Engineering이란 무엇일까?
- Data Engineering에 대한 정의, Data Engineer란?, Data Engineer의 역할
- (살펴보기) 국내 IT 서비스 기업의 Data Engineer 역할, 글로벌 IT 서비스 기업의 Data Engineer 역할
- 원천 데이터, 데이터 처리, 데이터 저장, 데이터 아키텍쳐 vs 데이터 파이프라인, Data Quality, Data Lineage
- 데이터 엔지니어가 반드시 알아야할 업무 용어 파헤치기
- Data Engineering LifeCycle
- 데이터 엔지니어링 생애 주기에 대해서 간단히 짚고 넘어가도록 하겠습니다.
- 서브 소주제
- Data Engineer Roadmap
- Modern Data Stack
- Modern Data Pipeline
- 데이터 엔지니어링 조직에서 실제 마주하는 문제/고민들
1. Definition
Data Engineering?
- 데이터 엔지니어링은 데이터를 수집, 저장, 처리, 분석 및 관리하는 기술적인 프로세스!
- 데이터 엔지니어링은 대규모 데이터의 처리와 관리에 중점을 둠
- 이를 위해, 데이터베이스, 데이터 파이프라인, ETL, 대규모 데이터 스토리지 및 분산 시스템과 같은 기술을 활용
- 데이터 엔지니어링은 데이터 파이프라인에서 데이터가 수집되고 처리되는 방식을 디자인하고 개발하며, 데이터가 저장 및 관리되는 방식을 설계
- 이러한 작업은 데이터의 무결성, 보안 및 가용성을 보장하며, 데이터의 잠재적인 가치를 최대한 끌어내기 위한 전략적인 방식으로 수행!!
Data Engineer?
- 데이터 엔지니어는 대량의 데이터를 수집, 저장, 처리, 분석 및 관리하는 역할을 수행하는 전문가
- 데이터 엔지니어는 데이터를 비롯한 복잡한 시스템과 인프라를 설계, 구축 및 운영하는데 필요한 기술을 가지고 있어야함
- 데이터 엔지니어는 데이터 웨어하우스, 데이터 레이크, ETL 프로세스 등 다양한 데이터 관련 기술을 이용하여 데이터를 추출, 변환 및 로드하고, 이를 분석하거나 다른 시스템과 통합
- 이를 위해 데이터베이스, 데이터 파이프라인, 클라우드 컴퓨팅, 대용량 데이터 처리 등과 같은 기술들을 이해하고 활용할 수 있어야 함
- 데이터 엔지니어는 데이터 과학자, 비즈니스 인텔리전스 전문가, 소프트웨어 엔지니어 및 기타 데이터 관련 전문가들과 함께 일하면서 데이터 시스템을 설계하고 개발
- 데이터 엔지니어는 데이터 기반 의사 결정에 중요한 역할을 함!!
2. Data blah-blah
Raw Data (원천 데이터):
- 원천 데이터는 수집된 데이터의 최초 형태이며, 아직 가공되지 않은 데이터
- 이러한 데이터는 보통 비구조화된(비정형) 형태이며, 일반적으로 분석 목적에 적합한 형태로 가공되기 전에는 실제로 사용되지 않을 확률이 높음
Data processing (데이터 처리):
- 데이터 처리는 원천 데이터를 분석 목적에 맞게 가공하는 과정을 의미
- 해당 단계에서는 데이터를 필터링하거나 결합하는 등의 작업을 수행하며, 이를 통해 데이터를 보다 유용하게 만들 수 있음!!
Data storage (데이터 저장):
- 데이터 저장은 처리된 데이터를 저장하는 과정
- 이 과정에서는 데이터베이스, 파일 시스템 등을 이용해 데이터 보관 진행
Data architecture (데이터 아키텍처):
- 데이터 아키텍처는 데이터 처리와 저장에 대한 구조를 정의
- 데이터 아키텍처를 구축함으로써 데이터 처리와 저장을 효율적으로 수행 가능
Data pipeline (데이터 파이프라인):
- 데이터 파이프라인은 데이터 처리 과정에서 여러 단계의 작업을 연결하는 일련의 과정
- 이를 통해 데이터 처리를 자동화하고 효율적으로 수행 가능
Data Quality (데이터 품질):
- 데이터 품질은 데이터가 정확하고 유효한지를 나타내는 지표
- 데이터 품질이 높으면 데이터의 활용도와 신뢰성이 높아짐😅
Data Lineage (데이터 계보):
- 데이터 계보는 데이터가 어디서 왔는지와 어떻게 변형되어 왔는지를 추적하는 과정
- 데이터 계보를 알고 있다면 데이터를 신뢰할 수 있는 소스로부터 가져왔는지, 그리고 데이터 처리 과정에서 어떤 변형을 거쳤는지 파악 가능
3. Life cycle
- 데이터 엔지니어링 라이프 사이클(Data Engineering Lifecycle)은 데이터 엔지니어링 프로젝트를 수행하는 방법을 설명하는 프레임워크!!
- 해당 프레임워크는 데이터 엔지니어링의 모든 단계를 포함하며, 데이터 엔지니어링 팀이 효율적으로 프로젝트를 수행할 수 있도록 함
- 데이터 엔지니어링 라이프 사이클에는 다음과 같은 단계가 포함
- 수집 (Collecting):
- 데이터 엔지니어링 프로젝트의 첫 번째 단계는 데이터를 수집하는 것
- 해당 과정을 통해, 여러 소스에서 데이터를 수집하고, 데이터베이스나 데이터 웨어하우스에 저장하는 과정을 포함
- 수집 과정에서는 데이터의 정확성과 일관성을 확인하는 것이 중요!!
- 저장 (Storing):
- 데이터를 수집한 후, 이를 저장하는 단계
- 해당 단계에서는 데이터를 저장할 데이터베이스, 데이터 웨어하우스, 데이터 레이크 등을 선택
- 저장 단계에서는 데이터의 무결성을 유지하기 위해 백업 및 복원 전략 정의 필요!!
- 처리 (Processing):
- 데이터를 저장한 후, 데이터를 가공하는 단계
- 해당 단계에서는 ETL(Extract, Transform, Load) 프로세스나 데이터 파이프라인을 사용하여 데이터를 변환하고, 필요한 형식으로 변환 진행
- 처리 단계에서는 데이터의 무결성과 일관성을 보장하는 것이 중요!!
- 분석 (Analyzing):
- 데이터를 가공한 후, 이를 분석하여 유용한 인사이트를 도출하는 단계
- 해당 단계에서는 데이터 시각화, 머신 러닝 및 딥 러닝 알고리즘 등을 사용하여 데이터를 분석 진행!!
- 관리 (Managing):
- 데이터 엔지니어링 라이프 사이클의 마지막 단계로 데이터를 관리하는 단계
- 관리 단계에서는 데이터의 보안, 접근 권한 및 용량을 관리
- 해당 단계에서는 데이터의 보안성을 유지하기 위한 정책 및 규정 수립 필요!!
- 이러한 단계를 수행함으로써 데이터 엔지니어링 팀은 데이터 엔지니어링 프로젝트를 효율적으로 수행할 수 있으며, 비즈니스에서 가치를 창출할 수 있는 데이터 기반 결정을 내릴 수 있음!!🥸
4. Bonus
- Data Engineer Roadmap
- Modern Data Stack
- Modern Data Pipeline
- 데이터 엔지니어링 조직에서 실제 마주하는 문제/고민들
Data Engineer Road map
참고할만한 URL 모음:
- https://github.com/datastacktv/data-engineer-roadmap
- https://www.analyticsvidhya.com/blog/2023/01/step-by-step-roadmap-to-become-a-data-engineer-in-2023/
- https://www.kdnuggets.com/2022/11/complete-data-engineering-study-roadmap.html
Modern Data Stack
참고할만한 URL:
Modern Data Pipeline
Problem/Issue or Something..
데이터 엔지니어링 조직에서는 다양한 문제와 고민이 있을 수 있습니다. 예를 들어, 데이터 파이프라인 구축과 유지보수, 데이터 품질 관리, 데이터 보안 등이 있을 수 있습니다. 이러한 문제들은 조직의 규모와 구성원들의 역할에 따라 다르게 나타날 수 있습니다. 또한, 데이터 엔지니어링 조직에서는 데이터 분석가나 데이터 사이언티스트와 같은 다른 직군과의 협업도 중요합니다. 이를 위해서는 서로의 역할과 책임을 명확히 하고 의사소통을 잘하는 것이 필요합니다. (Bing AI 가 전해준 예시)
긴 글 읽어주셔서 감사합니다 😘
728x90
반응형
'Study > 가짜연구소: DE4E' 카테고리의 다른 글
[가짜연구소] DE4E - Introduction to Data Engineering - 3주차 (0) | 2023.04.14 |
---|---|
[가짜연구소] DE4E - Introduction to Data Engineering - 2주차 (0) | 2023.04.09 |