728x90
반응형
안녕하세요 늑대양입니다 🤗
가짜연구소에서 진행하는 아카데미 6기에 참여하게되어 관련된 블로그 포스팅을 진행하고자 합니다.
참여하는 스터디는 DE4E 로 Data Engineering for Everbody 의 줄임말이며, 데이터 엔지니어링 이 메인 주제입니다!
이번 포스팅에서는 금주에 진행된 아래의 스터디 주제에 대해, 토론한 내용을 정리해보고자 합니다.
주제: Data Sources and Data Collection
- Types of data sources
- Collection and processing of structured and unstructured data
- Introduction to data pipelines and data ingestion techniques
- Batch vs. Streaming Data
- OLTP, OLAP
- ETL, ELT
- Database
- Structured data and unstructured data
- SQL and NoSQL
데이터 분석, 데이터 과학, 데이터 서비스 개발을 위한 데이터로는 어떤 데이터가 있을까?
- RDBMS / NOSQL DataBase
- API
- Log File
- Streaming Data
- Image
- IoT
- IT 서비스가 이루어지는 모든곳에서 데이터는 발생됨. 따라서 모든곳이 DataSource
- Business Intelligence 관점에서 봤을 때:
- 엑셀, RDMBS(SQL), Web Analytics (대표적인 예: Google Analytics), SNS나 인터넷 상 사이트 접속 기록 등등
- 데이터 엔지니어링 관점에서:
- source file format이 structured인가 unstructured인가?
- API
- OLTP database
- OLAP database
- Log(출처: 애플리케이션, 서버, IoT 디바이스 등)
- Third Parties(정부 기관, 통계청, Facebook, 또는 자체 API로 제공하는 타 기업 등)
- 데이터 엔지니어들이 data source system에는 관여할 수 있는 범위?
데이터의 종류(자료형)별 특징은 어떻게 될까?
Log
- 반정형 데이터라고 할 수 있고 시간정보가 포함된다. Event Data를 파일로 남기게되면 일반적으로 로그라고 부른다.
Image Data
- 일반적으로 파일 크기가 크고 RDBMS에 넣지않는다. (Serialize를 통해 넣을수는 있다.)
- 일반적으로 파일의 경로 또는 URL만 RDBMS에 저장하고 추가 메타데이터들만 넣게된다.
Streaming Data
- 바로 생성되어 저장되지 않는 데이터는 바로 전송하는 방법밖에는 없다.
- 실시간으로 생성되는 데이터이기 때문에 데이터 유실이 발생할 수 있습니다.
IoT Data
- MQTT(MQ Telemetry Transport)등의 오버헤드가 작은 프로토콜로 데이터를 전송한다.
728x90
반응형
'Study > 가짜연구소: DE4E' 카테고리의 다른 글
[가짜연구소] DE4E - Introduction to Data Engineering - 3주차 (0) | 2023.04.14 |
---|---|
[가짜연구소] DE4E - Introduction to Data Engineering - 1주차 (4) | 2023.03.30 |