728x90
반응형
# 읽고 있는 도서의 p120 ~ 127 내용 참고 및 인용
데이터 사이언티스트:
- 방대한양의 데이터에 다양한 분석 기법을 적용함으로써 가치 있는 인사이트를 찾아내고 제공합니다.
- 회사의 현재 상황을 정량적이고 과학적인 방법으로 분석
- 머신러닝 등의 기법으로 미래의 상황을 예측
데이터 사이언티스트의 업무:
1. 포뮬레이션:
- 포뮬레이션(Formulation)은 해결하고자하는 비즈니스 문제를 데이터 분석 문제로 바꾸는 과정
- 비즈니스 문제에 따라 분석의 목표, 사용 기법, 필요한 데이터가 완전히 달라짐
- 보유한 데이터에서 통계치를 내거나 여러 종류의 데이터 간 관계를 파악하기 위해 회귀분석 등의 기법을 적용
- 머신러닝 또는 딥러닝 기반의 예측 모델을 활용
2. 전처리, EDA
- 데이터 분석 문제를 세웠다면 다음 작업은 분석할 데이터를 모으는 것
- 데이터 엔지니어가 구축한 파이프라인의 데이터 레이크나 데이터 웨어하우스에서 분석에 사용할 데이터를 수집
- 데이터가 부족하거나 적합하지 않다면 조직 밖에서 데이터를 찾아 수집하기도 함
- 웹 크롤러를 직접 구축하거나 API를 활용하기도 함
- 분석과 전처리에 적합한 데이터 형태를 위해 데이터를 정리, 정돈하는 '필터링', '정제', '전처리'의 과정을 거쳐야 함
- EDA(Exploratory Data Analysis)는 '탐색적 데이터 분석'이라는 의미로, 데이터를 탐색해 의미를 이해하는 과정
- EDA를 통해, 데이터 분석에 어떤 데이터를 사용할것인지 결정하기 전에 데이터를 다각도로 들여다보고, 도출할 수 있는 인사이트를 고민하며, 부족한 부분을 보완
- 이상치 데이터(Outlier data)나 누락된 데이터 등과 같은 잘못된 데이터가 있는지 확인
- 잘못된 데이터가 있다면 얼마나 있는지 등을 확인
- 사용할 수 없는 데이터가 부족하다고 판단되면 데이터 수집 단계뿌터 다시 진행
참고 사항) 더티 데이터 (Dirty data):
- 데이터 정제 과정을 거치지 않아 가공 오류를 포함하고 있는 데이터
- 아직 깔끔하게 정리되지 않아 지저분한 상태의 데이터
- 더티 데이터의 다양한 유형:
- 누락된 데이터(Missing data)
- 잘못된 데이터(Wrong data)
- 구식 데이터(Outdated data)
- 비표준 데이터(Non-standard conforming data)
- 모호한 데이터(Ambiguous data)
3. 모델링, 검증:
- 데이터 분석 문제의 해답을 얻기 위한 과정
- 프로그래밍을 통해 분석에 적합한 모델을 만든 후 데이터에 적용해 결과를 도출하는 과정
- 다양한 모델의 작동 원리, 장단점, 특징 등을 정확하게 파악하고 있어야 함
- 도출된 결과는 면밀하게 분석 > 검증
- 모델을 즉시 실무에 적용해도 무리가 없을지 판단하는 검증 과정이 중요
성공 요소:
업무에 필요한 지식 및 스킬:
- 데이터 마이닝, 머신러닝, 통계 기법 등 관련 분야에 대한 풍부한 수학적, 통계학적 지식이 필요
- 해결하고자 하는 문제에 가장 적합한 모델을 선정하고, 도출된 결과를 정확히 파악하기 위해서는 모델의 작동 방식과 알고리즘 이해 필요
- 방대한 양의 데이터를 빠르고 효율적으로 다루고 모델링을 진행하기 위한 프로그래밍 능력 필요 (주로 '파이썬', 'R')
- 데이터 웨어하우스에서 데이터를 가져올 때 필요한 SQL에 대한 기초 지식 필요
- 분산 처리와 성능 문제를 해결하기 위한 컴퓨터공학적 지식이 많을수록 업무에 많은 도움
- 구축된 파이프라인에 대한 이해도 필요
성향 및 태도:
- 스스로 질문할 수 있는 능력을 갖춘 호기심이 많은 성향
- 분석 결과에 단순히 순응하는 것이 아니라 왜 이런 결과가 나왔는지 끊임없이 탐구
- 새로운 인사이트를 도출할 수 있는 사고력 겸비
- 발전하는 기술에 관심을 갖고 스스로 탐색해 적용하는 능력
- 새로운 모델과 기술이 끊임없이 등장하므로 이를 따라갈 수 있는 학습 능력 필요
- 의사소통 능력

감사합니다 :)
728x90
반응형
'Book' 카테고리의 다른 글
[직무탐구] 데이터 애널리스트 (Data Analyst) (0) | 2022.08.16 |
---|---|
[직무탐구] 데이터 엔지니어 (Data Engineer) (0) | 2022.08.15 |
[책갈피] 개발자로 살아남기 - 06 (0) | 2022.08.07 |
[책갈피] 개발자로 살아남기 - 05 (0) | 2022.08.06 |
[책갈피] 개발자로 살아남기 - 04 (0) | 2022.08.01 |