새소식

반응형
Book

[직무탐구] 데이터 사이언티스트 (Data Scientist)

  • -
728x90
반응형

# 읽고 있는 도서의 p120 ~ 127 내용 참고 및 인용

 

데이터 커리어 가이드북 - 조성준 김현용, 박서영, 안용대, 임성현 지음 - 길벗

 

데이터 사이언티스트:

  • 방대한양의 데이터다양한 분석 기법을 적용함으로써 가치 있는 인사이트를 찾아내고 제공합니다.
  • 회사의 현재 상황정량적이고 과학적인 방법으로 분석
  • 머신러닝 등의 기법으로 미래의 상황을 예측

 

데이터 사이언티스트는 어떤 직무일까?

 

 

데이터 사이언티스트의 업무:

1. 포뮬레이션:

  • 포뮬레이션(Formulation)은 해결하고자하는 비즈니스 문제를 데이터 분석 문제로 바꾸는 과정
  • 비즈니스 문제에 따라 분석의 목표, 사용 기법, 필요한 데이터가 완전히 달라짐
  • 보유한 데이터에서 통계치를 내거나 여러 종류의 데이터 간 관계를 파악하기 위해 회귀분석 등의 기법을 적용
  • 머신러닝 또는 딥러닝 기반의 예측 모델을 활용

2. 전처리, EDA

  • 데이터 분석 문제를 세웠다면 다음 작업은 분석할 데이터를 모으는 것
  • 데이터 엔지니어가 구축한 파이프라인의 데이터 레이크나 데이터 웨어하우스에서 분석에 사용할 데이터를 수집
  • 데이터가 부족하거나 적합하지 않다면 조직 밖에서 데이터를 찾아 수집하기도 함
  • 웹 크롤러를 직접 구축하거나 API를 활용하기도 함
  • 분석과 전처리에 적합한 데이터 형태를 위해 데이터를 정리, 정돈하는 '필터링', '정제', '전처리'의 과정을 거쳐야 함
  • EDA(Exploratory Data Analysis)는 '탐색적 데이터 분석'이라는 의미로, 데이터탐색해 의미를 이해하는 과정
    • EDA를 통해, 데이터 분석에 어떤 데이터를 사용할것인지 결정하기 전에 데이터를 다각도로 들여다보고, 도출할 수 있는 인사이트를 고민하며, 부족한 부분을 보완
    • 이상치 데이터(Outlier data)나 누락된 데이터 등과 같은 잘못된 데이터가 있는지 확인
    • 잘못된 데이터가 있다면 얼마나 있는지 등을 확인
    • 사용할 수 없는 데이터가 부족하다고 판단되면 데이터 수집 단계뿌터 다시 진행

 

참고 사항) 더티 데이터 (Dirty data):

  • 데이터 정제 과정을 거치지 않아 가공 오류를 포함하고 있는 데이터
  • 아직 깔끔하게 정리되지 않아 지저분한 상태의 데이터
  • 더티 데이터의 다양한 유형:
    • 누락된 데이터(Missing data)
    • 잘못된 데이터(Wrong data)
    • 구식 데이터(Outdated data)
    • 비표준 데이터(Non-standard conforming data)
    • 모호한 데이터(Ambiguous data)

 

3. 모델링, 검증:

  • 데이터 분석 문제의 해답을 얻기 위한 과정
  • 프로그래밍을 통해 분석에 적합한 모델을 만든 후 데이터에 적용해 결과를 도출하는 과정
  • 다양한 모델의 작동 원리, 장단점, 특징 등을 정확하게 파악하고 있어야 함
  • 도출된 결과는 면밀하게 분석 > 검증
  • 모델을 즉시 실무에 적용해도 무리가 없을지 판단하는 검증 과정이 중요

 

 

성공 요소:

업무에 필요한 지식 및 스킬:

  • 데이터 마이닝, 머신러닝, 통계 기법 등 관련 분야에 대한 풍부한 수학적, 통계학적 지식이 필요
  • 해결하고자 하는 문제에 가장 적합한 모델을 선정하고, 도출된 결과를 정확히 파악하기 위해서는 모델의 작동 방식과 알고리즘 이해 필요
  • 방대한 양의 데이터를 빠르고 효율적으로 다루고 모델링을 진행하기 위한 프로그래밍 능력 필요 (주로 '파이썬', 'R')
  • 데이터 웨어하우스에서 데이터를 가져올 때 필요한 SQL에 대한 기초 지식 필요
  • 분산 처리와 성능 문제를 해결하기 위한 컴퓨터공학적 지식이 많을수록 업무에 많은 도움
  • 구축된 파이프라인에 대한 이해도 필요

 

성향 및 태도:

  • 스스로 질문할 수 있는 능력을 갖춘 호기심이 많은 성향
  • 분석 결과에 단순히 순응하는 것이 아니라 왜 이런 결과가 나왔는지 끊임없이 탐구
  • 새로운 인사이트를 도출할 수 있는 사고력 겸비
  • 발전하는 기술에 관심을 갖고 스스로 탐색해 적용하는 능력
  • 새로운 모델과 기술이 끊임없이 등장하므로 이를 따라갈 수 있는 학습 능력 필요
  • 의사소통 능력 

 

 

 

감사합니다 :)

 

 

728x90
반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.