안녕하세요 늑대양입니다 🤗 가짜연구소에서 진행하는 아카데미 6기에 참여하게되어 관련된 블로그 포스팅을 진행하고자 합니다. 참여하는 스터디는 DE4E 로 Data Engineering for Everbody 의 줄임말이며, 데이터 엔지니어링 이 메인 주제입니다! 이번 포스팅에서는 금주에 진행될 아래의 스터디 주제에 대해, 미리 생각들을 정리해보고자 합니다. 주제: Data Transformation and Cleaning Data cleaning techniques Data transformation and normalization Joining and aggregating data from multiple sources Dealing with missing data 데이터를 수집한 이후에는 어떤 처리를..
안녕하세요 늑대양입니다 :) Megabyte School에서 진행하는 AI 데이터 사이언티스트 취업 완성 과정을 수강하게 되어 카테고리 신설 및 인트로를 작성합니다. 자고 일어나면 OT 일정부터 시작 ㅇㅅㅇ.. 메가바이트 스쿨은 패스트캠퍼스에서 운영하는 산하기관 혹은 교육 프로그램으로 이해했으며, 다앙한 교육 프로그램들이 있으니 관심있으신 분들은 아래의 링크를 통해 자세한 내용을 확인하시면 좋을 것 같습니다. 메가바이트 스쿨 소개 링크 내일배움아카데미 : K-Digital Traning 메가바이트 스쿨 | 패스트캠퍼스 패스트캠퍼스에서 국비지원으로 '무료' 수강하는 기업연계 취업 부트캠프 fastcampus.co.kr 간단한 과정 개요로는 국비지원 6개월 과정이며, 코로나의 영향으로 온오프라인 병행 방식으..
# 읽고 있는 도서의 p138 ~ 142 내용 참고 및 인용 데이터 리서처: 기업의 채용 공고에서 데이터 리서처는 최소 자격 요건으로 박사 학위를 제시합니다. 그만큼 데이터 리서처는 빅데이터 전문 인력 중에서도 좀 더 높은 수준의 빅데이터 전문 지식을 갖춘 연구 인력이라는 인식이 강합니다. 데이터 리서처의 업무: 1. 데이터 분석 관련 알고리즘 개발: 데이터 리서처는 데이터 분석을 위한 알고리즘을 개발합니다. 그리고 데이터 리서처의 연구 성과는 논문과 학회에서 활발하게 발표됩니다. 데이터 리서처가 개발한 알고리즘이 곧바로 실무에 적용 되는 경우도 있지만, 당장 적용되지 않더라도 미래에 중요한 가치를 창출할 수 있습니다. 2. 최신 연구 공부 및 알고리즘 구현: 빅데이터를 활용하려면 새로운 알고리즘을 파악..
# 읽고 있는 도서의 p106 ~ 111 내용 참고 및 인용 데이터 애널리스트: 데이터 애널리스트의 역할은 경영진을 비롯한 여러 이해관계자가 데이터를 올바르게 이해하고 데이터에서 가치를 발굴하도록 도와주는 것입니다. 이를 통해 기업이 현재 속한 상황을 정확하게 진단할 뿐만 아니라 앞으로 나아갈 방향을 제시합니다. 데이터 애널리스트의 업무: 1. 데이터 준비: 데이터 애널리스트는 데이터를 활용해 조직의 현재 상태를 진단하기 위한 '데이터 준비', '데이터 분석을 통한 비즈니스 인사이트 도출', '데이터 시각화' 등과 같은 업무를 수행합니다. 데이터 애널리스트는 주로 이미 기업이 보유하고 있는 정형 데이터(Structured Data)를 활용합니다. '데이터 준비'란 이런 정형 데이터 중에서 필요한 데이터를..
# 읽고 있는 도서의 p86 ~ 93 내용 참고 및 인용 데이터 엔지니어: 데이터 엔지니어는 조직 내 데이터의 운용을 담당합니다. 데이터 엔지니어가 데이터를 활용하기 위해 환경을 어떻게 구성하는지, 정확히 어떤 업무를 맡는지 알아보겠습니다. 데이터 엔지니어의 업무: 1. 요구사항 분석: 데이터 엔지니어의 업무는 최종 데이터 사용자의 요구사항을 분석하는 것에서 시작 최종 데이터 사용자 예시: 같은 회사 내에서 데이터를 활용한 서비스를 운영하고 관리하는 부서 회사의 고객 등 데이터 사용자의 요구사항을 잘 분석하기 위해 최종 데이터 사용자와 함께 필요한 기능과 요건을 구체적으로 정리 2. 파이프라인 구축, 관리 및 유지 보수: '물의 순환'과 같이 데이터도 여러 과정을 거쳐 순환하며, 데이터가 흐르는 과정을 ..
# 읽고 있는 도서의 p120 ~ 127 내용 참고 및 인용 데이터 사이언티스트: 방대한양의 데이터에 다양한 분석 기법을 적용함으로써 가치 있는 인사이트를 찾아내고 제공합니다. 회사의 현재 상황을 정량적이고 과학적인 방법으로 분석 머신러닝 등의 기법으로 미래의 상황을 예측 데이터 사이언티스트의 업무: 1. 포뮬레이션: 포뮬레이션(Formulation)은 해결하고자하는 비즈니스 문제를 데이터 분석 문제로 바꾸는 과정 비즈니스 문제에 따라 분석의 목표, 사용 기법, 필요한 데이터가 완전히 달라짐 보유한 데이터에서 통계치를 내거나 여러 종류의 데이터 간 관계를 파악하기 위해 회귀분석 등의 기법을 적용 머신러닝 또는 딥러닝 기반의 예측 모델을 활용 2. 전처리, EDA 데이터 분석 문제를 세웠다면 다음 작업은 ..
# page 65 ~ 73 Chapter 02. 데이터 다루기: 핵심 키워드: 지도 학습 비지도 학습 훈련 세트 테스트 세트 지도 학습과 비지도 학습: "머신러닝 알고리즘은 크게 지도 학습(supervised learning)과 비지도 학습(unsupervised learning)으로 나눌 수 있습니다." "지도 학습에서는 데이터와 정답을 입력(input)과 타깃(target)이라고 하고, 이 둘을 합쳐 훈련 데이터(training data)라고 부릅니다." "그리고 앞서 언급했듯이 입력으로 사용된 길이와 무게를 특성(feature)이라고 합니다." "지도 학습은 정답(타깃)이 있으니 알고리즘이 정답을 맞히는 것을 학습합니다." "반면 비지도 학습 알고리즘은 타깃 없이 입력 데이터만 사용합니다." "머신..
# Page 01~43 Chapter 01. 나의 첫 머신러닝 (이 생선의 이름은 무엇인가요?) 핵심 키워드: 인공지능 머신러닝 딥러닝 학습 목표: 인공지능, 머신러닝, 딥러닝의 차이점을 이해합니다. 구글 코랩 사용법을 배웁니다. 첫 번째 머신러닝 프로그램을 만들고 머신러닝의 기본 작동 원리를 이해합니다. 01-1. 인공지능과 머신러닝, 딥러닝 인공지능이란: 인공지능(Artificial Intelligence)은 사람처럼 학습하고 추론할 수 있는 지능을 가진 컴퓨터 시스템을 만드는 기술입니다. 인공지능의 역사는 약 80년 남짓 되었지만 인류는 훨씬 더 오래전부터 지능적인 시스템을 생각했습니다. 인공지능은 강인공지능과 약인공지능으로 나눌 수 있습니다. 사람과 구분하기 어려운 지능을 가진 컴퓨터 시스템이 인..