안녕하세요 늑대양입니다 :)
오늘은 [AI 데이터 사이언티스트 취업 완성 과정]의 첫째 날 일과를 정리하여 안내해드리도록 하겠습니다.
교육을 받는 장소는 신분당선 4번 출구에 위치한 미왕빌딩 11층 C 강의실 입니다.
강의를 받는 곳은 쾌적하며, 자리에 따로 컴퓨터는 배치되어 있지 않습니다.
위 사진처럼 출석 체크는 QR 코드를 사용하여 진행합니다.
0. Contents:
01. 과정 소개
02. 슬기로운 MGS 생활
03. 행정문의
04. DS란?
05. 아이스브레이킹 & Quiz Time
06. AI 특강
15:00 부터 출석 체크 후, 본격적으로 OT가 진행되었습니다.
1. K-digital training 코스 및 패스트캠퍼스 소개:
1. HRD-NET(K-digital training) 수료기준: 총 수업일수의 80% 이상 출석
2. 패스트캠퍼스 수료 기준: 3가지 기준 합 60점 이상
패스트캠퍼스 수료기준을 만족한 수강생에게는 특별한 혜택이 제공됩니다.
- 전체 출석률: 30%
- 워크시트: 30%
- 프로젝트: 40%
2-1. 패스트캠퍼스 수료혜택:
- 추가 온라인 강의 제공
- 패스트러너 커뮤니티
- 추가적인 커리어 서비스
2. 커리큘럼:
- 데이터 분석
- 머신러닝
- 딥러닝
- 딥러닝 트랙학습
1. 시간표 소개:
- 구글 드라이브 및 시트를 통한 공유
- 파이썬 기본으로 시작하여 포트폴리오 까지 진행되는 과정 간략 소개
2. 선택학습 코너:
- 보충 학습 or 심화학습 가능
- 혼동 방지를 위해, 슬랙 공지로 추가 안내
2-1. 회색 블럭:
- 온라인 강의장을 통한 수업 (수강생을 위한 커스텀한 강의 공간)
- 필수 및 권장 강의로 구성
- 날짜별로 수강할 수 있는 학습 범위가 구글 독스에 명시
- 링크 접속 시, 수강할 수 있는 강의 표시
2-2. 파란색 블럭:
- 강사님 출강 강의
3. 게더타운을 활용한 출석체크 및 스터디 진행
4. 워크시트 작성:
- 작성 메뉴얼은 노션 게시글로 가이드
- 구글 드라이브 or 노션 페이지 or 블로그를 통해 업로드 및 링크 전달
- 제출 기한: 금요일 13시 (스케쥴에 따라 유동)
5. 랜덤 조별 회고:
- 주차별 학습 내용을 조원들과 공유하며 스터디 진행
6. 다양한 학습 Tool 안내:
- 슬랙
- 패스트캠퍼스 온라인 강의장
- 게더타운
- 이름은 실명으로 입력
- 카메라 및 오디오 on
7. 출석 체크 방법:
- 1시에 QR 체크로 출근 확인 및 10시 퇴근 체크 진행 (퇴근 체크 시, 당일 출석 인정)
- 온라인 수업의 경우, 19시에 추가 출석 체크 진행 (게더타운에서 진행)
8. 집체 훈련 수강 방법:
- 코로나로 인해 별도 안내 전, 비대면(zoom)을 통한 수업 진행 가능 (선택사항)
- 강사님은 항시 오프라인 출강
- 오프라인 참석하여 수강 가능(오프라인으로 질문 등 액티브한 수강 가능)
- 강의 녹화 같은 경우는 강사님 별로 제공할지/안할지가 다르며, 녹강 제공시, 한 달정도의 기한을 두어 제공 예정
- 인강(온라인 강의장)의 경우, 시간에 상관없이 언제든지 수강 가능(복습과 심화의 목적, 24시간 오픈)
- 원하는 추가 강의가 있을 경우, 신청하여 수강 가능(일괄적으로 신청하는 기간 공지 예정)
3. 행정문의:
1. 출결 처리 기준:
훈련일마다 수강 시작 및 종료 시 출석 여부 관리
- 지각, 조퇴 혹은 외출은 3회 당, 1일 결석처리
- 훈련시간 중 50% 미만 참여시, 결석처리
1-1. 출석 인정 사유:
면접, 시험 등은 출석 인정
날짜, 이름 정보에 대한 증빙자료가 반드시 필요(면접 확인서, 백신 접종, 병원 진료 또는 사고 등)
2. 행정 서류 요청 방법:
국취제 관련 수강 증명서 등은 슬랙 #행정문의 채널에서 양식을 참고하여 신청 가능
관련 내용은 FC 하시* 매니저님이 담당
3. 훈련 장려금:
140시간 이상의 교육과정에 참여하는 훈련생 중 특정 요건 충족(실업자, 주15시간 미만 재직자 등) 시, 훈련기간 동안 식비 및 교통비 지원
04. Learning manager의 과정 소개:
1. 데이터 분석이 중요한 이유 - 빅데이터의 등장
2. 정보의 분류:
- 지혜(Wisdom)
- 지식(Knowledge)
- 정보(Information)
- 데이터(Data)
3. 빅데이터의 종류:
- 정형데이터
- 비정형데이터
- 반정형데이터
4. 국내 빅데이터 및 분석 시장:
- 향후 5년간 연평균 성장률 6.9%
- 2025년까지 2조 8353억원 규모
5. 데이터 관련 직무들:
- 데이터 엔지니어(데이터 수집/정제 개발자)
- 데이터 애널리스트(사업전략 데이터 분석가)
- 데이터 사이언티스트(AI 모델링 개발자)
6. AI 4기 Learning Manager 소개:
6-1. PM 총괄:
FC 김예* 매니저님
이전 과정인 3기 및 현 4기 담당
6-2. LM 소개:
LM님은 바로 곁에서 출석체크, 수업도 같이들으시며, 힘들 때 도움을 주시는 분 (당신은 천사...?!)
6-2-1. 윤진* LM님 (AI 4기 LM)
프로젝트: 가스공사 가스공급량 수요예측 모델개발
다짐: 수강생 여러분들이 좋은 학습환경에서 지내실 수 있도록 도움드리겠습니다.
중학 수학부터 머신러닝에 필요한 수학적 지식을 가이드한 경험 등 다양한 지원
6-2-2. 채병* LM님 (AI 3기 LM)
프로젝트: 특정 키워드를 가진 구직 정보를 찾는 자동화 시스템
다짐: 수강생 여러분들이 불편함 없이 학습하실 수 있도록 가장 가까운 곳에서 최선을 다하겠습니다.
- DACON: 국내에서 진행하는 AI 경진대회 사이트에서 팔당댐 홍수 안전운영에 따른 한강 수위예측 AI 경진대회 프로젝트에 참여중
- AI팩토리: 2022년 스마트농업 AI 경진대회 (오픈 카톡으로 구성된 팀), 총상금 1억! ㅇㅅㅇ..
7. 설문조사 작성 및 서약서 작성 진행:
내일 배움 카드는 이번 주 목요일까지 발급 및 수강신청은 금요일까지 완료 요청
8. 슬랙 사용 가이드 안내:
- 코드 질문방
- 정보 공유방
- 자유 질문방 등등
9. 게더타운 사용 가이드 안내:
스터디룸 등 메타버스 시설은 이미 구성 완료
10. 아이스 브레이킹:
- 타인소개:
- 팀로고 소개:
- Quiz Time:
10-1. 타인소개:
김재* 님
손해* 님
김하* 님
10-2. 팀로고 소개:
머신돈파!!!!
아이스브레이킹 게임! 꿀잼! 허니잼!
맛집 소개:
- 우동명가기리마야본진 - 자루소바
- 탄 - 돈까스
6시 부터 7시까지 저녁시간!!!
05. Understanding AI & DS:
부제: 인공지능 기술과 데이터 분석 적용 이해하기
김용* 강사님
- 컴퓨터공학과 학사
- 머신러닝 관련 석사(텍스트 마인, 클러스터링)
- 패스트캠퍼스 전속강사
- B2B 강의를 많이 진행중이심 (오늘도 내일도...)
- 온라인 강의도 진행중
- 1~4기 담당
- 3기는 22일 기준 딥러닝 시작 (3개월 먼저 진행)
Contents:
1. What is AI?
2. What is Data Science?
3. How to apply?
기수가 지날 수록 조금씩 커리큘럼이 개선
4기의 경우, 머신러닝 파트가 많이 할당
Final goal? > Kaggle Competition
기술 입증 방법:
1. 프로젝트 진행 (회사)
2. 연구 (학회 등)
3. 캐글
EDA 프로젝트부터 캐글을 슬슬 보기 시작함
머신러닝을 배우면 참여가 가능한 정도
6개월 부트캠프의 목표:
- 머신러닝 문제 정의, 모델 분석, 해결
- 메인은 파이썬
Google Universal Image Embedding 컴피티션을 강사님이 현재 진행중
- 대회 목적: 비슷한 이미지에 대한 검색 기능 개발
- 데이터셋을 주지 않고 있음
- 원하는 목적에 맞는 코드를 짤 수 있느냐
이런걸 하려면 기초는 파이썬!
코딩을 모른다면 처음에 정말 많이 연습을 해야한다.
코딩을 좀 할줄안다 싶으면 바로 코테 과정으로 넘어가서 진행을 권장!
1, 2기 졸업자 중에서는 AI 창업, 데이터 분석가, 대기업, 본인 분야, 대학원 가신 분등, 개인의 목적에 맞게 다양히 진출함!
본인의 니즈에 맞게 진행하는 것을 추천!
1. What is AI?
인공지능과 머신러닝, 딥러닝:
- AI의 핵심 컨셉: 휴먼만큼 똑똑한가?(Strong AI)를 판단하는 것
- 머신러닝 기술을 진짜 사용하게 된 것은 2000년대 후반 > 데이터가 필요했기 때문에
딥러닝:
ILSVRC(ImageNet Large Scale Visual Recognition Challenge)
- 대용량 이미지 분류, 본격적인 딥러닝 연구의 시작
- 수많은 사진을 분류하는 퀘스트
- 15년 ResNet이 3.57 에러로 사람을 이기면서 화제가 됨 (사람은 4점대 에러)
AlphaGo:
딥러닝 대중화의 시작 (2016년 3월)
빠르게 발전하기 때문에 하나를 알면 모르는 게 10개쯤 생기는 분야
Weak AI, General(Strong) AI:
인공지능의 종류:
Weak AI: 특정 기능을 잘하는 AI
Strong AI: 아직 없으며 이리로 가고 싶어함, Multi-modal 연구를 중점으로 진행 중
Multi-modal:
- 이미지-음성, 이미지-텍스트 등 두 개의 도메인을 다룸
- 컴퓨터에게 이미지를 주고 자막을 다는 이미지 캡처링 등
- 2020년 OpenAI의 클립이라는 모델 (성능이 많이 좋음)
- 데이터를 45억장 학습 시킴
- 굉장히 잘됨
DALL-E:
- 2021년의 달리라는 모델
- 텍스트를 넣으면 이미지를 만들어줌
- AI 아티스트
- 달리도 성능이 엄청 좋음
- 2022년 달리2가 나옴
- 달리2는 거의 '이게 되네?' 급임
- 디테일하게 자세하게 그릴 수 있음
딥마인드:
- 가토라는 모델
- 600개의 테스크 처리 가능
- 핀볼 게임을 하며, 그림도 그리고, 분류도 하고 등등의 600개 테스크를 동시 처리 가능
현업에서는 인간을 대체하는 방향으로 가고 싶어함
- 업무자동화(RPA, Robotic Process Automation)가 포커스
- 엑셀, 메크로 등이 예시 (노가다성 작업)
- 업무자동화의 레벨이 점차 높아지고 있음
- 옛날에는 안되던게, 현재 되는게 많음
- 구글 번역기, 자율 주행 등등 다양한 분야에서 개발 중
- 아직은 사람이 많이 개입해야함
지금은 머신러닝, AI가 인기가 많음
요즘엔 컴퓨터를 잘 다루는사람이 많음, 컴퓨터를 잘 이해해야함
현재 핵심은 S.W 개발자
SOTA AI Techniques:
Deep Learning = Machine Learning with Deep Neural Network
- 컴퓨터의 근본은 0, 1 밖에 모르는 계산기
- 논리연산과 수학을 얹어서 뭔가를 하지만 내부를 열면 다 수학임
- AI를 연구하려면 아직까지는 무조건 수학을 알아야함
- 통계, 선형대수학, 벡터, 미분 등이 다 안에 담겨져있음 > 알아야 학습에 도움이됨
수학 관련:
강의 중에 다루는 것은 기본 선형대수학, 기본 미분을 다루지만 딥하게 할 수는 없음 (시간이 없어서..)
'수학의 정석'은 사지 마세요... ㅇㅅㅇ..
그걸 다 보면 이 과정이 끝남
길게 보면 도움이 되겠지만 6개월 과정 내에서는 도움이 안될 가능성이 큼
컨셉만 이해하는 정도로 하자!
논문을 보고싶다하면 자세하게 아는 것이 좋다.
사실 논문을 본다해도 적당히 깊게 아는 수준이면 가능
대학교 수준의 선형대수학을 알고 있으면 너무 좋다!
모른다면 모르는 부분만 캐치해서 가져가자!
이론도 중요하지만 이론을 100% 이해하는 것이 중요하지는 않다.
이론을 진짜 중요하게 배우고 싶다면 박사 과정 추천 (박사님....)
최신 딥러닝 기술들:
KoBART:
- SKT에서 만든 한국어 요약 모델
- 오리지널 뉴스 모델으로 요약문을 내줌
- 오픈소스
- Abstractive summary를 딥러닝으로 구현
- 2020~2021년 모델
- NLP의 근본 허깅페이스에 올라가 있음
DALL-E 2:
- 텍스트를 그림으로 그려줌
- 이런게 인공지능으로 된다!
과연 이것을 예술작품으로 쳐야하는가를 고민하고 있음- 두 달 정도 기다리면 무료로 사용할 수 있는 API를 제공해줄 수도 있음
- 최신식이며, 달리1에서 달리2를 개발하는 데 1년 밖에 걸리지 않음
CLIP:
- 비교적 과거의 모델
- 이미지를 주면 텍스트를 생성
- 2021년식, 생각보다 잘됨, 물론 틀린 것도 있음
- 이런게 가능한건 둘째치고 무료로 올라와있다는 것이 중요
- 오픈소스
- 클립을 가지고 뭔가를 하려면 크고 무거워서 힘들 수 있음
트렌드는 OpenAI, 구글 등이 공개를 하면 우리에게 필요한 것으로 활용하는 방향, 결국 '응용을 어떻게 할 것인가' 가 관건
하이퍼 클로바(NAVER), 엑사원(LG) 등을 파인 튜닝해서 사용
리서치를 선도하는 회사들은 우주로 가고 있음! (화성...가즈아...)
개인은 그러한 모델을 어떻게 활용할 것인가를 고민하면 좋음 > 이것이 현재 AI의 트렌드
쉬는 시간
추천 시스템도 커리큘럼에 있음
- Computer Vision
- Natural Language Processing (제일 핫함)
- Audio Processing (마이너함..중요한 기술인데..추천 시스템을 배울 예정)
음성을 제대로 공부하려먼 신호처리(전자공학)를 알아야함
마젠타 프로젝트:
- 텐서플로우를 이용한 예술 작업 가능
- 뮤직 트랜스포머(2018)를 활용하여 음악을 만듬
- 코랩 노트북스 항목에서 다양한 프로젝트들이 바로 코드로 열림
- 이런 것들을 응용하면 만들 수 있는 다양한 어플리케이션이 있으며, 관련 프로젝트 구성 및 진행 가능
Machine Learning Process:
컴퓨터는 어떻게 학습을 하는가?
프로세스를 이해하는 것이 목표
1. 학습 원리 자체를 이해
2. 학습을 잘 되게 하기 위해서, 우리가 어떤걸 알아야하는가를 알아야함
사람과 컴퓨터의 학습 방식은 컨셉 자체는 비슷하지만 방법론과 목표가 조금 다름
- 사람은 메타인지가 가능, 컴퓨터는 그게 안됨
- 계산된 결과로 계산된 뭔가를 내는 것이 컴퓨터
중점 컨셉: 머신러닝을 왜 쓰는건지, 예측에 대한 이해, 거의 90% 이상 예측을 하고 싶어서 사용함!
2. What is Data Science?
Data literacy: 문해력
ex) 과거 트렌드: 영어 -> 중국어 -> 코딩
기초교육 과정에 코딩이 다 들어가 있음
코드 네이티브인 아이들이 대학교에 들어오고.. 그런 사회가 되고 있는 중..
데이터 사이언스:
- 사이언스라는 이름이 붙은 이유? 종합 예술
- 수학은 귀납적인 과정
- 과학은 실험을 통한 결과, 연역적인 과정, 모든 논리 과정을 다 이해하려면 연구를 해야하고 실험을 통한 검증으로 문제를 어떻게 풀까를 고민하는 프랙티컬한 과정
- 수학 통계, 산업 공학, 컴퓨터 공학 등의 믹스 (홀리...)
- 컴퓨터 공학은 OS가 메인
- 통계의 경우 뿌리가 같음
- 통계의 메인포인트: 모르는 뭔가를 알기위한 것이 포인트
- ex) 선거 결과 예측, 모르는 걸 예측하고 싶어서 수학을 쓰는 통계
기존에 있는 것으로 파악하는 것은 검색이라고 표현, 데이터는 이미 데이터베이스에 다 들어가 있음, 컴퓨터의 목적
모르는 걸 하려면 데이터 사이언스가 필요함
예전에는 모르는 걸 알기 위해서 사람을 갈아 넣어서 패턴을 예측(미분방정식 등등을 활용), 현상 해석
하지만 그것도 힘듬, 모든 것을 다 해석할 수 는 없음..
우리가 실험, 관측을 하면 수치값을 얻을 수 있음 (디지털, 아날로그 어떤 것이든)
그 데이터를 갖고 예측을 하고 싶음, '너(컴퓨터)가 해줬으면 좋겠다'에서 시작
빅데이터(일반적으로 페타 스케일), ex) 1600만건의 데이터를 스크롤을 내려서는 볼 수 없음
결국 내가 할 수 있는게 아니라 자동화된 규칙을 찾고 싶음
데이터가 너무 많아서 자동화의 전문가인 기계(컴퓨터)가 해줬으면 함
기계도 못함? 머신러닝이 해줌!, 머신러닝도 못해서 딥러닝이 해줌!
그래서! 결국엔 코딩이 매우 중요함!
엑셀로도 뭔가를 할 수 있지만, SQL도 뭔가를 할 수 있지만 애매함.
결국 코드를 짜야함
파이썬이 매우 중요함
Data to Vector:
데이터를 바라보는 관점을 바꿔야함
원론적인 이야기:
- 컴퓨터에게 여러 개의 숫자를 이해시키기 위해서 벡터가 쓰임
- 초기에는 [list of numbers] 수준으로 이해하면 OK
- '숫자의 모음 = 벡터' 로 이해하자!
- 데이터는 벡터다!
벡터 스페이스(공간)으로 데이터를 표현!
사람이 인지하는 것은 x, y, z 3차원이 한계
데이터는 수치값이 더 많기 때문에 3차원 이상인 경우가 많으며, 3차원 이상도 가능!
사람의 경우, 경험으로 쌓인 직관으로 판단 및 결과 도출이 가능(인사이트 or 뇌피셜(?))
데이터가 쌓이면 어느정도의 일반화가 가능함
객관적인 데이터를 통해, 논리력을 강화시킬 수 있음
휴먼 바이어스(인간의 편견)가 있을 수 있음
논리 전개 = 숫자
- 숫자는 관측을 통해 차곡차곡 쌓임
- 데이터가 많으면 싸워서(논쟁 및 설득) 이길 확률이 높음
- 많은 데이터를 갖고 결과(도구가 들어감)를 내야 가치가 높음
- '비슷하냐?' 의 수학적인 기준을 주고, 이렇게 나왔을 때 '이정도 유사해' 라는 말을 하고 싶음
도구 중 하나! 데이터를 어떻게 정의하는가 (Feature Space: 데이터가 표현되는 공간)
- 비슷한 데이터를 분류하자!
- 분류하여 패턴을 나눠서 표현
벡터를 갖고 연산할 수 있는 도구가 있으며, 연산을 위한 도구에 대한 이해가 필요함
도구 중 하나! 거리!
데이터 사이의 거리 = 유사도의 측정
유클리드 디스턴스(Euclidean Distance): 직선 거리
도구를 사용하여 더 구체화된 근거를 제시할 수 있음, 유사함의 기준이 달라짐
머신러닝 - linear classifier(선형 분류)를 통해 미가입/가입 등을 구분 가능
데이터의 경향을 파악하여 데이터를 예측할 수도 있음
ex) 나이와 연봉을 갖고 근속년수를 찾겠다 > linear regression(선형 회귀) 문제로 풀 수 있음 (물론 디테일하게는 다르지만 개념적 이해)
기술의 발전으로 인해, 더 좋은 계산기(컴퓨터)를 사용 가능
돈과 시간의 트레이드 오프 (구글을 이길 수 없엉...ㅇㅅㅇ...)
컴퓨터(계산 노예)를 다루려면 아직까지는 프로그래밍 언어를 사용해야함
그러니까 파이썬을 잘해야함!!!
가성비는 파이썬, 지금은 파이썬, 그래서 우리가 파이썬을 사용함!!!
3. How to apply?
1. Fraud Detection (사기 거래 방지)
- 푸는 방법이 정말 많음
- Classification in imbalanced dataset (지도학습)
- 데이터가 있는 상황
- 데이터의 대부분이 정상 거래
- 컴퓨터가 학습 할 때, 100만 건 대비 사기가 100건일 때는 다른 방식의 모델링이 필요함 (향후 배울 예정)
1-2. Graph Inference via Knowledge Base:
- 돈세탁 예시
- 특정한 사이클이 있으면서 돈세탁이구나로 이해
- 똑같은 것을 다양한 방식으로 확인 가능
2. Customer Segmentation (고객 유형별 세분화)
- 고객 패턴 분석
- 마케팅에서 자주 사용함
- 몇천만건의 데이터를 컴퓨터에게 주어서 해결하게 하는 것이 좋음 (사람이 하면 하다가 죽을 수도 있어요..ㅇㅅㅇ..)
- 클러스터링 활용
- 식료품 거래 내역 or 의류 거래 내역 중 하나의 프로젝트 진행 예정
- 3200만 건의 데이터셋을 갖고 세분화를 경험할 수 있음
Feature-based Consumer Segmentation
- Customer Clustering
- 클러스터링 문제는 정답이 없음
- 영수증 내역만 있음
- 설명까지 해줘야함
- 굉장히 어려움
- 기법에 따라 결과가 완전 다름(k-최근접 등등)
- 우리도 나중에 한다!! 꿀잼 예상?!
데이터 사이언스 = 종합 예술
컴퓨터는 그저 기계야...
클러스터 제로, 토픽 제로 같은 싸늘한 결과값을 줌
Domain knowledge가 중요, 데이터에 대한 이해가 중요함
결과가 나오면 내가 그것을 얼마나 해석할 수 있는지가 중요!!
ex) 도서와 관련된 프로젝트 진행 예시
- 추천 모델을 잘 만들어서 추천 성능이 아주 좋은데.. 내가 책을 모르면 그게 과연 잘 쓰일 수 있을까?
- 무조건 잘될 지는 미지수임
- 이걸 할 수 있게 하는 것이 중요!!
- 모델에서 끝나지 않음, 모델이 뱉어내는 결과를 비즈니스 적으로 해석하는 것이 중요함!!
시장과 데이터에 대한 이해가 있어야 해석이 가능함
도메인에 대해 모르면 아무 소용이 없음
어큐러시가 98%입니다. 그래서 1등급이야? > 이걸 답을 못해주면 노답 > 결국 프로젝트를 많이 해봐야함 > 인사이트 도출이 필요함 > 현업에 계신 분들과 이야기를 많이 해봐야함!!
ex) 첫 번째 EDA 프로젝트 예시:
- 패스트캠퍼스 3월 부터 9월 까지 11만건의 데이터를 제공받아서 프로젝트 진행
- 내가 교육 도메인에 대한 이해가 있으면 프로젝트 진행에 좋음
- 구매 프로세스를 알면 좋고 마케팅 과정에 대해 알면 더 좋고
- 왜 많이 샀냐? 이것에 대한 해답을 줄 수 있으면 좋으며, 이것은 도메인에 대한 이해가 반드시 필요
3. Credit Card Recommendation:
고객 맞춤형 신용카드 추천
3-1. Collaborative Filtering:
- 유튜브 알고리즘의 근간
- 나랑 비슷한 사람을 매칭해서 추천
- 레이팅 매트릭스(영화 평점), 유튜브 시청시간, 시청했다/안했다 등으로 비슷한 사람을 찾아서 그 사람이 본 것을 나에게 추천해줌
- 시청기록이 없어.. 7살이어서 아무거나 눌러... 이러한 사람들을 위한 추천시스템: Cold Start
- 트랜드에 대한 추천, 시간과 지역대를 통해서 추천해주는 것이 쉬운 방식
- 들어와서 하는 행동(behavior analysis): 검색 기록, 머무는 시간 등 다양한 장치를 통해 추천 분석
- 유튜브는 검색어, 클릭 등에 매우 민감함
- 세션이 끊기기 전의 데이터를 기반으로 안내
- 이러한 것들을 알면 추천시스템에 대한 개발이 가능함!
3-2. Deep Cross-Domain Recommendation System:
쉬는 시간
4. Go Further?
취업을 원한다면 JD(Job Description)을 먼저 확인하라!!
강의 중 같이 확인한 기업 채용 공고 내용: 네이버, 카카오, 토스
JD를 안보면 길을 잃을 수 있음..
하루에 8시간씩 하면 힘듬, 안하던 걸 계속하면 힘듬..
프로젝트도 하면 힘듬
동기를 얻기 위해서는 JD를 계속 확인하자!
- 대학원을 가려면 뭘 준비해야하는지 계속 확인
- 창업을 하려면 계속 확인
- 취업을 하려면 계속 확인
6개월 갈아 넣는 만큼, 계속 챙겨가려면 Final Goal을 계속 확인!
End Image를 계속 그리면서 진행하자!
안보이면 짜증이남..
직무 별 JD 중, [지원자격/필요역량]을 확인하고 아니다 싶으면 바로 뒤로가기 고고!
데이터사이언티스트 업무 경력 3년 이상 또는 통계, 수학 관련 분야의 석사 또는 박사 학위 소지자 가 거의 디폴트
기술직군에 요구되는 기초 코딩 테스트와 실무 데이터 분석 테스트를 포함하여 두 번 이상의 사전 프로그래밍 테스트가 진행됩니다.
서류는 열려있는데, 생각보다 코테에서 많이 떨어짐..
공부를 열심히 하는 것은 좋으나 코테를 버리면 취업을 버리는 것을 의미
체감 코테 난이도: S.W 엔지니어 > 머신러닝 엔지니어 > 데이터 엔지니어 > 데이터 사이언티스트 >데이터 분석가
엔지니어가 직무 이름에 붙으면 코테가 어려워짐
우리의 메인 목표는 한 가운데! 데이터 사이언티스트!
데이터 직군 세 가지:
- DE: 개발자에 가까움
- DS: 우리의 목표!, 부트캠프 커버 범위, 모델링 많이!
- DA: 비즈니스 모델링에 가까움, EDA 많이!
지원자격:
- 최소 조건임 (Minimum Requirements) > 충족 못할 경우, 바로 뒤로가기!
- 다 알 필요는 없음
- 다섯 개 항목이 있다면, 그 중에서 내가 할 줄아는게 반드시 있어야함
- 언어는 파이썬만 제발 제대로..
- 머신러닝 라이브러리는 사이킷런만 제발 제대로...
- 텐서플로우 or 파이토치 중 제발 하나만이라도 제대로...
우대사항:
'있으면 더 좋을 것 같아!' 라는 의미
우리가 할 수 있는 것: 모델링 프로젝트, EDA 프로젝트, 대시보드 제작 등
대시보드 제작:
인터렉션 툴(Tableau 등) 사용이 베스트 > 레포트 > ppt > 세 줄 정리... >>> GG..
로그 수준 데이터 가공:
이건 웹 크롤링, 전처리 등등으로 할 수 있음
JD 확인 후, 기업체에서 '이런 걸 좋아하는구나?' 확인 후, 좋아하는 걸 맞춤으로 준비하면됨
엔드 투 엔드 경험은 스타트업에서나 가능, 대기업 면접에서는 최소한 썰을 풀 수 있어야함
캐글을 하면 엔드 투 엔드가 간접적으로 다 들어가 있어서 좋아함
캐글은 모델링을 많이 많이함
가공, 모델링을 통한 과정이 반드시 포함되어있고 어렵기 때문에 모두가 캐글을 인정해줌
6개월을 어떻게 보내느냐 보다는 내가 할 수 있는 걸 6개월 동안 할 수 있는지가 중요
- 내가 하고 싶은 걸 빠르게 파악해보자
- 그게 중요함!!
- 그냥 흘러가면 좋은 결과를 낼 확률이 떨어짐
- 의미없는 시간, 의미없는 포폴을 만들지 말자!!
코딩 테스트:
서류 통과!
코테에서 떨어지면? >> 아무 의미 없음
코테에서 떨어지면 100프로 본인 잘못임
코테는 안맞는게 없음. 내가 못한거임. 100% 내잘못임!!!!!
코테에서 떨어지면 진짜 세게옴 ㅠㅅㅠ
내가 잘하면 다 뚫을 수 있고 내가 못했으면 다 막힘!!
코딩이 안맞으면 처음부터 끝까지 힘듬..
사람에 따라 안맞는 사람이 있을 수 있음..
코딩은 안돌아가면 0점임
3주를 갈아 넣어도 안돌면 0점임...
코딩이 힘들게 느껴지면 초반부에 천천히, 차근차근, 꼼꼼하게 넘어가야함
코딩을 잘하는 것과 분석을 잘하는 것은 다른 이야기
포지션이 다르니까 잘 생각하자!
우리 과정은 DS다!
- 요거는 재밌다, 요거는 오반거 같다를 잘 보자!
- 초반에 적응하는 기간동안 잘 파악해보자!
- 길이 하나만 있는 것은 아니다! 나에게 맞는 길을 가자!
포폴에는 결국 어떤 프로젝트를 어떻게 진행했는지가 중요함
- 하나의 프로젝트를 상세하게 적는 것이 좋음
- 프로젝트에 갈아넣으면 쓰고 싶은 내용이 엄청 많아짐
- 라인 바이 라인으로 설명해주고 싶은 프로젝트들을 경험할 것인데 이런 내용을 적는게 좋음
- 2주를 갈아 넣으면 그런 썰풀것들이 생길 수 밖에 없음
문제정의-가설설정-실험설계 및 검증-결과
중요한 건 이런 것들을 할건데 회사마다, 분야마다 조금씩 다름
ex) 나는 금융업 종사자였고 전공자다! 이러면 찾아보면 그런 회사들이 있음 > 지원 고고씽!!
3개월만에 취업하고 회사가는 게 베스트! (취업 희망자 타겟)
3개월의 기준은 머신러닝 모델링 프로젝트 딱 끝났을때임
그 뒤 딥러닝 등을 더 배우면서 프로젝트 진행
3개월 부터 드랍하거나, 취업하는 경우가 생길 수 있음
Q&A:
EDA(Exploratory Data Analysis, 탐색적 데이터 분석)란:
- 내가 이 데이터에서 뽑고 싶은 인사이트가 있어서, 인사이트를 뽑기 위한 모든 프로세스를 의미
- ex) VIP는 무엇인가? (문제 정의), 유저 프로파일링을 해야하는데 유저 정보가 없음, 거래 내역만 딱 있음
- 일단 많이 산사람이 가장 쉬움
- 가격 분포, 평균 등을 보면서 정의
- EDA는 머신러닝, 딥러닝 전 과정으로 이해하자, 그 결과를 갖고 돌릴 수 있음
프로젝트 수행과정:
- 모든 프로젝트는 다 팀 프로젝트
- 팀 선정 > 팀별 주제 선정 > 정해진 데드라인 안에 제출 (보고서, 코드) > 발표 로 진행
수업 진행과정:
- 온오프라인 병행
- 4기는 강사님이 거의 다 오실 것임
질문 관련:
- 무조건 질문 많이 하는 게 이득임
- 모아서 슬랙에 올려도 좋음
- 모르겠다 싶으면 여쭤보자 (물론 두, 세번 고민은 해보는 것을 권장하옵니다..ㅇㅅㅇ...)
DS, DA의 차이점:
- 일반적인 특징으로 DA는 코딩을 좀 덜함, DS는 코딩을 좀 더함
- DS는 AI 모델링을 좀 더함
- DA는 비즈니스적 모델링을 좀 더함
- 하지만 섞여 있는 곳도 있고, 다하는 곳도 있음 (진리의 회바회, 팀바팀)
DE 직무:
- 보통 백엔드 엔지니어에서 시작함
- 데이터베이스를 잘 이해하는 사람이면 강점
빅데이터분석기사 자격증:
- 빅분기 관련 내용은 다 배움
- 통계 파트, CS 파트가 좀 더 나오므로 그쪽은 공부를 좀 하면 가능!!
- 어렵지만 공부하면 가능 가능!!
비전공자는 어디서 어려워할까요?:
- 모든 과정에서 어려움을 느낄 수 있음..
- 가장 큰 위기는 머신러닝에서 옴
- 머신러닝, 수학 빡 오면 망가질 수도 있음..
- 머신러닝 빡 오면 DA로 돌리거나 드랍하는 사람이 발생할 수도 있음... ㅜㅅㅜ.. 화이또!!!
긴 글 읽어 주셔서 감사합니다 :)
'AI > [부트캠프] 데이터 사이언티스트 과정' 카테고리의 다른 글
[Megabyte School : AI 데이터 사이언티스트 취업 완성 과정] Day 5. (0) | 2022.08.26 |
---|---|
[Megabyte School : AI 데이터 사이언티스트 취업 완성 과정] Day 4. (0) | 2022.08.25 |
[Megabyte School : AI 데이터 사이언티스트 취업 완성 과정] Day 3. (0) | 2022.08.24 |
[Megabyte School : AI 데이터 사이언티스트 취업 완성 과정] Day 2. (0) | 2022.08.23 |
[Megabyte School : AI 데이터 사이언티스트 취업 완성 과정] Intro. (0) | 2022.08.22 |