728x90
반응형
안녕하세요 늑대양입니다.
오늘은 커피챗(면접)이 있었던 하루입니다..🫠
부족한 점들을 다각도로 확인할 수 있었던 뜻 깊은 하루였네요!!
[AI 데이터 사이언티스트 취업 완성 과정]의 54일차 일과를 정리하여 안내해드리도록 하겠습니다.
Day 54 시간표:
- 머신러닝 실전 (
면접) - 머신러닝 실전 (실강)
머신러닝 실전
Feature Engineering
차원의 저주
- 고차원 데이터에 취약한 딥러닝 문제
- Feature space의 차원이 커질수록 (100 < , 1000 <) 머신러닝 예측 성능이 저하되는 문제
- 과적합될 가능성이 높아지며, 유의미한 패턴을 찾기가 힘들어짐
- 차원 감소 기법(dimensionality reduction)을 이용하여 저차원 공간으로 변환
- PCA(Principal Component Analysis), AutoEncoder(Neural Network 기반, non-linear) 등을 많이 사용
상관관계 분석 (Pearson's)
- input feature(X) 사이의 상관관계를 통해 비슷한 정보를 주는 피처를 확인할 수 있음
- X와 target value(y) 사이의 상관관계를 통해, 어떤 feature 들이 y에 직접적인 영향을 주는지 확인할 수 있음
- Correleation Matrix를 계산하여 확인
- Heatmap을 이용하여 쉽게 시각화 가능
상관관계 분석의 특징
- 선형적인 상관관계 '만' 파악 가능
- 상관관계 != 인과관계
- 1:1만 파악 가능
Feature Scaling
- 서로 다른 feature들이 값을 가지는 범위가 달라서 모델링에서 문제가 발생할 수 있음
- Feature끼리 비교 가능하려면, 동일한 범위 내에 존재해야함 (거리기반 모델들에서는 무조건 필요함!! > 클러스터링)
- Normalization (0, 1) 또는 standardization을 통해서 피처들의 크기를 맞춤
- 피처의 스케일과 무관한 모델들도 있음 (Feature 들 끼리 보았을 때, 다 똑같음 > 의미가 없음..)
e.g. LightGBM
Encoding Cateogorical Features
One-hot encoding
- 다름의 정보 차이가 없음! > 해당 이유로 사용
- 덜 다르다, 더 다르다 에 대한 차이가 없음 > Nominal feature
e.g. 성별, 부서, 품목 등등
Ordinal encoding
- 다름의 정보 차이가 있음
- Ordinal feature
e.g. 학력, 선호도 등등
예측 모델 개발
학습 모델 선정
- 기존 사례 분석을 통해 SOTA(State-Of-The-Art) 성능을 가지는 모델을 사용한다.
- 비슷한 기존 사례가 없다면, 정형 데이터 분석에서 주로 사용되는 모델에는 Random Forest, LightGBM, CatBoost가 있다.
(분류, 회귀 모두 사용 가능) - GBM(XGBoost, LightGBM, CatBoost) + Random Forest
- 최종 모델 앙상블을 위해 여러 모델을 테스트하는 것도 가능하다.
Main Skills for Data Scientist
모델 학습 - Training & Validation
**K-fold cross validation
- 데이터 수가 만 개 이하일 때, 8:2로 나눔
- val 데이터를 다양하게 사용하고 싶지만... 그렇다면 train 데이터가 점점 줄어들게 됨..
- 묘안!! 돌려쓰기!!
- 나머지 (초록색) 부분은 모두 트레인!
- 앙상블 효과가 있음!! > 모두(ML, DL)가 사용
- 무조건 기억해야할 포인트!!
- 평균 예측 성능(Pcv)이 가장 잘 나오는 하이퍼-파라미터를 찾아보자!!
긴 글 읽어주셔서 감사합니다 🥸
728x90
반응형
'AI > [부트캠프] 데이터 사이언티스트 과정' 카테고리의 다른 글
[Megabyte School : AI 데이터 사이언티스트 취업 완성 과정] Day 56. (0) | 2022.11.11 |
---|---|
[Megabyte School : AI 데이터 사이언티스트 취업 완성 과정] Day 55. (0) | 2022.11.10 |
[Megabyte School : AI 데이터 사이언티스트 취업 완성 과정] Day 53. (0) | 2022.11.08 |
[Megabyte School : AI 데이터 사이언티스트 취업 완성 과정] Day 52. (0) | 2022.11.07 |
[Megabyte School : AI 데이터 사이언티스트 취업 완성 과정] Day 51. (0) | 2022.11.04 |