# 읽고 있는 도서의 p86 ~ 93 내용 참고 및 인용 데이터 엔지니어: 데이터 엔지니어는 조직 내 데이터의 운용을 담당합니다. 데이터 엔지니어가 데이터를 활용하기 위해 환경을 어떻게 구성하는지, 정확히 어떤 업무를 맡는지 알아보겠습니다. 데이터 엔지니어의 업무: 1. 요구사항 분석: 데이터 엔지니어의 업무는 최종 데이터 사용자의 요구사항을 분석하는 것에서 시작 최종 데이터 사용자 예시: 같은 회사 내에서 데이터를 활용한 서비스를 운영하고 관리하는 부서 회사의 고객 등 데이터 사용자의 요구사항을 잘 분석하기 위해 최종 데이터 사용자와 함께 필요한 기능과 요건을 구체적으로 정리 2. 파이프라인 구축, 관리 및 유지 보수: '물의 순환'과 같이 데이터도 여러 과정을 거쳐 순환하며, 데이터가 흐르는 과정을 ..
# 읽고 있는 도서의 p120 ~ 127 내용 참고 및 인용 데이터 사이언티스트: 방대한양의 데이터에 다양한 분석 기법을 적용함으로써 가치 있는 인사이트를 찾아내고 제공합니다. 회사의 현재 상황을 정량적이고 과학적인 방법으로 분석 머신러닝 등의 기법으로 미래의 상황을 예측 데이터 사이언티스트의 업무: 1. 포뮬레이션: 포뮬레이션(Formulation)은 해결하고자하는 비즈니스 문제를 데이터 분석 문제로 바꾸는 과정 비즈니스 문제에 따라 분석의 목표, 사용 기법, 필요한 데이터가 완전히 달라짐 보유한 데이터에서 통계치를 내거나 여러 종류의 데이터 간 관계를 파악하기 위해 회귀분석 등의 기법을 적용 머신러닝 또는 딥러닝 기반의 예측 모델을 활용 2. 전처리, EDA 데이터 분석 문제를 세웠다면 다음 작업은 ..
# page 73 ~ 78 넘파이: "넘파이(numpy)는 파이썬의 대표적인 배열(array) 라이브러리입니다. 파이썬의 리스트로 2차원 리스트를 표현할 수 있지만 고차원 리스트를 표현하려면 매우 번거롭습니다. 넘파이는 고차원의 배열을 손쉽게 만들고 조작할 수 있는 간편한 도구를 많이 제공합니다. 차원(dimension)이란 말은 조금씩 다른 의미로 쓰일 수 있습니다. 배열에서 차원은 좌표계의 축과 같습니다. 1차원 배열은 선, 2차원 배열은 면, 3차원 배열은 공간을 나타냅니다. 보통의 xy 좌표계와는 달리 시작점이 왼쪽 아래가 아니고 왼쪽 위에서부터 시작합니다. "먼저 넘파이 라이브러리를 임포트합니다." "넘파이 array() 함수에 파이썬 리스트를 전달하면 끝입니다." import numpy as ..
# page 65 ~ 73 Chapter 02. 데이터 다루기: 핵심 키워드: 지도 학습 비지도 학습 훈련 세트 테스트 세트 지도 학습과 비지도 학습: "머신러닝 알고리즘은 크게 지도 학습(supervised learning)과 비지도 학습(unsupervised learning)으로 나눌 수 있습니다." "지도 학습에서는 데이터와 정답을 입력(input)과 타깃(target)이라고 하고, 이 둘을 합쳐 훈련 데이터(training data)라고 부릅니다." "그리고 앞서 언급했듯이 입력으로 사용된 길이와 무게를 특성(feature)이라고 합니다." "지도 학습은 정답(타깃)이 있으니 알고리즘이 정답을 맞히는 것을 학습합니다." "반면 비지도 학습 알고리즘은 타깃 없이 입력 데이터만 사용합니다." "머신..
# page 50 ~ 64 첫 번째 머신러닝 프로그램: "k-최근접 이웃(k-Nearest Neighbors)알고리즘을 사용해 도미와 빙어 데이터를 구분해보겠습니다." "앞에서 준비했던 빙어 데이터를 하나의 데이터로 합치겠습니다." length = bream_length + smelt_length weight = bream_weight + smelt_weight "패키지(사이킷런)를 사용하려면 각 특성의 리스트를 세로 방향으로 늘어뜨린 2차원 리스트를 만들어야 합니다." "이렇게 만드는 가장 쉬운 방법은 파이썬의 zip() 함수와 리스트 내포 구문을 사용하는 것입니다." zip() 함수는 나열된 리스트 각각에서 하나씩 원소를 꺼내 반환합니다. # zip()함수와 리스트 내포 구문 사용 fish_data ..
# Page 44 ~ 50 01-3. 마켓과 머신러닝: 핵심 키워드: 특성 훈련 k-최근접 이웃 알고리즘 모델 정확도 생선 분류 문제: 사용할 생성 데이터는 캐글에 공개된 데이터셋입니다. https://www.kaggle.com/aungpyaeap/fish-market # 도미의 크기가 30보다 크거나 같다고만 정의되었을 때... if fish_length >= 30: print("도미") "보통 프로그램은 '누군가 정해준 기준대로 일'을 합니다." "반대로 머신러닝은 누구도 알려주지 않는 기준을 찾아서 일을 합니다." 도미 데이터 준비하기: "머신러닝에서 여러 개의 종류(혹은 클래스) 중 하나를 구별해 내는 문제를 분류(classification)라고 부릅니다." "특히 2개의 클래스 중 하나를 고르는..
# Page 01~43 Chapter 01. 나의 첫 머신러닝 (이 생선의 이름은 무엇인가요?) 핵심 키워드: 인공지능 머신러닝 딥러닝 학습 목표: 인공지능, 머신러닝, 딥러닝의 차이점을 이해합니다. 구글 코랩 사용법을 배웁니다. 첫 번째 머신러닝 프로그램을 만들고 머신러닝의 기본 작동 원리를 이해합니다. 01-1. 인공지능과 머신러닝, 딥러닝 인공지능이란: 인공지능(Artificial Intelligence)은 사람처럼 학습하고 추론할 수 있는 지능을 가진 컴퓨터 시스템을 만드는 기술입니다. 인공지능의 역사는 약 80년 남짓 되었지만 인류는 훨씬 더 오래전부터 지능적인 시스템을 생각했습니다. 인공지능은 강인공지능과 약인공지능으로 나눌 수 있습니다. 사람과 구분하기 어려운 지능을 가진 컴퓨터 시스템이 인..
# [책갈피] 항목은 책을 읽으면서 기억에 남는, 기억하고 싶은 부분을 메모한 페이지입니다. 12. 30년 커리어패스에서 배운 것: 한글과컴퓨터: "처음 2년 동안은 좀 어렸을 때라 그런지 철학적인 생각을 많이 했습니다." "'일을 왜 할까? 내가 일하는 목전은 뭘까?' 이런 고민에 빠졌죠." "2년 차와 4년 차에 슬럼프를 겪었습니다." "결국 6년 차가 되었을 때 새로운 도전을 해야겠다고 생각하고 미국으로 옮겼습니다." "매번 마음을 다잡으며 일했건만 6년이 지나니까 돈, 의미, 관계 중 어떤 것도 중요하게 느껴지지 않았습니다." 미국에서 스타트업: (토크센더, 핸드스토리) "당시 리드 개발자로 일했기 때문에 필요한 일이라면 뭐든 다 했습니다." "정말 많은 일을 하면서 '스타트업이란 무엇인가'를 배..