안녕하세요 늑대양입니다 😍
이번에 모두의연구소에서 K-디지털 서포터즈로 선정되어 금일부터 12월 23일까지 활동하게 되었습니다.
오늘은 관련 활동의 다섯 번째 포스팅으로 모두의연구소 MODUPOP에 참석한 경험을 공유드리고자 합니다.
개발자의 강화학습 (개발자가 강화학습을 취미로 배운다면?)
- 옥찬호 님 진행 (MOMENTI)
- Github URL: https://github.com/utilForever
utilForever - Overview
@corp-momenti Engine Engineer, @microsoft MVP, @CppKorea Founder & Administrator, @reinforcement-learning-kr Administrator, @RustFestEU Global 2021 Organizer - utilForever
github.com
Index.
- 강화학습을 배우게 된 계기
- 강화학습 환경 개발
- RL 논문 리뷰 스터디
- RL 강의 경험
- Q&A
강화학습을 배우게 된 계기
- AlphaGo
- Book
- Reinforcement Learning
- 파이썬과 케라스로 배우는 강화학습
- Break out(벽돌깨기 게임)
강화학습 환경 개발
- 이상과 현실의 차이
- 시간이 지나면서 강화학습 환경이 다양해지고 있음
- 강화학습 환경 목록: https://github.com/clvrai/awesome-rl-envs
GitHub - clvrai/awesome-rl-envs
Contribute to clvrai/awesome-rl-envs development by creating an account on GitHub.
github.com
- 많은 강화학습 환경들이 갖고 있는 한계
- 규칙이 단순
- 할 수 있는 행동의 종류가 적음
- 결정적(Deterministic)
- 모든 상태를 관찰 가능(Fully-obervable)
- 개발자의 강화학습이 어려운 이유
- 시뮬레이션 개발
- 강화학습 개발
- 위 두 개의 사이 어딘가..
- 강화학습 환경을 만들 때 주의할 점
- 어떤 환경을 만들지 생각해보기
- 로보틱스
- 게임
- 네비게이션
- 멀티 에이전트
- 자율주행
- 물리 시뮬레이터
- 등등
- MDP를 잘 생각해보기
- Markov Decision Process (MDP)
- 게임의 상태를 어떻게 나타낼 것인가
- 에이전트가 어떤 행동을 할 수 있는가
- 모든 상태를 관할할 수 있는가 (MDP vs POMDP)
- 보상을 주기 위해 어떤 정보가 필요한가
- 사전에 저작권 관련 문의하기🔥
- 게임을 강화학습 환경으로 만들기 전에 저작권에 문제가 없는지 반드시 확인 필요!
- 게임 홈페이지에 있는 연락 수단을 통해 사전 문의 필요!!
- Process (Architecture)
- Core Logic > C++ API > TensorFlow, PyTorch
- Core Logic > pybind11 > Python API > PyGame > OpenAI Gym > TensorFlow, PyTorch
- Action Space
- Up
- Down
- Left
- Right
- Reward
- Failed: -100
- Solved: +200
- Each action: -0.5
- Examples
- Baba-is-you
- Hearthstone
- etc..
- 어떤 환경을 만들지 생각해보기
RL 논문 리뷰 스터디
- 이제 고급 기법들을 배워보고 싶다? > 어디서 배우지? 🫠
- 혼자 논문보면서 공부하려니 너무 어려운 내용이 많다...
- 딥러닝은 분야에 따라 다양한 스터디들이 운영되고 있다. 근데 RL은?
- 없으니까 하나 만들어야겠다!!
- RL 논문 리뷰 스터디의 시작 🎉
- 2020년 5월 11일, 1기를 시작으로 현재 9기 운영중
- 한 기수에 약 16명의 인원을 모집
- 매주 월요일 오후 9시부터 11시까지 2명씩 논문 내용을 정리해서 발표
- 각 발표 40분, 질문 20분 (총 1시간 내외)
- 겹치지 않는다면 원하는 리뷰 가능
- 모든 발표는 녹화한 뒤 업로드해서 비공개로 제공
- 관련 깃헙 URL: https://github.com/utilForever/rl-paper-study
GitHub - utilForever/rl-paper-study: Reinforcement Learning paper review study
Reinforcement Learning paper review study. Contribute to utilForever/rl-paper-study development by creating an account on GitHub.
github.com
RL 강의 경험
- 강화학습을 공부하고 환경을 만들면서 기여하고, 스터디를 진행하다 보니 여러 기회가 찾아오게 되었다 🥸
- 국민대학교
- KAIST
- 전북과학고등학교
- AIFrenz
- 한양대학교
- 대구소프트웨어마이스터 고등학교
- 등등
- 학생들을 대상으로 강화학습을 가르치는 건 쉽지 않았다...
- 내가 이해하고 있는 것이 맞는 걸까?
- 학생들이 이해하기에 너무 어려운 내용은 아닐까?
- 한정된 시간 안에서 어디까지 알려줄 수 있을까?
- 수학식이 많은데 재미와 즐거움을 어떻게 느낄 수 있게 해줘야할까?
- 처음엔 많이 서툴렀지만.. 시행 착오를 거치며 조금씩 나아졌다!!!
- 학생들이 얼마나 이해했는지 수시로 물어보고 진도 조절 진행
- 필요하다면 수업이 끝난 뒤, 몇 시간에 걸쳐서 보충 설명 진행
- 흥미를 느낄 수 있는 과제를 부여해 배운 것을 익힐 수 있게끔 진행
정리
Behind every great agent there's a great environment!!
코이(물고기): 자라나는 환경에 따라 최대치나 폭이 달라질 수 있다. >> 자신의 한계를 자신이 정하지말자!!
Q&A
- Hearthstone arena 관련 RL 질문
- 공부 순서 및 방향성 > 요즘은 일반적으로 심층 강화학습 진행
- Hearthstone 관련 RL 학습 시간... 오래 걸림..
- 논문 스터디 난이도 관련 질문
- 게임을 만들면서 진행되는 스터디 관련 질문
- RL 환경 구성과 관련하여 어려웠던 점 및 참고할만한 사항
![](https://t1.daumcdn.net/keditor/emoticon/niniz/large/030.gif)
긴 글 읽어주셔서 감사합니다 🥳
'Conference > K-디지털 서포터즈' 카테고리의 다른 글
[모두의연구소][K-디지털서포터즈] MODUCON 2022 - Beyond AI, by Community (0) | 2022.12.23 |
---|---|
[모두의연구소][K-디지털서포터즈] Beauty AI Conference: Data-Centric Vision AI for Beauty (1) | 2022.11.30 |
[모두의연구소][K-디지털서포터즈] Diffusion 관련 논문 리뷰 1 (0) | 2022.11.24 |
[모두의연구소][K-디지털서포터즈] NAVER 'HyperCLOVA' 신기술 세미나 (0) | 2022.11.23 |
[모두의연구소][K-디지털서포터즈] 경험공유회: AI 비전공자로 AI 논문쓰기 (0) | 2022.11.22 |