본문 바로가기

분류 전체보기

(67)
[강화학습: RL] 3-2. Asynchronous Dynamic Programmin(비동기적 동적 계획법) 단단한 강화 학습 4장 '동적 프로그래밍'과 인터넷 강의를 참고해서 만든 게시글입니다. 이전의 내용은 아래의 링크를 참고해주세요. [강화학습: RL] 3-1. Dynamic Programmin(DP, 동적 계획법) 단단한 강화 학습 4장 '동적 프로그래밍'과 인터넷 강의를 참고해서 만든 게시글입니다. 이전의 내용은 아래의 링크를 참고해주세요. [강화학습: RL] 2-2. 마르코프, Markov(MDP) 단단한 강화 학습 3장 ekdud7667.tistory.com DP보다 더 효율적인 Asynchronous DP(비동기적 동적 계획법)에 대해서 다루겠다. 기존의 DP는 정책 평가를 반복하고, 정책평가가 수렴한 뒤 정책 개선을 반복했다. 즉, 정책 반복 안에서 정책 평가, 정책 개선 2개의 반복문이 돌아야..
[강화학습: RL] 3-1. Dynamic Programmin(DP, 동적 계획법) 단단한 강화 학습 4장 '동적 프로그래밍'과 인터넷 강의를 참고해서 만든 게시글입니다. 이전의 내용은 아래의 링크를 참고해주세요. [강화학습: RL] 2-2. 마르코프, Markov(MDP) 단단한 강화 학습 3장 '유한 마르코프 결정 과정'과 인터넷 강의를 참고해서 만든 게시글입니다. 이전의 내용은 아래의 링크를 참고해주세요. [강화학습: RL] 2-1. 마르코프, Markov(MP, MRP) 단단한 강� ekdud7667.tistory.com 이전 게시글에서 Bellman Optimality Equation(BOE) 즉, 벨만 최적 방정식은 직접해가 있기 때문에 반복적 알고리즘을 통해 계산해야 한다고 명시했다. 따라서 이번에는 MDP를 푸는 방법(BOE를 통해 최적 정책을 찾는 과정)인 DP에 대해서..
[강화학습: RL] 2-2. 마르코프, Markov(MDP) 단단한 강화 학습 3장 '유한 마르코프 결정 과정'과 인터넷 강의를 참고해서 만든 게시글입니다. 이전의 내용은 아래의 링크를 참고해주세요. [강화학습: RL] 2-1. 마르코프, Markov(MP, MRP) 단단한 강화 학습 3장 '유한 마르코프 결정 과정'과 인터넷 강의를 참고해서 만든 게시글입니다. 이번 게시글에서는 MP, MRP를, 다음 게시글에서는 MDP(Markov Decision Process, 마르코프 결정 과정)을 다� ekdud7667.tistory.com MDP(Markov decision processes: 마르코프 결정 과정) MDP는 MRP에 행동을 추가한 과정이다. 정의 MDP는 $$인 튜플이다. - S: 상태의 집합 - A: 행동들의 집합 - p(상태 천이 행렬): $P_{SS..
[강화학습: RL] 2-1. 마르코프, Markov(MP, MRP) 단단한 강화 학습 3장 '유한 마르코프 결정 과정'과 인터넷 강의를 참고해서 만든 게시글입니다. 이번 게시글에서는 MP, MRP를, 다음 게시글에서는 MDP(Markov Decision Process, 마르코프 결정 과정)을 다루도록 하겠다. MP(Markov Processes): 마르코프 과정 마르코프 특성 $P(S_{t+1}|S_t)= P(S_{t+1}|S_t, S_{t-1},...S_0)$ 현재 상태 $S_t$를 알면 역사를 아는 것과 동일한 수준으로 미래 상태를 추론할 수 있다. 즉, 미래 상태는 과거와 무관하게 현재의 상태만으로 결정될 수 있다. 따라서 마르코프에서는 과거의 state는 필요 없고, 현재의 state만 있으면 학습이 가능하다. 정의 MP는 인 튜플로 정의된다. - S: (유한한)..
[강화학습: RL] 1. 개요 이 게시글은 단단한 강화 학습과 인터넷 강의를 참고해서 쓴 글입니다. 개념 강화학습이란 주어진 상황에서 어떠한 행동을 취할지를 학습하는 것이다. 이때 그 행동의 결과는 최대한의 보상(이득)을 가져다줘야 한다. 강화 학습은 지도 학습, 비지도 학습과는 전혀 다르다. 지도 학습처럼 label이 있지도 않고, 비지도 학습처럼 데이터 집합 안에서 숨겨진 구조를 찾으려 하지 않기 때문이다. 강화 학습은 exploitaion과 exploration사이에서 절충을 해야 한다. exploitation: 학습 내용을 기준으로 최대 보상을 받을 수 있는 action을 선택한다. exploration: 더 좋은 보상이 있는지 확인하기 위해 현재의 최대 보상이 아닌 다른 action을 선택한다. 구성요소 구성요소에는 poli..
Embedding Embedding의 필요성 skip gram은 encording이 아닌 embedding에 포함되어 있다. embedding은 단어를 벡터로 표현하는 encording과 유사하지만 큰 차이점이 있다. onehotencording은 encording의 대표적이 예시인데, 하지만 이 벡터들은 유사도가 없다. 예를 들어, king과 man은 woman보다 유사도가 높아야하는데 이를 표현할 수가 없다. 이 문제점을 보완하기 위해 embedding이 나왔다. embedding을 적용하면 encoding보다는 낮은 차원이 나오지만 의미있는 숫자로 구성되어 유사도를 표현할 수 있다. Embedding 절차 1. neighbor 설정(window) skip gram은 문장이 주어졌을 때 특정 단어에서 window si..
비선형 상관관계: 스피어만 상관계수, 켄달타우 상관계수 - 상관계수: 두 변수 간에 관계가 있는지 확인 상관계수의 해석 상관계수는 이상치의 유무에 따라 값의 영향이 크니 이상치 처리가 중요하다. 모수적 방법과 비모수적 방법 상관관계에 들어가기 앞서, 모수적과 비모수적이라는 용어가 나온다. 이에 간단하게 용어를 정리해보고자 한다. - 모수적 방법(Parametic method): 모수를 특정 분포로 가정하여 접근하는 방법 - 비모수적 방법(Non-parametic method): 모집단의 특정 분포를 가정하지 않고 접근하는 방법이다. 비모수적 방법은 정규성 검정에서 정규분포를 따르지 않거나 표본의 개수가 10개 미만일 때 사용한다. 상관계수도 똑같이 적용하면 된다. 즉, 정규분포 조건에 충족하지 못하면 비모수적 상관계수로 풀면 된다. 모수적 상관계수에..
라그랑주 승수법, KKT 조건 (Karush-Kuhn-Tucker) 제한조건이 있는 최적화 문제는 연립 방정식과 연립 부등식의 풀이 방법이 다르다. 연립 방정식은 라그랑주 승수법으로, 연립 부등식은 라그랑주 승수법에 KKT 조건을 만족하도록 푸는데 풀이가 거의 비슷하다. 라그랑주 승수법 원리는 두 가지 조건을 동시에 만족시키는 공통 접선을 찾는다. 즉, 제약 조건을 만족하며 최솟값, 최댓값을 찾는 것이다. 라그랑주 승수법은 목적함수 $f(x)$와 제약조건 $g(x)$가 있을 때, 하나의 식으로 만든다. 따라서, 제약조건이 달려있는 목적함수의 경우 라그랑주 승수법을 이용해 식을 간단하게 전개할 때도 사용한다. 공식 $h(x, \lambda) = f(x) + \sum_{j=1}^M\lambda_j g_j(x)$ 예시 $f(x_1, x_2) = x_1^2 + x_2^2$를 최..