Posts

Deep Reinforcement Learning, discrete Soft Actor Critic, 3-р хэсэг

Image
Өмнөх 2-р хэсэгт Soft Actor Critic алгоритмын continuous action space дээр ажилладаг хувилбарыг нь тэмдэглэж авсан.Энэ постоор discrete action space дээр ажилладаг хувилбарыг нь тэмдэглэж авая.

Deep Reinforcement Learning, continuous Soft Actor Critic, 2-р хэсэг

Image
Өмнөх 1-р хэсэг дээр entropy ихэсгэснээр reward-аа сайн цуглуулахын хажуугаар explore илүү сайн хийдэг болдог талаар дурдсан.
Тэгвэл энэ постоор SAC алгоритмыг албан ёсны paper дээр дурдсаны дагуу детальчилан тэмдэглэж авая.

Магадлалын тархалтын энтропиг тооцоолох

Image
Өмнөх постоор роботын сонголт хийх магадлалын энтропиний хэмжээг ихэсгэснээр робот шинэ орчинд хуучин сурсан юмаа давтан хийх биш харин өөр өөр сонголтуудыг зоригтой хийж дасдаг талаар дурдсан.

Deep Reinforcement Learning, Soft Actor Critic буюу SAC, 1-р хэсэг

Image
UC Berkeley болон Google нарын хамтран гаргасан SAC алгоритмтэй танилцая.
SAC нь хоёр төрлийн RL алгоритмуудын давуу талуудыг аль алийг нь агуулдаг. 
Эхний төрөл болох Trust Region Policy Optimization (TRPO) болон Proximal Policy Optimization (PPO) мөн өмнө дурдаж байсан Asynchronous Actor-Critic (A3C) алгоритмууд on-policy байдлаар сурдаг учраас sample efficiency тал дээр муу. 
Нөгөө төрөл болох Q-Learning -д суурилсан off-policy байдлаар сурдаг Deep Deterministic Policy Gradient (DDPG) болон Twin Delayed Deep Deterministic Policy Gradient (TD3) нар replay buffer хэрэглэдэг учраас өнгөрсөн туршлагуудаа байнга санаж дахин дахин сурж байдаг учраас sample efficiency тал дээр илүү сайн. 
Гэвч эдгээр аргууд нь hyperparameter-үүдэд хэтэрхий мэдрэг учраас converge хийлгэхийн тулд hyperparameter-үүдийг нь дахин дахин тохируулж олон удаа сургах сул талтай.
Тэгвэл SAC нь sample efficient бөгөөд hyperparameter тохируулах шаардлага бага мөн дээрээс нь симуляцаас хальж яг бодит роботын удирдлаганд хэр…

Deep Reinforcement Learning, Advantage Actor Critic - A2C, A3C with Jax and Flax

Image
Өмнөх цувралууд дээр Deep Q Learning, Policy Gradient алгоритмуудын талаар дурдсан. 
Энэ постоор Actor Critic гэх дараагийн чухал алгоритмтай танилцая.

Deep Reinforcement Learning, Policy Gradient

Image
Өмнөх Q Learning алгоритмуудыг value iteration арга гэдэг бөгөөд ирээдүйд авах reward оноог ойролцоолон дөхүүлж олдог тэндээсээ тоглолт хийх дүрмээ(policy) бий болгодог арга.
Энэ удаагийн тэмдэглэлээр value iteration хийхийн оронд дүрмийн функцээ шууд өөрөө сурдаг policy iteration аргын талаар дурдана.

Deep Reinforcement Learning, Deep Q Network буюу DQN

Image
Өмнөх постоор Q Learning хэрхэн ажилладаг талаар дурдсан. Дахин сануулахад Q функц тухайн төлөв дээр үйлдэл хийгээд цаашаагаа хамгийн оптимал дүрмээр тоглолт хийвэл ирээдүйд авах нийт нийлбэр reward оноо тэд байна гэдгийг ойролцоогоор олсон утгыг буцаах үүрэгтэй. RL-ийн зорилго бол нийлбэр reward-г максимумчилах бөгөөд энэ Q функц нь тэр максимум утгад хүрэх хөтөч нь буюу хамгийн оптимал policy-г бий болгоход хэрэглэгддэг.