نوع وظایف در یادگیری تقویتی

در این مقاله قصد داریم با نوع وظایف در یادگیری تقویتی آشنا شویم.

یک وظیفه (تسک task) نمونه‌ای از یک مسئله یادگیری تقویتی است. ما می‌توانیم دو نوع وظیفه داشته باشیم: اپیزودیک و ادامه‌دار.

وظیفه (task) اپیزودیک در یادگیری تقویتی

در این حالت، یک نقطه شروع و یک نقطه پایان (یک حالت پایانی) داریم. به این صورت، یک اپیزود (episode) ایجاد می‌شود: لیستی از وضعیت‌ها، اقدامات، پاداش‌ها و حالات جدید.

به عنوان مثال، به Super Mario Bros فکر کنید: یک اپیزود با راه اندازی یک مرحله جدید ماریو شروع می‌شود و زمانی که شما کشته می‌شوید یا به پایان مرحله می‌رسید، اپیزود به پایان می‌رسد.

اپیزود در یادگیری تقویتی

وظیفه ادامه‌دار (continuing) دز یادگیری تقویتی

این‌ها وظایفی هستند که برای همیشه ادامه می‌یابند (بدون وضعیت ترمینال). در این حالت، عامل باید یاد بگیرد که چگونه بهترین اقدامات را انتخاب کند و همزمان با محیط تعامل داشته باشد.

به عنوان مثال، عاملی که معاملات خودکار سهام را انجام می‌دهد. برای این کار، نقطه شروع و حالت پایانی وجود ندارد. عامل به کار خود ادامه می‌دهد تا زمانی که تصمیم بگیریم آن را متوقف کنیم.

وظایف ادامه دار در یادگیری تقویتی

در این مقاله کوتاه، با نوع وظایف در یادگیری تقویتی آشنا شدیم:

  1. اپیزودیک: دارای نقطه شروع و پایان
  2. ادامه‌دار: وظیفه برای همیشه ادامه دارد

 

منبع: https://huggingface.co/learn/deep-rl-course/unit1/tasks

دیدگاه‌ها

آدرس ایمیل شما منتشر نخواهد شد. فیلدهای ضروری علامت گذاری شده اند.