در این مقاله قصد داریم با نوع وظایف در یادگیری تقویتی آشنا شویم.
یک وظیفه (تسک task) نمونهای از یک مسئله یادگیری تقویتی است. ما میتوانیم دو نوع وظیفه داشته باشیم: اپیزودیک و ادامهدار.
وظیفه (task) اپیزودیک در یادگیری تقویتی
در این حالت، یک نقطه شروع و یک نقطه پایان (یک حالت پایانی) داریم. به این صورت، یک اپیزود (episode) ایجاد میشود: لیستی از وضعیتها، اقدامات، پاداشها و حالات جدید.
به عنوان مثال، به Super Mario Bros فکر کنید: یک اپیزود با راه اندازی یک مرحله جدید ماریو شروع میشود و زمانی که شما کشته میشوید یا به پایان مرحله میرسید، اپیزود به پایان میرسد.
وظیفه ادامهدار (continuing) دز یادگیری تقویتی
اینها وظایفی هستند که برای همیشه ادامه مییابند (بدون وضعیت ترمینال). در این حالت، عامل باید یاد بگیرد که چگونه بهترین اقدامات را انتخاب کند و همزمان با محیط تعامل داشته باشد.
به عنوان مثال، عاملی که معاملات خودکار سهام را انجام میدهد. برای این کار، نقطه شروع و حالت پایانی وجود ندارد. عامل به کار خود ادامه میدهد تا زمانی که تصمیم بگیریم آن را متوقف کنیم.
در این مقاله کوتاه، با نوع وظایف در یادگیری تقویتی آشنا شدیم:
- اپیزودیک: دارای نقطه شروع و پایان
- ادامهدار: وظیفه برای همیشه ادامه دارد
منبع: https://huggingface.co/learn/deep-rl-course/unit1/tasks



