قبل از اینکه به روشهای مختلف حل مسائل یادگیری تقویتی بپردازیم، باید یک موضوع بسیار مهم دیگر را در آموزشهای یادگیری تقویتی وب دانش پوشش دهیم: مفهوم توازن اکتشاف/بهرهبرداری (Exploration/Exploitation trade-off)
- اکتشاف (Exploration) به معنای کاوش در محیط با انجام دادن اقدامات تصادفی است تا اطلاعات بیشتری در مورد محیط به دست آوریم.
- بهرهبرداری (Exploitation) به معنای استفاده از اطلاعات شناختهشده برای حداکثر کردن پاداش است.
به یاد داشته باشید، هدف عامل یادگیری تقویتی ما حداکثر کردن پاداش تجمعی مورد انتظار است. با این حال، ممکن است در یک دام رایج بیفتیم.
اجازه دهید یک مثال را ببینیم:
در این بازی، موش ما میتواند مقدار بینهایتی پنیر کوچک (+۱ برای هر کدام) داشته باشد. اما در بالای مارپیچ، یک مقدار بسیار زیاد پنیر (+۱۰۰۰) وجود دارد.
با این حال، اگر فقط روی بهرهبرداری تمرکز کنیم، عامل ما هرگز به مقدار بسیار زیاد پنیر نمیرسد. در عوض، فقط از نزدیکترین منبع پاداش بهرهبرداری میکند، حتی اگر این منبع کوچک باشد (بهرهبرداری).
اما اگر عامل ما کمی اکتشاف انجام دهد، میتواند پاداش بزرگ (توده پنیر بزرگ) را کشف کند.
این همان چیزی است که ما آن را توازن اکتشاف/بهرهبرداری مینامیم. ما باید تعادلی بین میزان کاوش در محیط و میزان بهرهبرداری از آنچه در مورد محیط میدانیم، ایجاد کنیم.
بنابراین، باید قانونی را تعریف کنیم که به ما در مدیریت این توازن کمک کند. در آموزشهای آینده از یادگیری تقویتی وب دانش، روشهای مختلفی را برای مدیریت آن خواهیم دید.
مثالی ساده از توازن اکتشاف/بهره برداری
اگر هنوز مفهوم توازن اکتشاف/بهرهبرداری را بهخوبی درک نکردید، به یک مشکل واقعی فکر کنید: انتخاب رستوران:
- بهرهبرداری: هر روز به همان رستورانی میروید که میدانید خوب است و ریسک از دست دادن یک رستوران بهتر را به جان میخرید.
- اکتشاف: رستورانهایی را امتحان میکنید که قبلاً هرگز به آنها نرفتهاید، با خطر تجربه بد، اما احتمال تجربه فوقالعاده نیز وجود دارد.
در تصویر بالا توازن اکتشاف/بهرهبرداری را مشاهده میکنید.
- اکتشاف یعنی انجام یک عمل تصادفی خارج از برنامه جهت یافتن اطلاعات بیشتری درباره محیط.
- بهرهبرداری یعنی استفاده از اطلاعات مشخص جهت حداکثر کردن پاداش.
منبع: https://huggingface.co/learn/deep-rl-course/unit1/exp-exp-tradeoff




