مفهوم توازن اکتشاف/بهره‌برداری در یادگیری تقویتی

توازن اکتشاف/بهره برداری

قبل از اینکه به روش‌های مختلف حل مسائل یادگیری تقویتی بپردازیم، باید یک موضوع بسیار مهم دیگر را در آموزش‌های یادگیری تقویتی وب دانش پوشش دهیم: مفهوم توازن اکتشاف/بهره‌برداری (Exploration/Exploitation trade-off)

  • اکتشاف (Exploration) به معنای کاوش در محیط با انجام دادن اقدامات تصادفی است تا اطلاعات بیشتری در مورد محیط به دست آوریم.
  • بهره‌برداری (Exploitation) به معنای استفاده از اطلاعات شناخته‌شده برای حداکثر کردن پاداش است.

به یاد داشته باشید، هدف عامل یادگیری تقویتی ما حداکثر کردن پاداش تجمعی مورد انتظار است. با این حال، ممکن است در یک دام رایج بیفتیم.

اجازه دهید یک مثال را ببینیم:

اکتشاف و بهره برداری

در این بازی، موش ما می‌تواند مقدار بی‌نهایتی پنیر کوچک (+۱ برای هر کدام) داشته باشد. اما در بالای مارپیچ، یک مقدار بسیار زیاد پنیر (+۱۰۰۰) وجود دارد.

با این حال، اگر فقط روی بهره‌برداری تمرکز کنیم، عامل ما هرگز به مقدار بسیار زیاد پنیر نمی‌رسد. در عوض، فقط از نزدیک‌ترین منبع پاداش بهره‌برداری می‌کند، حتی اگر این منبع کوچک باشد (بهره‌برداری).

اما اگر عامل ما کمی اکتشاف انجام دهد، می‌تواند پاداش بزرگ (توده پنیر بزرگ) را کشف کند.

این همان چیزی است که ما آن را توازن اکتشاف/بهره‌برداری می‌نامیم. ما باید تعادلی بین میزان کاوش در محیط و میزان بهره‌برداری از آنچه در مورد محیط می‌دانیم، ایجاد کنیم.

بنابراین، باید قانونی را تعریف کنیم که به ما در مدیریت این توازن کمک کند. در آموزش‌های آینده از یادگیری تقویتی وب دانش، روش‌های مختلفی را برای مدیریت آن خواهیم دید.

مثالی ساده از توازن اکتشاف/بهره برداری

اگر هنوز مفهوم توازن اکتشاف/بهره‌برداری را به‌خوبی درک نکردید، به یک مشکل واقعی فکر کنید: انتخاب رستوران:

مثال انتخاب رستوران برای اکتشاف و بهره برداری

  • بهره‌برداری: هر روز به همان رستورانی می‌روید که می‌دانید خوب است و ریسک از دست دادن یک رستوران بهتر را به جان می‌خرید.
  • اکتشاف: رستوران‌هایی را امتحان می‌کنید که قبلاً هرگز به آن‌ها نرفته‌اید، با خطر تجربه بد، اما احتمال تجربه فوق‌العاده نیز وجود دارد.

اکتشاف و بهره‌برداری

در تصویر بالا توازن اکتشاف/بهره‌برداری را مشاهده می‌کنید.

  • اکتشاف یعنی انجام یک عمل تصادفی خارج از برنامه جهت یافتن اطلاعات بیشتری درباره محیط.
  • بهره‌برداری یعنی استفاده از اطلاعات مشخص جهت حداکثر کردن پاداش.

 

منبع: https://huggingface.co/learn/deep-rl-course/unit1/exp-exp-tradeoff

دیدگاه‌ها

آدرس ایمیل شما منتشر نخواهد شد. فیلدهای ضروری علامت گذاری شده اند.