یادگیری تقویتی چیست؟

یادگیری تقویتی چیست؟

برای درک یادگیری تقویتی (Reinforcement Learning) یا به اختصار RL، بیایید با تصویر بزرگ شروع کنیم.

تصویر بزرگ

ایده پشت یادگیری تقویتی این است که یک عامل (یک هوش مصنوعی) از طریق تعامل با محیط (از طریق آزمون و خطا) و دریافت پاداش (منفی یا مثبت) به عنوان بازخورد برای انجام اقدامات، از محیط بیاموزد.

یادگیری از تعامل با محیط از تجربیات طبیعی ما ناشی می‌شود.

به عنوان مثال، تصور کنید که برادر کوچک خود را در مقابل یک بازی ویدیویی که هرگز بازی نکرده بود قرار دهید، یک کنترلر به او بدهید و او را تنها بگذارید.

معرفی یادگیری تقویتی

برادر شما با فشار دادن دکمه سمت راست (اکشن) با محیط (بازی ویدیویی) تعامل خواهد داشت. او یک سکه گرفت، این یک جایزه +۱ است. این مثبت است، او فقط فهمید که در این بازی باید سکه‌ها را بدست آورد.

یادگیری تقویتی

اما بعد، دوباره دکمه سمت راست را فشار می‌دهد و دشمن را لمس می‌کند. او به تازگی مرده است، بنابراین این یک پاداش -۱ است.

پاداش منفی در یادگیری تقویتی

با تعامل با محیط خود از طریق آزمون و خطا، برادر کوچک شما می‌فهمد که باید در این محیط سکه بگیرد اما از دشمنان دوری کند.

بدون هیچ نظارتی، کودک در بازی بهتر و بهتر می‌شود.

این گونه است که انسان‌ها و حیوانات از طریق تعامل یاد می‌گیرند. یادگیری تقویتی فقط یک رویکرد محاسباتی یادگیری از اقدامات است.

یک تعریف رسمی از یادگیری تقویتی

اکنون می‌توانیم یک تعریف رسمی داشته باشیم:

یادگیری تقویتی چارچوبی برای حل وظایف کنترلی (مشکلات تصمیم گیری نیز نامیده می‌شود) با ساختن عواملی است که از طریق تعامل با محیط از طریق آزمون و خطا و دریافت پاداش (مثبت یا منفی) به عنوان بازخورد منحصر به فرد، از محیط یاد می‌گیرند.

منبع

دیدگاه‌ها

آدرس ایمیل شما منتشر نخواهد شد. فیلدهای ضروری علامت گذاری شده اند.