چکیده: در صنعت معدن، بهینهسازی عملیات حملونقل از اهمیت بالایی برخوردار است. با توجه به پیچیدگیهای موجود در این سیستمها، روشهای سنتی برنامهریزی اغلب با محدودیتهایی مواجه میشوند. در این پژوهش، با هدف افزایش کارایی و کاهش هزینههای عملیاتی، یک سیستم شبیهسازی مبتنی بر الگوریتمهای یادگیری تقویتی برای مدلسازی و بهینهسازی سیستم حملونقل معدنی توسعه داده شده است. در این تحقیق، ابتدا یک مدل جامع از سیستم حملونقل معدنی شامل عوامل مختلفی همچون نوع تجهیزات، ظرفیت تولید، تقاضای حمل بار و محدودیتهای زمانی ایجاد شده است. سپس، با استفاده از الگوریتمهای یادگیری تقویتی، یک عامل هوشمند برای تصمیمگیری در مورد مسیر حرکت وسایل نقلیه، زمانبندی عملیات بارگیری و تخلیه و تخصیص منابع بهینه آموزش داده شده است. علاوه بر آن مدل شبیه سازی شده بر روی یک معدن روباز نیز پیاده سازی شده است. همچنین در آن خرابی کامیون نیز با رویکردهای آماری شبیه سازی شده است و در مدل یادگیری تقویتی پیاده سازی شده است. و در نهایت تحلیل حساسیت 5 پارامتر تعداد شاولها، تعداد کامیونها، نرخ بارگیری، نرخ حمل و نقل و احتمال خرابی کامیونها مورد بررسی قرار گرفت و نمودارهای مربوطه به هر کدام ترسیم شده است. مقایسه ی سه روش، یک مدل شبیهسازی عادی که تخصیص به اولین شاول موجود را انجام میدهد، یک مدل شبیهسازی که تخصیص به سریعترین شاول را انجام میدهد، و یک مدل یادگیری تقویتی است که با استفاده از Q-learning تخصیص بهینه را یاد میگیرد. در نهایت، مقایسه عملکرد این سه مدل نشان میدهد که مدل یادگیری تقویتی با استفاده از الگوریتم Q-learning قادر است تا تخصیص بهینه کامیونها به شاول ها را یاد بگیرد و بهترین عملکرد را نسبت به دو مدل سادهتر داشته باشد. این مدل با استفاده از بهروزرسانی مقادیر Q و یادگیری از تجربیات گذشته، سیاستی بهینه میآموزد که منجر به بیشترین تعداد بارگیریهای موفق میشود و بهرهوری کلی سیستم را افزایش میدهد.