گسستهسازی، پیشبینی و انتخاب ویژگی مقرون به صرفه برای سیستمهای پیچیده

یک عامل محدود کننده برای تحلیل سیستمهای بزرگ، هزینهٔ محاسباتی است. انتظار میرود رشد نمایی بهبود عملکرد سختافزار که در ۶۰ سال اخیر مشاهده شده است، در اوایل این دهه به پایان برسد.
هزینهٔ محاسباتی روشهای پیشرفتهتر یادگیری ماشین برای دادههای بزرگ به صورت نمایی رشد میکند و این موضوع نشان میدهد با اینکه پیشپردازشها ممکن است کاملاً جانبدارانه باشند؛ اما برای دادههای بزرگ غیر قابل اجتناب هستند.
از آنجا که انتظار میرود همچنان اندازهٔ دادهها در علوم طبیعی به صورت نمایی رشد کند، فشار بر کیفیت عملکرد و هزینهٔ محاسبات الگوریتمها افزایش مییابد.
در این مقاله روشی به نام تقریب احتمالی مقیاس پذیر (SPA) ارائه شده که تحلیل سیستمهای پیچیده را با هزینهٔ محاسباتی کمتری انجام میدهد.
روش SPA مسائل مربوط به گسستهسازی و انتخاب ویژگی و پیشبینی را به صورت همزمان انجام میدهد و آنها را جداگانه حل نمیکند. پیچیدگی زمانی الگوریتم SPA با افزایش مقدار داده به صورت خطی تغییر میکند که آن را برای استفاده روی دادههای بزرگ مناسب میکند. الگوریتم SPA به هیچ کدام از برنامههای کاهش ابعاد نیاز ندارد و پیچیدگی زمانی آن مانند الگوریتم محبوب و بسیار کم هزینهٔ K-mean است. الگوریتم SPA به صورت قابل ملاحظهای تقریب با کیفیت بهتر و سرعت بیشتر با افزایش اندازهٔ داده دارد. در این مقاله نشان داده شده است که برای تعداد کلاسبندی کمتر SPA در مقایسه با سایر الگوریتمها با تقریب بسیار خوب و با کیفیتی به جواب میرسد.
استفاده ازروش SPA روی دادههای بزرگ علوم طبیعی نشان میدهد که ویژگیهای SPA بهبود چشمگیری در پیشبینی و ارزیابی داده همراه با کاهش هزینههای محاسباتی را موجب میشود. به عنوان مثال پیشبینی دمای روز بعد احتیاج به حل معادلات حرکت جو دارد که حل این معادلات توسط ابرکامپیوتر ممکن است. با استفاده از این روش و پردازش دادهها روی یک کامپیوتر شخصی MAC دمای روز بعد با خطای میانگین ۰.۷۵ درجه سانتیگراد پیشبینی شد.
منبع: Science Advances

درباره مریم رفیعی پور
فارغ التحصیل کارشناسی ارشد رشته بیوانفورماتیک از دانشگاه تربیت مدرس
نوشتههای بیشتر از مریم رفیعی پور
دیدگاهتان را بنویسید
برای نوشتن دیدگاه باید وارد بشوید.