طراحی الگوریتمی برای شبکه عصبی یادگیری عمیق به منظور بهینه سازی طبقه بندی تصویر مبتنی بر شبکه عصبی کانولوشن (CNN) و پیاده سازی روی FPGA

اکتبر 12, 2021
منتشر شده در simiya

در سالهای اخیر، یادگیری عمیق به سرعت توسعه یافته است و در بسیاری از زمینه های اصلی هوش مصنوعی کاربرد دارد. یادگیری ماشین، بخشی از هوش مصنوعی است که از کسر و الگوهایی متفاوت از دستورات خاص برای حل مشکلات استفاده می کند [1]. یادگیری عمیق، به عنوان بخشی از یادگیری ماشین، [2 ، 3] از سال 2006 به یک حوزه آکادمیک مهم تبدیل شده است. یادگیری عمیق همیشه در زمینه هایی مانند طبقه بندی تصویر و تشخیص صدا با داده های خام به کار می رود و شامل دو بخش اصلی یادگیری نظارت شده و یادگیری بدون نظارت می باشد. یادگیری نظارت شده از طریق ورودی های آموزش از قبل برچسب شده یاد می گیرد تا ورودی های آزمایش را در کلاس های مختلف توزیع کند، در حالی که یادگیری بدون نظارت هیچ برچسبی در ورودی های آموزش ندارد [4].

رویکردهای بینایی ماشین و شناسایی الگو در زمینه تشخیص بصری موفقیت‌های فراوانی به دست آورده است. به‌طور مثال می‌توان به تشخیص چهره، تشخیص پلاک خودرو، تشخیص اثرانگشت و موارد مشابه اشاره نمود. هرکدام ازاین‌رویکردها از روش‌های یادگیری ماشین به‌منظور ساخت یک حالت تشخیص‌دهنده از مجموعه داده‌های بزرگی استفاده می‌کنند. سپس تشخیص‌دهنده از بین تمامی تصاویر موجود به‌عنوان ورودی یک نمونه تهیه می‌کند که به دنبال شی هدف می‌گردد. نتایج و تجربه نشان می‌دهد که این سیستم‌ها برای امور مختلف در صنعت، کشاورزی، نظامی و غیره، دارای کاربرد و کارایی قابل قبولی هستند. یکی از بخش‌های مشابه در این زمینه نیز تشخیص ناحیه چشم به همراه تعقیب عنبیه چشم می‌باشد. با شروع دهه دوم تحقیقات در بیومتریک های حرکت چشم، نتایج قبلاً نشان داده‌شده به‌شدت از چشم‌اندازهای امیدوارکننده این زمینه پشتیبانی می‌کند. سیستم چشمی انسان، وظیفه هماهنگی حرکات چشم برای فیلتر کردن هجوم اطلاعات محیط بصری را بر عهده دارد. کارایی سیستم بینایی چشم توسط شش عضله چشمی هدایت و پشتیبانی می‌گردد. چهار تای آن‌ها به حرکات افقی و عمودی چشم اختصاص دارد که شامل رکتی[1] جانبی و میانی (افقی) و برآمدگی جلو و تحتانی (عمودی) است. دو عضله دیگر به‌صورت مورب جلویی و پیشین است که وظیفه هماهنگی چرخش چشم را بر عهده دارند. مسئله تشخیص، تعقیب و ردیابی عنبیه چشم به‌عنوان یک موضوع داغ تحقیقاتی در حوزه بیومتریک و علوم هوش مصنوعی و زیرمجموعه بینایی ماشین، پردازش تصاویر دیجیتال و شناسایی آماری و تحلیلی الگو قرار می‌گیرد. در طی چند سال اخیر، روش‌های متنوعی بر اساس ساختارهای هوشمند، روش‌های مکانیکی، روش‌های الکتریکی و روش‌های اپتیکال (برپایه سیستم‌های بینایی ماشین) در این حوزه فعالیت داشته‌اند. در سالیان اخیر به‌خصوص از سال 2007 میلادی تا 2019 حال حاضر، حرکت چشم و تعقیب عنبیه مبتنی بر بینایی ماشین در چندین حوزه ازجمله علوم شناختی به‌عنوان یک روش غالب، بدل شده است. اما با توجه به نقاط ضعف موجود در حوزه تعقیب و ردیابی عنبیه چشم ازجمله استفاده از نقاط برای شناسایی ناحیه عنبیه در چشم، عدم به دست آوردن نتایج بهینه ازلحاظ معیارهای ارزیابی به‌خصوص در زمان مطالعه و غیر مطالعه عنبیه چشم با معیارهای دقت[2] و فراخوان[3]، پیچیدگی محاسباتی بالا و زمان اجرای زیاد، این مسئله به‌عنوان یک حوزه داغ تحقیقاتی برای ارائه روش‌های بهینه‌تر، مدنظر قرارگرفته است.

الگوریتم‌های تشخیص‌دهنده می‌بایست سریع، کارآمد و با قابلیت جستجو در بین داده‌های ورودی در هر ابعادی باشند. داده‌های ورودی نیز باید دارای اندازه بزرگی باشند تا بتوان نرخ تشخیص را شناسایی کرد. روشی که تحقیق پیش رو ارائه می‌کند، استفاده از روش‌های یادگیری ماشین و پردازش تصویر پیشرفته است که برپایه روش‌های بینایی ماشین شکل‌گرفته‌اند. درواقع قرار است از شبکه‌های عمیق[4] به‌منظور آموزش استفاده شود تا تمامی مجموعه تصاویر به‌عنوان داده‌های ورودی به کار گرفته شوند. روش کار بدین‌صورت است که در ابتدا مجموعه تصاویر ورودی، نرمال‌سازی[5] می‌شوند. نرمال‌سازی باهدف بهسازی تصویر ازنظر شدت روشنایی، تغییر اندازه تصاویر به یک اندازه مشخص، کاهش نویزهای احتمالاتی و مواردی مشابه، انجام می‌گیرد. سپس یادگیری عمیق با یکی از تکنیک‌هایش وارد عمل می‌شود که شبکه عصبی کانولوشن[6] است که می‌تواند در زمینه آموزش داده‌های مناسب، به کار گرفته شود. درواقع الگوریتم شبکه عصبی کانولوشن ارائه‌شده در این تحقیق، توانایی استخراج ویژگی‌ها (همراه با کاهش ابعاد، انتخاب و درنهایت استخراج ویژگی‌ها) و تعقیب ناحیه هدف که عنبیه چشم است را دارا می‌باشد.

منظور از این پایان نامه طراحی یک الگوریتم شبکه عصبی یادگیری عمیق در راستای بهینه سازی طبقه بندی تصویر است. لذا، یک الگوریتم شبکه عصبی کانولوشن (CNN) طراحی می شود که روی آرایه دریچه ی برنامه پذیر میدانی (FPGA) پیاده سازی خواهد شد. این سیستم از PyTorch و CUDA به عنوان دستیار استفاده می کند. کاری که ما انجام خواهیم داد روی طبقه بندی تصویر مبتنی بر یک شبکه عصبی کانولوشن (CNN) متمرکز است. بسیاری از مدل های خوب CNN مانند ResNet ، ResNeXt و MobileNet قابل مطالعه هستند. با اعمال این مدلها در طراحی الگوریتم، الگوریتمی با مدل MobileNet طراحی می شود. این مدل ها با معیارهای مختلفی مثل عملیات ممیز شناور (FLOP)، تعداد پارامترها و دقت طبقه بندی انتخاب می شوند. شبیه سازی سخت افزاری روی الگوریتم مبتنی بر MobileNet ارائه می شود. پارامترها از اعداد عملیات ممیز شناور به عدد صحیح 8 بیتی تبدیل می شوند. برای غلبه بر محدودیت سخت افزاری، تعداد خروجی های هر لایه به صورت جداگانه بر روی اعداد صحیح بیت ثابت برش داده می شود. همچنین در این کار، روش دستکاری اعداد برای شبیه سازی تغییر عدد در سخت افزار طراحی می شود.

[1] Recti

[2] Precision

[3] Recall

[4] Deep Neural

[5] Normalization

[6] Convolution Neural Network (CNN)

برای مشاهده فایل کامل پروپوزال با عنوان طراحی الگوریتمی برای شبکه عصبی یادگیری عمیق به منظور بهینه سازی طبقه بندی تصویر مبتنی بر شبکه عصبی کانولوشن (CNN) و پیاده سازی روی FPGA می توانید از اینجا بازدید کنید.

سفارش پروژه مشابه دارید؟ به این صفحه مراجعه کنید.

دیدگاهی در مورد “طراحی الگوریتمی برای شبکه عصبی یادگیری عمیق به منظور بهینه سازی طبقه بندی تصویر مبتنی بر شبکه عصبی کانولوشن (CNN) و پیاده سازی روی FPGA”