یادگیری ماشین(Machine Learning) - قسمت چهارم

طبقه بندی

"اشیاء را بر اساس یکی از ویژگی های شناخته شده از قبل تقسیم می کنید. جوراب ها را بر اساس رنگ ، اسناد مبتنی بر زبان ، موسیقی بر اساس ژانر جدا می کنید"

امروز مورد استفاده برای:

فیلتر کردن اسپم
تشخیص زبان
جستجوی اسناد مشابه
تجزیه و تحلیل احساس
شناخت شخصیت ها و اعداد دست نویس
تشخیص تقلب

الگوریتم های محبوب: Bayes Bayes ، درخت تصمیم گیری ، رگرسیون لجستیک ، نزدیکترین همسایگان K ، ماشین بردار پشتیبان.

یادگیری ماشین بیشتر مربوط به طبقه بندی چیزها است. دستگاه در اینجا شبیه کودک است که می تواند اسباب بازی ها را مرتب کند: در اینجا یک ربات وجود دارد ، یک ماشین است ، اینجا یک ماشین روبو وجود دارد ... اوه ، صبر کنید. خطا! خطا!

در طبقه بندی ، شما همیشه به یک معلم احتیاج دارید. داده ها باید دارای ویژگی هایی باشند تا دستگاه بتواند کلاس ها را بر اساس آنها اختصاص دهد. همه چیز را می توان طبقه بندی کرد - کاربران مبتنی بر علایق (همانطور که فیدهای الگوریتمی دارند) ، مقالات مبتنی بر زبان و موضوع (این برای موتورهای جستجو مهم است) ، موسیقی مبتنی بر ژانر (لیست های پخش Spotify) و حتی ایمیل های شما.

در فیلتر کردن اسپم از الگوریتم Naive Bayes به طور گسترده استفاده شد. دستگاه تعداد گفتار "viagra" را در نامه های اسپم و عادی شمارش می کند ، سپس با استفاده از معادله Bayes هر دو احتمال را ضرب می کند ، نتایج را جمع بندی می کند و بله ، ما Machine Learning داریم.

بعداً ، هرزنامه ها با افزودن تعداد زیادی کلمه "خوب" در انتهای ایمیل یاد گرفتند که چگونه با فیلترهای بیزی مقابله کنند. از قضا این روش مسمومیت بیزی نام داشت. Naive Bayes در تاریخ به عنوان ظریف ترین و اولین کاربرد از آن پدیدار شد ، اما اکنون الگوریتم های دیگر برای فیلتر کردن اسپم مورد استفاده قرار می گیرند.

در اینجا مثال عملی دیگری از طبقه بندی وجود دارد. می گویند شما به اعتبار نیاز دارید. چگونه بانک می داند که آیا شما آن را بازپرداخت می کنید یا نه؟ هیچ راهی برای اطمینان از این وجود ندارد. اما این بانک پروفایل های زیادی از افرادی دارد که قبلاً پول می گرفتند. آنها اطلاعاتی در مورد سن ، تحصیلات ، شغل و حقوق و از همه مهمتر واقعیت بازپرداخت پول دارند یا نه.

با استفاده از این داده ها ، ما می توانیم به دستگاه بیاموزیم که الگوهایی را پیدا کند و جواب را بدست آورد. مشکلی برای دریافت جواب وجود ندارد. مسئله این است که بانک نمی تواند کورکورانه به جواب دستگاه اعتماد کند. اگر یک خرابی سیستم یا حمله هکرها وجود داشته باشد چه می شود؟

برای مقابله با آن ، ما درخت تصمیم گیری داریم. تمام داده ها بطور خودکار به سؤالات بله / خیر تقسیم می شوند. آنها می توانند از دیدگاه انسانی کمی عجیب به نظر برسند ، به عنوان مثال ، آیا طلبکار بیش از 128.12 دلار درآمد دارد؟ اگرچه ، دستگاه با چنین سؤالاتی به وجود آمده است تا داده ها را در هر مرحله به بهترین وجه تقسیم کند.

به این ترتیب یک درخت ساخته می شود. هر چه شاخه بالاتر باشد - این سوال گسترده تر است. هر تحلیل گر می تواند آن را بگیرد و بعد از آن توضیح دهد. او ممکن است آن را نفهمد ، اما به راحتی توضیح می دهد! (تحلیلگر معمولی)

درختان تصمیم گیری، بطور گسترده در حوزه های با مسئولیت پذیری بالا استفاده می شوند: تشخیص ، پزشکی و مالی.

امروزه درختان تصمیم گیری ناب به ندرت مورد استفاده قرار می گیرند. با این حال ، آنها اغلب پایه و اساس سیستم های بزرگ را تنظیم می کنند ، و مجموعه های آنها حتی بهتر از شبکه های عصبی کار می کنند.

ماشینهای بردار پشتیبانی (SVM) به درستی محبوب ترین روش طبقه بندی کلاسیک است. از آن برای طبقه بندی همه چیز موجود استفاده می شود: گیاهان با ظاهر در عکس ها ، اسناد بر اساس دسته ها و غیره.

ایده SVM ساده است - سعی می شود دو نقطه بین نقاط داده شما با بیشترین حاشیه بین آنها ترسیم شود. به تصویر نگاه کنید:

یک مورد بسیار مفید برای تشخیص ناهنجاری طبقه بندی وجود دارد. وقتی یک ویژگی با هیچ یک از کلاس ها مناسب نیست ، ما آن را برجسته می کنیم. اکنون در پزشکی استفاده می شود - در MRI ، رایانه ها تمام مناطق مشکوک یا انحرافات آزمایش را برجسته می کنند. بورس اوراق بهادار از آن برای تشخیص رفتار غیر طبیعی معامله گران برای یافتن خودیها استفاده می کنند. هنگام آموزش موارد صحیح به کامپیوتر ، ما به طور خودکار به او یاد می دهیم که چه چیزهایی اشتباه هستند.

امروزه شبکه های عصبی بیشتر برای طبقه بندی استفاده می شوند. خوب ، این چیزی است که برای آنها ایجاد شده اند.

قاعده انگشتی هرچه داده ها پیچیده تر باشد ، الگوریتم پیچیده تر است. برای متن ، اعداد و جداول ، من روش کلاسیک را انتخاب می کنم. مدل ها در آنجا کوچکتر هستند ، آنها سریعتر یاد می گیرند و با وضوح بیشتری کار می کنند. برای تصاویر ، ویدئو و سایر موارد بزرگ پیچیده داده ها ، مطمئناً به شبکه های عصبی نگاه می کنم.

درست پنج سال پیش می توان طبقه بندی کننده صورت را پیدا کرد که روی SVM ساخته شده است. امروزه انتخاب صدها شبکه از قبل آموزش دیده آسانتر است. هیچ چیز برای فیلترهای اسپم تغییر نکرده است. آنها هنوز با SVM نوشته شده اند. و دلیل خوبی برای جابجایی از آن در هر جایی وجود ندارد.

قسمت پنجم و ششم