یادگیری ماشین(Machine Learning) - قسمت هفتم

یادگیری ماشین(Machine Learning) - قسمت هفتم

مدت زمان تقریبی مطالعه : 3 دقیقه
1,580 بازدید

کاهش ابعاد (عمومی سازی)

"ویژگی های خاص را با ویژگی های سطح بالا تر جمع می کند"

امروزه استفاده شده برای:

  • سیستم های پیشنهادی (★)
  • تجسمات زیبا
  • مدل سازی موضوع و جستجوی اسناد مشابه
  • تجزیه و تحلیل تصویر جعلی

مدیریت ریسک

الگوریتم های محبوب: تجزیه و تحلیل مؤلفه اصلی (PCA) ، تجزیه ارزش تکین (SVD) ، تخصیص Dirichlet Latent (LDA) ، تجزیه و تحلیل معنایی پنهان (LSA، pLSA ، GLSA) ، t-SNE (برای تجسم)

پیش از این این داده های سخت توسط دانشمندان استفاده می شدند ، که مجبور بودند در تعداد زیادی از اعداد "چیز جالب" را پیدا کنند. هنگامی که نمودارهای اکسل کمکی نکرد ، آنها ماشینها را مجبور به انجام الگو یافتن کردند. به این ترتیب آنها روشهای کاهش ابعاد یا یادگیری ویژه ای را بدست آوردند.

همیشه برای افراد راحت تر است که از انتزاع استفاده کنند ، نه یک دسته از ویژگی های پراکنده. به عنوان مثال ، ما می توانیم تمام سگ ها را با گوش مثلث ، بینی های طولانی و دم های بزرگ به یک انتزاع خوب - "چوپان" ادغام کنیم. بله ، ما در مورد چوپان های خاص اطلاعاتی را از دست می دهیم ، اما انتزاع جدید برای نامگذاری و توضیح اهداف بسیار مفیدتر است. به عنوان یک جایزه ، چنین مدل هایی "انتزاعی" سریعتر یاد می گیرند ، کمتر لباس می پوشند و از تعداد کمتری از ویژگی ها استفاده می کنند.

این الگوریتمها به ابزاری شگفت انگیز برای مدل سازی موضوع تبدیل شدند. این همان کاری است که تحلیل معنایی نهفته (LSA) انجام می دهد. این موضوع بستگی به این دارد که چند بار کلمه را دقیق مشاهده می کنید. مطمئناً ، در مقالات فنی اصطلاحات فنی بیشتری وجود دارد. نام سیاستمداران بیشتر در اخبار سیاسی و غیره یافت می شود.

بله ، ما فقط می توان خوشه هایی را از تمام کلمات موجود در مقالات ایجاد کنیم ، اما تمام اتصالات مهم را از دست خواهیم داد (برای مثال همان معنی باتری در اسناد مختلف). LSA به درستی آن را اداره خواهد کرد ، به همین دلیل آن را "معنایی نهفته" می نامند.

بنابراین برای حفظ این اتصالات نهفته ، ما باید کلمات و اسناد را به یک ویژگی متصل کنیم - معلوم می شود که تجزیه تک (SVD) این کار را ناخوشایند می کند ، و خوشه های موضوعی مفید از کلمات دیده می شود.

سیستمهای پیشنهادی و فیلتر کردن مشارکتی یکی دیگر از کاربردهای فوق العاده محبوب روش کاهش ابعاد است. به نظر می رسد اگر از آن برای رده بندی کاربران استفاده می کنید ، سیستم عالی برای توصیه فیلم ، موسیقی ، بازی ها و هر آنچه را می خواهید دریافت می کنید.

درک کامل این انتزاع دستگاه به سختی امکان پذیر است ، اما می توان برخی از همبستگی ها را با نگاهی دقیق تر مشاهده کرد. برخی از آنها با سن کاربر ارتباط دارند - بچه ها کنکراست بازی می کنند و کارتون ها را بیشتر تماشا می کنند. دیگران با ژانر فیلم یا سرگرمی های کاربر ارتباط دارند.

ماشین آلات این مفاهیم سطح بالا را حتی بدون درک آنها ، فقط بر اساس دانش رتبه بندی کاربران دریافت می کنند.

 

قسمت هشتم

مقالات مرتبط