Big data اصطلاحی است برای مجموعه داده های حجیم که بزرگ، متنوع، با ساختار پیچیده و با دشواریهایی برای ذخیره سازی، تحلیل و تصویرسازی (نمایش)، پردازشهای بیشتر یا نتایج میباشد.
پروسه تحقیق بر روی داده های حجیم جهت آشکارسازی الگوهای مخفی و راز همبستگی ها، تجزیه و تحلیل big data نامیده میشود. این اطلاعات مفید برای سازمانها وشرکتها در جهت کسب بینش غنی تر و عمیق تر و موفقیت در رقابت کمک میکند. به همین دلیل اجراهای big data نیاز دارند تا در صورت امکان، تحلیل شوند و به طور دقیق اجرا شوند. این گزارش خلاصه ای از محتوای big data، هدف، مثالها، روشها، منافع و چالش ها ارائه میدهد و در خصوص نگرانیهای حفظ حریم خصوصی در big data بحث میکند.
سرفصل های دوره آموزشی Packt Hands-On PySpark for Big Data Analysis:
– نصب PySpark و راه اندازی محیط توسعه خود
– گرفتن اطلاعات حجیمخود را به محیط اسپارک با استفاده از RDDs
– تمیز کردن و پاک کردن داده های حجیمبا نوت بوک های جارو
– جمع آوری داده ها در گزارشهای مفید
– تجزیه و تحلیل داده های اکتشافی قدرتمند با MLlib
– قرار دادن ساختار بر روی داده های حجیمخود را با SparkSQL