Hadoop یک چارچوب نرمافزاری منبعباز است که پردازش توزیعشده دادههای بزرگ را بر روی خوشههایی از سرورها ممکن میسازد. این چارچوب که به زبان جاوا نوشته شده است، برای انجام پردازش توزیع شده بر روی هزاران ماشین با تحملپذیری خطای بالا طراحی شده است. به جای تکیه بر سختافزارهای گرانقیمت، تحملپذیری در مقابل خطا در این خوشهها از توانایی نرمافزاری در تشخیص و ادارهی خرابی در لایه کاربرد میآید. استفادهکنندگان برجسته هادوپ، فیسبوک و یاهو هستند.
هسته اصلی هادوپ از یک بخش ذخیرهسازی (سیستم فایل توزیع شده هادوپ یا HDFS) و یک بخش پردازش (Map/Reduce) تشکیل شده است. هادوپ فایلها را به بلوکهای بزرگ شکسته و آنها را بین نودهای یک خوشه توزیع میکند. برای پردازش داده، بخش Map/Reduce بسته کدی را برای نودها ارسال میکند تا پردازش را به صورت موازی انجام دهند. این رویکرد از محلیت داده بهره میبرد (نودها بر روی بخشی از داده کار میکنند که در دسترشان قرار دارد). بدین ترتیب دادهها سریعتر و کاراتر از وقتی که از یک معماری متکی بر ابر-رایانه که از سیستم فایل موازی استفاده کرده و محاسبه و داده را از طریق یک شبکه پر سرعت به هم وصل میکند، پردازش میشوند.
سرفصل های دوره آموزشی Udemy Linux Basics for Hadoop Administrators:
– معرفی
– تنظیم محیط
– فایل ها و راهنماها
– مدیریت کاربر
– Shell امن (SSH)
– پایگاه داده MySQL
– MIT Kerberos
– پیکربندی دسترسی sudo برای کاربران
– جمع آوری اطلاعات سرور
– مدیریت بسته