دانلود Pluralsight Extracting Data from HTML with BeautifulSoup آموزش استخراج داده ها از اچ تی ام ال با بیوتیفول سوپ

مطلب نوشته شده
۳۰ دی ۱۴۰۰
دفعات بازدید
568
تعداد نظرات
بدون نظر
در بخش
چندرسانه ای
ادامه مطلب
دانلود

اغلب افراد فکر می‌کنند علم داده به الگوریتم‌های جالب یادگیری ماشین و اتومبیل‌های خودران مربوط است؛ اما واقعیت چنین نیست. در این حوزه تقریباً در ۸۰ درصد از موارد شما مشغول جستجو و پاکسازی داده‌ها هستید و اگر موفق باشید ۲۰ درصد باقیمانده را به موارد فوق اختصاص می‌دهید. بنابراین «یافتن داده‌ها و بررسی آن‌ها» یکی از مهم‌ترین توصیه‌هایی است که هر تازه‌ واردی به این حوزه دریافت می‌کند. حال اگر بخواهید روی پروژه‌ای کار کنید؛ اما داده‌های آن روی اینترنت موجود نباشد چه باید کرد؟ درواقع داده‌هایی که ممکن است نیاز داشته باشیم همیشه به صورتی سرراست وجود ندارند. اما خبر خوب این است که در هر حال وجود دارند و در صفحه‌های وب مخفی شده‌اند. شما صرفاً باید در این صفحه‌ها بگردید و آن‌ها را استخراج کنید. وب اسکرپینگ به همین منظور استفاده می‌شود. از جمله زبان‌های برنامه‌نویسی قابل استفاده برای وب اسکرپینگ، زبان قدرتمند پایتون است که با استفاده از کتابخانه Beautiful Soup این کار را انجام می‌دهد.