اغلب افراد فکر میکنند علم داده به الگوریتمهای جالب یادگیری ماشین و اتومبیلهای خودران مربوط است؛ اما واقعیت چنین نیست. در این حوزه تقریباً در ۸۰ درصد از موارد شما مشغول جستجو و پاکسازی دادهها هستید و اگر موفق باشید ۲۰ درصد باقیمانده را به موارد فوق اختصاص میدهید. بنابراین «یافتن دادهها و بررسی آنها» یکی از مهمترین توصیههایی است که هر تازه واردی به این حوزه دریافت میکند. حال اگر بخواهید روی پروژهای کار کنید؛ اما دادههای آن روی اینترنت موجود نباشد چه باید کرد؟
درواقع دادههایی که ممکن است نیاز داشته باشیم همیشه به صورتی سرراست وجود ندارند. اما خبر خوب این است که در هر حال وجود دارند و در صفحههای وب مخفی شدهاند. شما صرفاً باید در این صفحهها بگردید و آنها را استخراج کنید. وب اسکرپینگ به همین منظور استفاده میشود. از جمله زبانهای برنامهنویسی قابل استفاده برای وب اسکرپینگ، زبان قدرتمند پایتون است که با استفاده از کتابخانه Beautiful Soup این کار را انجام میدهد.
سرفصل های دوره آموزشی Pluralsight Extracting Data from HTML with BeautifulSoup:
- مقدمه
- اجزای یک صفحه وب
- مراحل خراش دادن هر وب سایت
- درک و بازرسی داده ها
- وارد کد شوید
- مراقب باشید -> قوانین تراشیدن
- نتیجه