Back to Question Center
0

Web Scraping با کارشناس Semalt

1 answers:

وب خراب کردن، همچنین به عنوان برداشت وب شناخته شده است، یک تکنیک است که برای استخراج داده ها از وب سایت ها. نرم افزار برداشت وب می تواند به طور مستقیم با استفاده از HTTP یا یک مرورگر وب به وب دسترسی داشته باشد. در حالی که این فرآیند ممکن است توسط یک کاربر نرم افزاری به صورت دستی اجرا شود، این تکنیک به طور کلی مستلزم یک فرآیند خودکار که با استفاده از خزنده وب یا ربات وب انجام می شود.

Web scraping فرایندی است که داده های ساخت یافته از وب به یک پایگاه داده محلی برای بررسی و بازیابی کپی می شود. این شامل گرفتن صفحه وب و استخراج محتوای آن است. محتوای صفحه ممکن است تجزیه و تحلیل، جستجو، بازسازی و داده های آن به یک دستگاه ذخیره سازی محلی کپی شود.

صفحات وب به طور کلی از زبان نشانه گذاری مبتنی بر متن مانند XHTML و HTML ساخته می شوند، که هر دو دارای بخش بزرگی از اطلاعات مفید در قالب متن هستند. با این حال، بسیاری از این وب سایت ها برای کاربردهای انسانی طراحی شده اند و نه برای استفاده خودکار. به همین دلیل است که برنامه نویسی ایجاد شده است.

تکنیک های بسیاری وجود دارد که می تواند برای ریزش وب موثر باشد. بعضی از آنها در زیر توضیح داده شده اند:

1. کپی و کپی انسان

گاه به گاه، حتی بهترین ابزار وب کم نمی تواند جایگزین دقت و کارایی یک کپی و چسباندن کتابچه راهنمای انسان..این بیشتر در شرایطی که وبسایت ها موانع برای جلوگیری از اتوماسیون ماشین را راه اندازی می کنند، قابل استفاده است.

2. تطابق الگوی متن

این روش نسبتا ساده اما قدرتمند است که برای استخراج داده ها از صفحات وب استفاده می شود. این ممکن است بر اساس دستور grep یونیکس یا فقط یک تابع بیان منظم از یک زبان برنامه نویسی داده شده، به عنوان مثال، پایتون یا پرل باشد.

3. برنامه نویسی HTTP

برنامه نویسی HTTP را می توان برای هر دو صفحات وب استاتیک و پویا استفاده کرد. داده ها از طریق ارسال درخواست HTTP به سرور وب از راه دور استخراج می شود در حالی که استفاده از برنامه نویسی سوکت.

4. تجزیه و تحلیل HTML

بسیاری از وبسایتها دارای مجموعه گسترده ای از صفحات ایجاد شده به صورت پویا از یک منبع ساختاری زیر مانند یک پایگاه داده هستند. در اینجا داده هایی که متعلق به یک رده مشابه هستند به صفحات مشابه کدگذاری می شوند. در تجزیه HTML، یک برنامه به طور کلی چنین یک الگو را در یک منبع خاص اطلاعات شناسایی می کند، محتوای آن را بازیابی می کند و سپس آن را به یک فرم وابسته تبدیل می کند که به عنوان یک بسته بندی تعبیر شده است.

5. تجزیه DOM

در این روش یک برنامه در یک مرورگر وب کامل مانند موزیلا فایرفاکس یا اینترنت اکسپلورر برای بازیابی محتوای پویای تولید شده توسط اسکریپت سمت سرویس گیرنده جاسازی می کند. این مرورگرها همچنین ممکن است صفحات وب را به یک درخت DOM بر اساس برنامه هایی که بخشی از صفحات را استخراج می کنند، تجزیه کند.

6. تشخیص علامت گذاری معنایی

صفحاتی که قصد دارید آنرا برش دهید، ممکن است شامل نشانه های معنایی و حاشیه نویسی یا فراداده باشد که ممکن است برای قرار دادن قطعه های داده خاص استفاده شود. اگر این حاشیه نویسی در صفحات جاسازی شده باشد، این تکنیک ممکن است به عنوان یک مورد خاص از تجزیه DOM در نظر گرفته شود. این حاشیه نویسی همچنین می تواند به یک لایه ی نحوی سازماندهی شود و سپس جداگانه از صفحات وب ذخیره و مدیریت می شود. این اجازه می دهد تا اسکرپرس برای بازیابی طرح داده ها و همچنین دستورات از این لایه قبل از سقوط صفحات.

December 6, 2017
Web Scraping با کارشناس Semalt
Reply