Back to Question Center
0

Semalt Expert: پایتون و BeautifulSoup. سایت های محکم با سهولت

1 answers:

هنگام انجام تجزیه و تحلیل داده ها و یا پروژه های یادگیری ماشین، ممکن است نیاز به وب سایت ها برای گرفتن اطلاعات مورد نیاز و تکمیل پروژه شما. زبان برنامه نویسی Python یک مجموعه قدرتمند از ابزارها و ماژول هایی است که می توان برای این منظور استفاده کرد. به عنوان مثال، شما می توانید از ماژول BeautifulSoup برای تجزیه و تحلیل HTML استفاده کنید.

در اینجا، نگاهی به BeautifulSoup خواهیم زد و این که چرا در حال حاضر به طور گسترده در وب وب کم استفاده می شود،. ویژگی های BeautifulSoup

- این روش های مختلفی را برای ناوبری آسان، جستجوی و اصلاح درختان تجزیه فراهم می کند و به شما این امکان را می دهد که به سادگی یک سند را تجزیه و تحلیل کنید و همه چیز را بدون نیاز به نوشتن کد بیش از حد استخراج کنید - appraisal companies.

- این به طور خودکار اسناد خروجی را به UTF-8 و اسناد ورودی به یونیکد تبدیل می کند. این بدان معناست که شما نباید نگران رمزگذاری ها باشید در صورتی که سند یک رمزگذاری را مشخص کرده یا سوپ زیبا آن می توانید آن را بصورت خودکار شناسایی کنید.

- BeautifulSoup برتر از سایر پارسیورهای محبوب پایتون مانند html5lib و lxml است. این اجازه می دهد تا استراتژی های مختلف تجزیه آمیز را امتحان کنید. با این حال یکی از معایب این ماژول این است که انعطاف پذیری بیشتری را در هزینه سرعت فراهم می کند.

به وب سایت BeautifulSoup نیاز دارید؟

برای شروع کار با BeautifulSoup، شما باید محیط برنامه نویسی Python (محلی یا مبتنی بر سرور) بر روی دستگاه خود نصب کنید. پایتون معمولا در OS X پیش نصب شده است، اما اگر از ویندوز استفاده می کنید، باید زبان را از وب سایت رسمی دانلود و نصب کنید.

شما باید ماژول BeautifulSoup و درخواست ها را نصب کنید.

در نهایت، داشتن آشنا و راحت کار با تگ HTML و ساختار، قطعا مفید خواهد بود زیرا شما با داده های وب منبع کار می کنید.

درخواست های وارداتی و کتابخانه های BeautifulSoup

با ایجاد محیط برنامه نویسی پایتون، شما هم اکنون می توانید یک فایل جدید ایجاد کنید (به عنوان مثال با استفاده از نانو) با نامی که دوست دارید.

کتابخانه درخواستها شما را قادر میسازد از یک فرم HTTP قابل خواندن انسان در برنامههای پایتون خود استفاده کنید در حالی که BeautifulSoup با سرعت بیشتری انجام میگیرد. شما می توانید بیانیه واردات را برای دریافت هر دو کتابخانه استفاده کنید.

نحوه جمع آوری و تجزیه یک صفحه وب

از درخواست ها استفاده کنید. روش

get

برای جمع آوری URL صفحه وب که از آن می خواهید داده ها را استخراج کنید. بعد، یک شی BeautifulSoup یا درخت تجزیه ایجاد کنید. این شی سند را از درخواست ها به عنوان استدلال آن می گیرد و سپس آن را تجزیه می کند. با صفحه جمع آوری شده، تجزیه و تنظیم شده به عنوان شی BeautifulSoup، پس از آن می توانید به جمع آوری داده ها نیاز دارید.

استخراج متن دلخواه از صفحه وب تجزیه شده

هر زمان که میخواهید دادههای وب را جمعآوری کنید، باید بدانید که چگونه دادهها توسط Model Object Model (DOM) صفحه وب توصیف میشوند. در مرورگر وب خود، با کلیک راست (در صورت استفاده از ویندوز) راست کلیک کرده یا CTRL + کلیک کنید (در صورت استفاده از macOS) در یکی از مواردی که بخشی از اطلاعات مورد علاقه هستند. به عنوان مثال، اگر می خواهید اطلاعات مربوط به ملیت دانش آموزان را بیرون بیاورید، روی یکی از نام های یک دانش آموز کلیک کنید. یک منوی زمینه ظاهر می شود، و در داخل آن، یک آیتم منو مشابه بازرسی عنصر (برای فایرفاکس) یا بازرسی (برای Chrome) خواهید دید. روی مورد مربوط به بازرسی منو کلیک کنید و ابزارهای توسعهدهنده وب در مرورگر شما ظاهر میشوند.

BeautifulSoup یک ابزار تجزیه ساده ساده اما قدرتمند HTML است که به شما اجازه می دهد مقدار زیادی از انعطاف پذیری را در هنگام وب سایت های خراب کردن . هنگام استفاده از آن، فراموش نکنید که قوانین کلی لغو نظارت کنید مانند بررسی شرایط و ضوابط وب سایت؛ بازبینی سایت به طور مرتب و به روز رسانی کد خود را به عنوان تغییرات ساخته شده در سایت. با داشتن این دانش در مورد حذف وب سایت ها با Python و BeautifulSoup، شما هم اکنون می توانید به راحتی اطلاعات وب مورد نیاز خود را برای پروژه خود دریافت کنید.

December 22, 2017