Python Crawler 初心者心得

最近開始對於爬蟲蠻有興趣的,現在網路資訊太多了,光是整理各種資訊其實就省了不少時間跟經歷,就開始研究一下怎麼寫。

一開始還是從最熟悉的php開始,寫了些簡單的爬蟲後,遇到一些網頁需要模擬登入後,才能進入到內頁開始爬的狀況,這時候php的缺點就顯現的比較大了,而且很多解法我個人覺得很不直覺外加程式碼超多的,就轉向現在最夯的網路爬蟲程式語言Python。

首先先來看一下php要用curl去抓一個網頁的範例吧:

而python使用requests(pip install request就搞定了)的範例:

一比就知道哪個語言更直覺簡單去寫crawler了,同時python對處理字串也比php更快更簡單!馬上立馬轉向python crawler的懷抱!php掰掰,你還是繼續作套版就好!

另外差異最大的還是在如何模擬登入後,取得user cookie後進行資料爬取,來看一下php要搞的多麻煩:

要自己把cookie存回file裡面,我覺得很麻煩,之後還要在開一個request(帶入cookie)去撈。

而python就相當簡便:

是不是超簡單且方便,上手也很快速!

更棒的事情是,requests module 直接內建支援Oauth!

搞定了,是不是超爽!

另外順道一提,python最好全面使用python3,對於UTF-8的支援度比較好,對於request lib的文件請參考以下連結:requests 文件

參考資料

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *