Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

自從看了師傅爬了頂點全站之后,我也手癢癢的,也想爬一個比較牛逼的小說網看看,于是選了宜搜這個網站,好了,馬上開干,這次用的是mogodb數據庫,感覺mysql太麻煩了下圖是我選擇宜搜里面遍歷的網站

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

先看代碼框架圖

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

第一個,肯定先提取排行榜里面每個類別的鏈接啊,然后進入鏈接進行爬取,先看all_theme文件

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

看看運行結果,這是書籍類目的

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

這是構造出的每一個類目里面所有的頁數鏈接,也是我們爬蟲的入口,一共5000多頁

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

接下來是封裝的數據庫操作,因為用到了多進程以及多線程每個進程,他們需要知道那些URL爬取過了、哪些URL需要爬取!我們來給每個URL設置兩種狀態:

  • outstanding:等待爬取的URL

  • complete:爬取完成的URL

  • processing:正在進行的URL。

嗯!當一個所有初始的URL狀態都為outstanding;當開始爬取的時候狀態改為:processing;爬取完成狀態改為:complete;失敗的URL重置狀態為:outstanding。

為了能夠處理URL進程被終止的情況、我們設置一個計時參數,當超過這個值時;我們則將狀態重置為outstanding。

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

接下來是爬蟲主程序

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

讓我們來看看結果吧

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

里面因為很多都是重復的,所有去重之后只有十幾萬本,好失望……

作者:蝸牛仔

來源:http://www.jianshu.com/p/a1c5183f3f4d

 


 

————廣告時間————

馬哥教育2017年Python自動化運維開發實戰班,馬哥聯合BAT、豆瓣等一線互聯網Python開發達人,根據目前企業需求的Python開發人才進行了深度定制,加入了大量一線互聯網公司:大眾點評、餓了么、騰訊等生產環境真是項目,課程由淺入深,從Python基礎到Python高級,讓你融匯貫通Python基礎理論,手把手教學讓你具備Python自動化開發需要的前端界面開發、Web框架、大監控系統、CMDB系統、認證堡壘機、自動化流程平臺六大實戰能力,讓你從0開始蛻變成Hold住年薪20萬的Python自動化開發人才

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!課程咨詢請長按即可咨詢Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

Python學習教程 | 用Python爬下十幾萬本小說,再也不會鬧書荒!

相關新聞

聯系我們

400-080-6560

在線咨詢:點擊這里給我發消息

郵件:[email protected]

工作時間:周一至周日,09:00-18:30

QR code
云南快乐10分开奖直播