在我們采集一些網站時,會出現一些網頁的樣式結構不同,導致一部分網頁數據采集不到。
針對這種問題,首先我們需要找到采集失敗的網址。
下面我們以搜狐的新聞內容頁為例: http://news.sohu.com/20180324/n533151619.shtml
通過新建字段,點擊內容,獲取到內容的XPath://*[@id="contentText"]
這里內容是采集成功的。
接下來我們來測試一條不同的網址:http://www.sohu.com/a/200938137_114731
在地址欄輸入以上網址,點擊箭頭進入訪問。
發現這里無法采集到內容,說明網頁樣式不一樣。 這里我們需要補充下抓取的XPath。
點擊字段的菜單,選擇添加新元素
,然后點擊網頁中的正文部分。
然后,就可以正常采集剛才的問題頁面了。