国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

python - 請(qǐng)教這個(gè)頁(yè)面中的這兩個(gè)信息能否不用無(wú)頭瀏覽器爬取到?

瀏覽:85日期:2022-09-22 16:46:47

問(wèn)題描述

在爬取'http://www.haodf.com/doctor/DE4r08xQdKSLBVM8i9sHYQ8uQGIO.htm'這個(gè)頁(yè)面的時(shí)候, 發(fā)現(xiàn)'擅長(zhǎng)'和'執(zhí)業(yè)經(jīng)歷'這兩個(gè)信息通過(guò)beautifulsoup是取不到的, 我選取這兩個(gè)信息的代碼如下:

soup.select(’#full_DoctorSpecialize’).get_text(strip=True)soup.select(’#full’).get_text(strip=True)

查詢(xún)頁(yè)面發(fā)現(xiàn)這兩個(gè)信息好像是通過(guò)JS查詢(xún)的結(jié)果, 除了把網(wǎng)頁(yè)全部正則表達(dá)式匹配的方法, 請(qǐng)教各位: 1, 這兩個(gè)信息能否直接取到? 2, 除了類(lèi)似'Selenium'這樣的工具, 是否還有其他方式能夠取到這兩個(gè)信息?3, 能否通過(guò)分析查詢(xún)接口的方式解決?

謝謝

問(wèn)題解答

回答1:

可能這個(gè)頁(yè)面,你要抓的這個(gè)數(shù)據(jù),是頁(yè)面加載后,使用js渲染出來(lái)的。也就是說(shuō),這個(gè)#full_DoctorSpecialize里面的數(shù)據(jù)是ajax,從服務(wù)器上拿回來(lái)的。具體要如何拿這樣的數(shù)據(jù),你可以百度下 phantomjs ,你一定會(huì) 有收獲 的。

回答2:

這2個(gè)信息可以直接獲取,只是信息包含在JS塊中BigPipe.onPageletArrive({這個(gè)里面}) , 可以通過(guò)正則表達(dá)式獲取。這個(gè)里面是一段JSON格式的字符串。匹配之后轉(zhuǎn)換為json還是很容易處理的。想要通過(guò)查詢(xún)接口獲取的話(huà),應(yīng)該是可以的,不過(guò)得分析JS代碼,這個(gè)太麻煩,可以通過(guò)抓包工具來(lái)抓它的http請(qǐng)求。然后看看是那個(gè)請(qǐng)求返回的數(shù)據(jù)。相比較而言還是寫(xiě)正則匹配比較快。

回答3:

這個(gè)就像樓上說(shuō)的是js渲染的,內(nèi)容在js代碼里面,可以正則匹配js代碼里面的元素,得到你想要的信息

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 久久一本色系列综合色 | 久久精品亚洲乱码伦伦中文 | freex性日韩| 欧美精品成人一区二区视频一 | 日本免费www| 国产精品一区二区三区四区五区 | 亚洲三级大片 | 欧美 日韩 国产 在线 | 日韩一区二区不卡中文字幕 | 欧美一级级a在线观看 | 欧美在线成人午夜网站 | 国产日韩欧美精品一区二区三区 | 日韩在线国产 | 全免费a级毛片免费看 | 成年黄色网址 | 中文字幕一区二区精品区 | 国产精品免费看久久久 | 日韩在线国产精品 | 欧美人成a视频www | 亚洲欧美日韩专区 | 欧美一级xxxx俄罗斯一级 | 天空在线观看免费完整 | japanese色系国产在线高清 | 久久久亚洲精品国产 | 日本二级毛片免费 | 国产精品免费久久久免费 | 一区二区在线播放福利视频 | 国产精品三级国语在线看 | 日韩欧美亚洲中字幕在线播放 | 日韩精品一区二区三区高清 | 亚洲码在线观看 | 国产精品亚洲欧美一级久久精品 | 久在草视频 | a爱视频| 欧美成人鲁丝片在线观看 | 国产成人在线观看免费网站 | 波多野结衣一级片 | 中文国产成人精品久久无广告 | 成人性动漫高清免费观看网址 | 成人国产精品久久久免费 | 18videosex性欧美69超高清 |