国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

Python爬蟲如何爬取span和span中間的內容并分別存入字典里?

瀏覽:127日期:2022-07-15 16:32:54

問題描述

我想把房屋概況分別抓出來并分別作為獨立的列存儲進字典里,但是行內元素沒有辦法直接用for循環摳出來。這是我的代碼:

soup.select(’.house-info li’)[1].text.strip()

這是網頁html代碼:

<li><span class='info-tit'>房屋概況:</span>住宅<span class='splitline'>|</span>1室1廳1衛<span class='splitline'>|</span><span>46m2</span><span class='splitline'>|</span> (高層)/共18層<span class='splitline'>|</span>南北<span class='splitline'>|</span> 豪華裝修 </li>

問題解答

回答1:

其實還是很有簡單的,你看這個還是有規律的,規律在于有分隔符|,我寫了個DEMO

something = ’’’<li><span class='info-tit'>房屋概況:</span>住宅 <span class='splitline'>|</span>1室1廳1衛<span class='splitline'>|</span><span>46m2</span><span class='splitline'>|</span> (高層)/共18層<span class='splitline'>|</span>南北<span class='splitline'>|</span> 豪華裝修 </li>’’’;soup = BeautifulSoup(something, ’lxml’)plaintext = soup.select(’li’)[0].get_text().strip()

通過get_text()得到內在所有內容,然后去除空格。后面你就用split進行分割吧,后面的不寫了。如果有問題再交流。

回答2:我感覺這個html代碼寫錯了呢,標簽的內容文本在標簽外面

Python爬蟲如何爬取span和span中間的內容并分別存入字典里?

正確的標簽內容就兩個:

房屋概況:

46m2

回答3:

innerText

回答4:

你這種情況,我覺得用 for 循環加上正則表達式是最方便的,如果所有模版都是這樣固定的話

回答5:

用pyquery吧

from pyquery import PyQuery as Q

Q(text).find(’.house-info li’).text()

標簽: Python 編程
相關文章:
主站蜘蛛池模板: a级毛片免费在线观看 | 亚洲网站一区 | 波多野结衣在线不卡 | 欧美精品在线一区 | 国产精品亚洲专一区二区三区 | 一区二区三区在线观看免费 | 午夜精品久久久久久91 | 国产精品久久久久久久久久久搜索 | 国产一区二区三区成人久久片 | 视频一区中文字幕 | 美女张开腿双腿让男人桶 | 国产三级在线 | www.亚洲天堂.com | 久热色 | 手机看片精品高清国产日韩 | 狠狠色丁香九九婷婷综合五月 | 久久国产精品永久免费网站 | 欧美成人69 | 成人黄网18免费观看的网站 | 亚洲欧美日韩中文字幕在线一区 | 久久精品a一国产成人免费网站 | 久99频这里只精品23热 视频 | 久9久9精品视频在线观看 | 精品国产品国语在线不卡丶 | 免费成年网| 国产精品女上位在线观看 | 免费一级成人免费观看 | 9l国产精品久久久久麻豆 | 免费人成在线观看网站视频 | 欧美操人 | 免费一级a毛片在线播 | 在线精品视频在线观看高清 | 亚洲欧美在线观看播放 | 国产三级做爰在线观看∵ | 亚洲成在人线久久综合 | 欧美成人激情 | 色综合久久88色综合天天提莫 | 亚洲乱码国产一区网址 | 成人做爰视频www在线观看 | 久久伊人成人网 | 久久亚洲综合 |