国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術文章
文章詳情頁

Python如何利用Selenium或者PhantomJS爬取動態網頁內容

瀏覽:102日期:2022-06-30 17:58:04

問題描述

想用python做股票量化交易,第一步就是獲取股票的歷史數據。訪問http://data.eastmoney.com/sto...網頁,將網頁源碼打開后看不見表格中的數據,據說是利用ajax技術加載的。在網上看見可以利用selenium和phantomJS來獲取這些動態網頁內容,但是不知道如何獲取完整源碼。請高手指點迷津

問題解答

回答1:

事實上,我剛才試了一下,頁面不是用xhr加載的,在頁面的源代碼中已經有了,然后調用了一個類把數據加載為一個table。比如,首頁的數據:

Python如何利用Selenium或者PhantomJS爬取動態網頁內容

然后,提取就直接使用re提取就可以了,得到文本以后json解析就好了。先寫到這里。+++++++++++++++++++++++++++++++++++++++++

然后,就是這個網站不使用xhr加載數據而是使用的js來加載json數據,動態解析來顯示。具體分析需要用到js的知識,如果你了解也可以自己嘗試解析。

我嘗試了一下。

from urllib.parse import quoteimport timeimport requestsurl = 'http://datainterface.eastmoney.com/EM_DataCenter/JS.aspx?type=FD&sty=TSTC&st={sortType}&sr={sortRule}&p={page}&ps={pageSize}&js=var {jsname}=(x){param}'params = { 'sortType': 1, 'sortRule': 1, 'page': 2, 'pageSize': 50, 'jsname': 'Aafdafgq', # 這里使用的是隨機字符串,8位 'param': '&mkt=0&rt='}params['param'] += str(int(time.time()/30)) # 當前時間url = url.format(**params)url = quote(url, safe=':=/?&()')req = requests.get(url)req.text

Python如何利用Selenium或者PhantomJS爬取動態網頁內容

回答2:

用這個組合 好處是簡單暴力,壞處是效率較低。相當于打開一個你看不到的瀏覽器加載頁面,再把運算好的結果讀取。新人學爬蟲的話 推薦 python網絡數據采集 這本動物書。你需要的說明在采集動態頁面那章。這書很薄 很實用。

回答3:

我對js和json都不太了解,剛剛爬蟲入門。經過你的提示,我再查看了一下源碼,發現在defjson里面有這些數據,不明白是怎樣把json里的數據顯示到tbody里面的。我用pandas的read_html可以抓到這些數據,但是最后兩列會丟失。看來我得先去看看js和json

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 国产a级三级三级三级中国 国产a级特黄的片子视频 | 亚洲视频一区二区三区 | 欧美理论大片清免费观看 | 成人性色生活片全黄 | 91精选视频 | 欧美一级看片免费观看视频在线 | 日韩国产欧美视频 | 1024色淫免费视频 | 国产成人lu在线视频 | 草草视频在线观看最新 | 九九99香蕉在线视频免费 | 精品国产综合区久久久久久 | 欧美 另类 精品一区视频 | 日韩一中文字幕 | 九九九在线视频 | 美女视频黄的免费看网站 | 日本免费高清视频二区 | 美美女下面被cao爽 美女131爽爽爽做爰中文视频 | 国产三级毛片视频 | 色一情| 日韩一区二区在线视频 | 2022国内精品免费福利视频 | 91精品国产高清久久久久 | 欧美一区二区三区视视频 | 色青青草原桃花久久综合 | 久草视频资源在线观看 | 欧美真人毛片动作视频 | 久久成人免费 | 免费人成在线观看网站品爱网 | 草草影院永久在线观看 | 欧美日韩 国产区 在线观看 | 国产一区二区高清在线 | 一级看片免费视频 | 99色视频在线 | 欧美日韩一区二区三区免费不卡 | 久久国产三级精品 | 天海翼精品久久中文字幕 | 国产一二三区在线观看 | 韩国福利一区 | 久久香蕉国产线看免费 | 国产一级一片免费播放视频 |