文章詳情頁

網頁爬蟲 - 如何使用使用java抓取信息并制作一個排名系統？

瀏覽：120日期：2023-11-13 14:18:10

問題描述

在學習java web 正好有一個有趣的項目可以做。我們學校需要晨跑刷卡，體育部提供一個查詢網站，但是不提供接口。想做一個網站/微信后臺從學校網上抓取信息儲存到數據庫然后用戶可以通過我的網站/微信來查詢自己的跑操記錄。并且根據這些記錄顯示排名等其他的功能。

查詢只需要提供學號和姓名，這個數據已經有了。

模擬登錄用httpclient 實現。獲取了整個頁面頁面是一個表格顯示記錄。該用什么從頁面里提取數據呢？

關于java web的方向，我只會用jsp 寫一個增刪改查。對于之后的內容不是太懂。

我要做這樣一個后臺管理抓取操作用戶查詢返回。該從什么地方開始學？或者說使用是什么樣的技術/框架呢？

關于查詢的網站：有一個元素是跑操次數。之后的是對應的記錄每條記錄顯示跑操時間具體到分鐘。

抓取不是最困難的部分，問題是怎么做一個這樣一個管理系統對于如何開發一個完整的web全棧沒有思路。我發現我不能評論。。。

謝謝！

問題解答

回答1：

我就隨便說個，因為我也沒想到用什么方法。

用Jsoup去爬頁面數據，哈哈

回答2：

想到了幾點，簡單說下：1.數據抓取，可以自己寫抓取程序，制定數據爬取的時間規則之類的2.數據處理，抓取到網頁的內容通過jsoup或者其他方式對網頁有效內容提取，并設計數據結構，學號應該是唯一的，可以有學員表和晨跑記錄表，通過學號進行關聯3.我的個人理解是按照次數排序，因為想了下，如果按照時間排序是不合理的，因為是沒有辦法判斷真正的晨跑時間的，那我這里就按次數來說吧，可以直接在學員表存放跑步次數的字段，減少通過記錄表查詢，提高效率，就是需要數據處理時維護此字段

回答3：

一般來說呢，是基于httpclient這樣的工具將返回包拿到，解析報文實體（這里指html頁面），接下來就是利用xpath、正則、類似于jQuery方式解析DOM元素獲取你想要的數據（如jsoup包），如果還嫌麻煩可以使用webmagic框架

回答4：

模擬登陸：用瀏覽器打開登陸頁觀察接收學號密碼的url；模擬登陸時post數據到該url；從response的header中解析Set-cookie字段信息；

數據抓取：向體育數據頁發起get請求(帶上上一步中拿到的cookie字段)，拿到response，然后進行正則解析獲得數據即可；

建議：緩存用戶每次查詢的數據，比如緩存2個小時，建議使用redis；數據庫可以存查詢到的數據，先從redis中取數據，取不到再模擬登陸拿新數據。至于數據庫這一層，個人感覺可有可無，有的話也可以進行數據分析什么的

java

上一條：java - dubbo中session同步問題下一條：java - Android中使用FragmentTransaction對象的add方法后應用閃退

相關文章：

1. java - ehcache緩存用的是虛擬機內存么？2. javascript - JS如何取對稱范圍的隨機數？3. 數據庫 - mysql如何處理數據變化中的事務？4. 關于docker下的nginx壓力測試5. javascript - 有什么兼容性比較好的辦法來判斷瀏覽器窗口的類型？6. java - mongodb分片集群下，count和聚合統計問題7. android - java 泛型不支持數組，那么RxJava的Map集合有什么方便的手段可以定義獲得一串共同父類集合數據呢？8. 服務器端 - 采用nginx做web服務器，C++開發應用程序出現拒絕連接請求？9. java - 自己制作一個視頻播放器，遇到問題，用的是內置surfaceview類，具體看代碼！10. dockerfile - 我用docker build的時候出現下邊問題麻煩幫我看一下

排行榜

					
					javascript - JS如何取對稱范圍的隨機數？
java - ehcache緩存用的是虛擬機內存么？
數據庫 - mysql如何處理數據變化中的事務？
java - mongodb分片集群下，count和聚合統計問題
android - java 泛型不支持數組，那么RxJava的Map集合有什么方便的手段可以定義獲得一串共同父類集合數據呢？
關于docker下的nginx壓力測試
javascript - 有什么兼容性比較好的辦法來判斷瀏覽器窗口的類型？
python - pandas按照列A和列B分組，將列C求平均數，怎樣才能生成一個列A,B,C的dataframe
docker安裝后出現Cannot connect to the Docker daemon.
docker-machine添加一個已有的docker主機問題
dockerfile - [docker build image失敗- npm install]
				

熱門標簽

国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

網頁爬蟲 - 如何使用使用java抓取信息并制作一個排名系統？