返回列表 上一主題 發帖

[發問] 關於網頁資料抓取問題

[發問] 關於網頁資料抓取問題

小弟因職務關係,每日須查詢大量網頁資料(60~100筆,且不斷重覆查詢),並KEY IN成報表,實在太過繁瑣,以前可以利用WEB查詢抓取所須資料,但是現在網頁已無法順利抓取,聽說必須利用到VBA才能完成,因小弟完全不懂VBA,只好厚顏懇請大大幫忙... 主提單查詢.rar (80.12 KB)

回復 1# sujane0701

可用Python的Requests與BeautifulSoup模組達成目的,以下影片是範例,可理解後應用
https://www.youtube.com/watch?v=Ef0kh6NPiBE&t=9s
真心感謝每一位願意分享所學、指導新手的人!

TOP

謝謝大大指導,小弟趕快去研究

TOP

本帖最後由 VBALearner 於 2017-2-7 14:52 編輯

回復 3# sujane0701

您是個肯學習的人,再幫你一些! 附圖是我用Python3寫的程式所抓出來的資料,這個動作只有查詢主提單的主要資料。更詳細的資料(像是貨品名稱、日期等)要再做第二次訪問動作,就等於是你在主提單查詢頁面上輸入主提單號碼查了第一次,等結果出來後再點擊主提單連結進行第二次訪問搜尋您要的全部資料。
程式須注意的細節 :
1.Requests.Session(),是為了保留登入認證用的Cookie,可以上網Google學習
2.該程式需要兩個非內建的公開模組,安裝完Python3後再自行安裝Requests、BeautifulSoup4模組,安裝方法(ex: Pip install)可上網Google學習
第二次的POST就先留給您試試看,完成的話就可以撰寫成迴圈,以達到重複多次查詢並存取資料的目的! (PS : Time模組目前暫時不須使用,但重複查詢的動作可能會被視為惡意程式,所以未來可能會需要用來減低程式密集的訪問頻率)
真心感謝每一位願意分享所學、指導新手的人!

TOP

本帖最後由 sujane0701 於 2017-2-7 19:02 編輯

謝謝大大,小弟基礎全無,看了四篇網路爬蟲的視頻,產生了許多不明白的地方,雖然已經隱約明白大大指點學習這個的原因,但是有許多名詞及原理有聽沒有懂,後面已經不敢再看下去了,正在到處打聽有沒有相關的基礎書籍,大大是否可以介紹一些入門書籍?
另外請教一點最不明白的地方,請問您現在提供的範例,是excel vba嗎?可以直接在excel類似巨集一樣製作控制鈕之類的是嗎? 我知道問題十分淺薄可笑,可是小弟實在不懂,請大大不吝撥空指導~

TOP

懂了懂了!看完第五,六篇介紹,知道Python3可以將訪問結果轉成excel,形成一個類似資料庫來源的檔案,方便製作報表,前面問的笨蛋問題,請大大不要理我.....

TOP

回復 6# sujane0701

Python跟VBA是兩種不同的語言,VBA比較像是EXCEL專屬的物件語言,所以VBA在處理非EXCEL內建功能的問題上就有許多不足,但也因為功能都focus在EXCEL上,也比其他語言好學許多,認真學的話,一個月不到就可以學完9成的語法+應用。我一開始也是從VBA學起,想當初還耍任性求版大幫我升級xD,後來發現Python在抓網路資料更快、更方便的時候,我就移情別戀了,有關VBA去POST網頁的程式我比較不熟,這可能要問VBA高手們比較合適 : GBKEE、c_c_lai、准提布林...
真心感謝每一位願意分享所學、指導新手的人!

TOP

回復 6# sujane0701

對了,要"爬蟲"要學會看懂網頁原始碼(HTML)喔
真心感謝每一位願意分享所學、指導新手的人!

TOP

回復 1# sujane0701

建議泥把VBA大大給的影片,大數據學堂相關的前十個影片全看完
基本的就會了,小弟爬虫的知識全是靠這網站的影片指導的
其它的請用GOOGLE泥自己要的功能,就會有範例了,不過大多為簡體字
先給泥這簡易說明的網址看看
http://www.runoob.com/python/python-100-examples.html

PS:因為泥是要抓進XLS,有直接可以存成XLS的套件  OR  另存成 TXT CSV 皆可

python這套對於網抓來說,簡單是簡單,但還是要花費一些時間去了解的,所以多試試吧
先試出能提取一筆存在xls之後,在用迴圈來逐一用主提單號碼提取資料就方便許多了
如果真的資料量太大的話,到時在去研究 sqlite3套件來配合xls即可,只不過又要多學習 sql 語法

TOP

感謝VBALearner及 koshi0413 兩位耐心,看過視頻後突然發現眼界大開,很希望學會抓取網路資料的技術,昨天特地去買了一本網頁設計入門,期望在工作之餘打一點基礎,再次謝謝2位大大指明學習方向,非常感謝~

TOP

        靜思自在 : 謊言像一朵盛開的鮮花,外表美麗,生命短暫。
返回列表 上一主題