關於網頁資料抓取問題 - Excel程式區

帖子: 102
主題: 14
精華: 0
積分: 142
點名: 0
作業系統: Win10
軟體版本: Office2016
閱讀權限: 20
性別: 男
註冊時間: 2016-7-31
最後登錄: 2020-3-21

論壇贊助勳章

21^# 跳轉到 »

發表於 2017-2-10 21:22 | 只看該作者

本帖最後由 VBALearner 於 2017-2-10 21:24 編輯

回復 18# sujane0701
回復 20# c_c_lai

應C大的期待，加入第二次POST，完稿。
想當初C大也回應我許多VBA的低能問題xD，記得當時我PO了一篇分享文"三大法人買賣超資料整理..."，結果就有高手用Python把自動下載Excel的程式碼貼出來，引發幾十頁的熱烈討論。若不是高手無私分享、令我對Python語言大開眼界並產生高度興趣的話，我便不會去學習Py，可能還停留在VBA吧... 因此，完整的程式碼S大、C大請享用，並鼓勵Py高手對我的程式碼提出建言，S大您接下來只需要把資料存成Excel，這一步很簡單，網路找找吧，加油。

import requests
import time
from bs4 import BeautifulSoup
postfreq = 0.8 #避免過度頻繁的訪問被當成惡意程式攻擊(類似小型DDOS)，秒數間隔訪問是爬蟲的基本禮貌
#僅以兩筆主提單號碼示範，欲增加自行更改即可
主提單號碼 = ['160-69306532','608-10318674'] #,'851-26325773','479-32003532','695-08802916','297-64647785']
with requests.session() as r:
res = r.get('https://accs.tradevan.com.tw/accsw-bin/APACCS/userLoginAction.do?userid=GUEST&password=GUEST')
for code in 主提單號碼:
print('主提單號碼 :',code,'\n')
time.sleep(postfreq)
payload = {'mawb_no':code,'查詢':'查詢'}
res = r.post("https://accs.tradevan.com.tw/accsw-bin/APACCS/cImMergeQueryAction.do", data=payload) #第一次訪問
res.encoding = "big-5"
html = BeautifulSoup(res.text,"html.parser")
num = 1
for tr in html.body.select('table')[4].select('tr')[1:]: #把Table裡的tr資料逐列取出
summary = [] #建立摘要資訊的存放陣列
postdata = [] #二次訪問所需參數的存放陣列
for td in tr.select('td'):
summary.append(td.text.strip())
if td == tr.select('td')[len(tr.select('td'))-1]: #這裡有下一個POST所需的資訊(參數)，透過觀察網頁原始碼得知
postdata.append(str(td).split('&')[1].replace('flight_no=','')) #參數1
postdata.append(str(td).split('&')[2].replace('flight_date=','')) #參數2
postdata.append(str(td).split('&')[3].replace('est_arrival_date=','')) #參數3
print(' ','摘要資訊'+str(num),':',summary,'\n') #第一次查詢得到的摘要資料
num+=1
payload = {'mawb_no':code,
'voyage_flight_no':postdata[0],
'est_arrival_date':postdata[2],
'flight_date':postdata[1],
'qry_mawb_no':code,
'qry_sort':'0'
}
time.sleep(postfreq)
res = r.post("https://accs.tradevan.com.tw/accsw-bin/APACCS/cImMergeListAction.do", data=payload) #第二次POST
res.encoding = "big-5"
html = BeautifulSoup(res.text,"html.parser")
print(' ','詳細資料如下 :')
for tr in html.select('table')[4].select('tr'):
data = []
for td in tr.select('td'):
data.append(td.text.replace('\r','').replace('\n','').replace(' ','').strip())
print('\t',data)
print('\n')
#運用其他模組把爬到的資料存成Excel即大功告成，甚至可以進一步運用select語法篩選特定位置的資料

複製代碼

真心感謝每一位願意分享所學、指導新手的人!

TOP

c_c_lai

博士班 Rank: 6 Rank: 6

帖子: 2035
主題: 24
精華: 0
積分: 2031
點名: 0
作業系統: Win7
軟體版本: Office2010
閱讀權限: 100
性別: 男
註冊時間: 2012-3-22
最後登錄: 2024-2-1

22^#

發表於 2017-2-10 21:43 | 只看該作者

回復 21# VBALearner
蠻不錯的詮釋！
謝謝囉！

TOP

sujane0701

　暱稱: Ted

中學生 Rank: 2

帖子: 70
主題: 12
精華: 0
積分: 163
點名: 0
作業系統: windows
軟體版本: office 2010
閱讀權限: 20
性別: 男
來自: 基隆市
註冊時間: 2010-5-3
最後登錄: 2024-6-7

23^#

發表於 2017-2-13 13:24 | 只看該作者

呵,小弟太差勁了,VBALearner大即使公佈答案,小弟暫時還是一知半解,先收下VBALearner大的大禮包好好研究,非常感謝!

TOP

VBALearner

中學生 Rank: 2

帖子: 102
主題: 14
精華: 0
積分: 142
點名: 0
作業系統: Win10
軟體版本: Office2016
閱讀權限: 20
性別: 男
註冊時間: 2016-7-31
最後登錄: 2020-3-21

論壇贊助勳章

24^#

發表於 2017-2-13 21:22 | 只看該作者

本帖最後由 VBALearner 於 2017-2-13 21:25 編輯

回復 23# sujane0701

沒關係，我只希望幫助願意學習而不是只伸手討免費程式的人。
您是個被程式威力激發熱情的人，跟小弟我一樣，小弟我一年前連一句程式碼都不會寫，希望您保持這份熱情持續學習。
您若只要部分資料，可以透過更改以下我PO的三句語法，去一一挑出要存取的資料位置。例如: html.select('table')[4].select('tr')[2].select('td')[1] 可以挑出表格中第三列從左數來第二個資料點，也就是"貨棧"的資料點，然後一一輸入進陣列後，再一併寫入Excel即可完成你的目標，工作順利 !

for tr in html.select('table')[4].select('tr'):
data = []
for td in tr.select('td'):

複製代碼

data = []
data.append(html.select('table')[4].select('tr')[2].select('td')[1])
data.append(html.select('table')[4].select('tr')[?].select('td')[?])
with open("xxx.xlsx",xx) as excel:
#寫入的程式碼

複製代碼

真心感謝每一位願意分享所學、指導新手的人!

TOP

stillfish00

大學生 Rank: 4

帖子: 1018
主題: 15
精華: 0
積分: 1058
點名: 0
作業系統: win7 32bit
軟體版本: Office 2016 64-bit
閱讀權限: 50
性別: 男
來自: 桃園
註冊時間: 2012-5-9
最後登錄: 2022-9-28

25^#

發表於 2017-2-15 20:03 | 只看該作者

回復 23# sujane0701
Python 絕對是值得學習的語言，較熱門，套件也多。
參考 VBALearner 的 code ，改為 VBA 的 code 應該也是能達到你的需求的：

Sub 查詢()
Dim oXmlhttp: Set oXmlhttp = CreateObject("msxml2.xmlhttp")
Dim oHtml: Set oHtml = CreateObject("htmlfile")
Dim sUrl As String, sPost As String, sID As String
Dim ar, r, i, j
With Sheets(1)
ar = .[a1].Resize(.Cells(.Rows.Count, 1).End(xlUp).Row)
End With
For r = 2 To UBound(ar)
sID = ar(r, 1)
With oXmlhttp
sUrl = "https://accs.tradevan.com.tw/accsw-bin/APACCS/userLoginAction.do?userid=GUEST&password=GUEST"
.Open "Get", sUrl, False
.send
oHtml.Body.innerhtml = .responsetext
sUrl = "https://accs.tradevan.com.tw/accsw-bin/APACCS/cImMergeQueryAction.do"
sPost = "mawb_no=" & sID & "&查詢=查詢"
sPost = oHtml.parentWindow.encodeURI(sPost)
.Open "Post", sUrl, False
.setRequestHeader "Content-Type", "application/x-www-form-urlencoded"
.setRequestHeader "Content-Length", Len(sPost)
.send (sPost)
oHtml.Body.innerhtml = .responsetext
With oHtml.GetElementsByTagName("table")(4).Rows(1)
sInfo = .Cells(.Cells.Length - 1).GetElementsByTagName("a")(0).href
End With
sUrl = "https://accs.tradevan.com.tw/accsw-bin/APACCS/cImMergeListAction.do"
sPost = "mawb_no=" & sID & _
"&voyage_flight_no=" & Split(Split(sInfo, "flight_no=")(1), "&")(0) & _
"&flight_date=" & Split(Split(sInfo, "flight_date=")(1), "&")(0) & _
"&est_arrival_date=" & Split(Split(sInfo, "est_arrival_date=")(1), "&")(0) & _
"&qry_mawb_no=" & sID & _
"&qry_sort=0"
sPost = oHtml.parentWindow.encodeURI(sPost)
.Open "Post", sUrl, False
.setRequestHeader "Content-Type", "application/x-www-form-urlencoded"
.setRequestHeader "Content-Length", Len(sPost)
.send (sPost)
oHtml.Body.innerhtml = .responsetext
With oHtml.GetElementsByTagName("table")(4)
For i = 0 To .Rows.Length - 1
With .Rows(i)
For j = 0 To .Cells.Length - 1
Sheets(2).Cells((r - 2) * 12 + i + 1, j + 1).Value = .Cells(j).innertext
Next
End With
Next
End With
End With
Next
End Sub