關於網頁資料抓取問題 - Excel程式區

VBALearner

中學生 Rank: 2

帖子: 102
主題: 14
精華: 0
積分: 142
點名: 0
作業系統: Win10
軟體版本: Office2016
閱讀權限: 20
性別: 男
註冊時間: 2016-7-31
最後登錄: 2020-3-21

論壇贊助勳章

19^# 跳轉到 »

發表於 2017-2-10 14:17 | 只看該作者

回復 18# sujane0701

Python有關Excel的操作有很多方式，xlrd模組是其中一種

真心感謝每一位願意分享所學、指導新手的人!

TOP

sujane0701

　暱稱: Ted

中學生 Rank: 2

帖子: 70
主題: 12
精華: 0
積分: 163
點名: 0
作業系統: windows
軟體版本: office 2010
閱讀權限: 20
性別: 男
來自: 基隆市
註冊時間: 2010-5-3
最後登錄: 2024-6-7

18^#

發表於 2017-2-10 13:01 | 只看該作者

主提單號碼 = ['160-69306532','608-10318674']
請問,如果想要指向某一個EXCEL檔案第一個工作表A2儲存格,隨著A2變化而取得不同的主號資料,可以這麼做嗎?應該如何更改呢?

TOP

VBALearner

中學生 Rank: 2

帖子: 102
主題: 14
精華: 0
積分: 142
點名: 0
作業系統: Win10
軟體版本: Office2016
閱讀權限: 20
性別: 男
註冊時間: 2016-7-31
最後登錄: 2020-3-21

論壇贊助勳章

17^#

發表於 2017-2-10 12:13 | 只看該作者

回復 16# c_c_lai

我發現昨天PO圖時打錯了網址的順序了，我把你的打成我的...正確是"大寫i"才對......= ="
附原始碼，希望可以一勞永逸解決這問題 ...

import requests
import time
from bs4 import BeautifulSoup
主提單號碼 = ['160-69306532','608-10318674']
with requests.session() as r:
res = r.get('https://accs.tradevan.com.tw/accsw-bin/APACCS/userLoginAction.do?userid=GUEST&password=GUEST')
for code in 主提單號碼:
print('主提單號碼 :',code,'\n')
payload = {'mawb_no':code,'查詢':'查詢'}
res = r.post("https://accs.tradevan.com.tw/accsw-bin/APACCS/cImMergeQueryAction.do", data=payload)
res.encoding = "big-5"
html = BeautifulSoup(res.text,"html.parser")
for tr in html.body.select('table')[4].select('tr')[1:]: #請詳閱w3school裡有關HTML的Table標籤知識，就能知道這裡在做啥
data = [] #建立陣列
for td in tr.select('td'):
data.append(td.text.strip())
if td == tr.select('td')[len(tr.select('td'))-1]: #這裡有下一個POST所需的資訊(payload)，透過觀察網頁原始碼得知
print('第二次POST的資料 :',td,'\n')
print('摘要資訊 :',data,'\n') #第一次查詢得到的摘要資料

複製代碼

真心感謝每一位願意分享所學、指導新手的人!

TOP

c_c_lai

博士班 Rank: 6 Rank: 6

帖子: 2035
主題: 24
精華: 0
積分: 2031
點名: 0
作業系統: Win7
軟體版本: Office2010
閱讀權限: 100
性別: 男
註冊時間: 2012-3-22
最後登錄: 2024-2-1

16^#

發表於 2017-2-10 04:58 | 只看該作者

回復 15# VBALearner
加了 #，排除 Select，接下來是索引範圍了！

TOP

VBALearner

中學生 Rank: 2

帖子: 102
主題: 14
精華: 0
積分: 142
點名: 0
作業系統: Win10
軟體版本: Office2016
閱讀權限: 20
性別: 男
註冊時間: 2016-7-31
最後登錄: 2020-3-21

論壇贊助勳章

15^#

發表於 2017-2-9 23:04 | 只看該作者

回復 14# c_c_lai

c大，不好意思，這是我的錯xD
我沒有PO程式碼造成您的手動輸入錯誤...真是抱歉哈哈哈
魔鬼藏在網址的細節裡哈哈哈

Hint : I跟L還真像阿呵呵

真心感謝每一位願意分享所學、指導新手的人!

TOP

c_c_lai

博士班 Rank: 6 Rank: 6

帖子: 2035
主題: 24
精華: 0
積分: 2031
點名: 0
作業系統: Win7
軟體版本: Office2010
閱讀權限: 100
性別: 男
註冊時間: 2012-3-22
最後登錄: 2024-2-1

14^#

發表於 2017-2-9 19:52 | 只看該作者

本帖最後由 c_c_lai 於 2017-2-9 19:59 編輯

回復 11# VBALearner
請教為何會無 select 屬性？

我輸入內容是否有誤？

import requests
import time
from bs4 import BeautifulSoup
主提單號碼=['160-69306532','608-10318674']
with requests.session() as r:
res = r.get('https://accs.tradevan.com.tw/accsw-bin/APACCS/userLoginAction.do?userid=GUEST&password=GUEST')
for code in 主提單號碼:
print('主提單號碼：',code, '\n')
payload = {'mawb_no':code,'查詢':'查詢'}
res = r.post("https://accs.tradevan.com.tw/accsw-bin/APACCS/clmMergeQueryAction.do", data=payload)
res.encoding = "big-5"
html = BeautifulSoup(res.text,"html.parser")
for tr in html.body.select('table')[4].select('tr')[1:]: #請詳閱w3school裡有關HTML的Table標籤知識，就能知道這裡在做啥
data = [] #建立陣列
for td in tr.select('td'):
data.append(td.text.strip())
if td == tr.select('td')[len(tr.select('td'))-1]: #這裡有下一個POST所需的資訊 (payload)，透過觀察網頁原始碼得知
print('第二次POST的資料：',td,'\n')
print('摘要資訊：',data, '\n') #第一次查詢得到的摘要資料

複製代碼

TOP

VBALearner

中學生 Rank: 2

帖子: 102
主題: 14
精華: 0
積分: 142
點名: 0
作業系統: Win10
軟體版本: Office2016
閱讀權限: 20
性別: 男
註冊時間: 2016-7-31
最後登錄: 2020-3-21

論壇贊助勳章

13^#

發表於 2017-2-9 15:40 | 只看該作者

回復 12# VBALearner

發現少框兩個參數...
其實可以不用POST方法，用原始碼給的已附加參數的網址GET也可以

真心感謝每一位願意分享所學、指導新手的人!

TOP

VBALearner

中學生 Rank: 2

帖子: 102
主題: 14
精華: 0
積分: 142
點名: 0
作業系統: Win10
軟體版本: Office2016
閱讀權限: 20
性別: 男
註冊時間: 2016-7-31
最後登錄: 2020-3-21

論壇贊助勳章

12^#

發表於 2017-2-9 11:42 | 只看該作者

回復 10# sujane0701

第二次POST所需參數如圖，用Chrome的開發人員工具觀察即可得知POST的所需資訊

真心感謝每一位願意分享所學、指導新手的人!

TOP

VBALearner

中學生 Rank: 2

帖子: 102
主題: 14
精華: 0
積分: 142
點名: 0
作業系統: Win10
軟體版本: Office2016
閱讀權限: 20
性別: 男
註冊時間: 2016-7-31
最後登錄: 2020-3-21

論壇贊助勳章

11^#

發表於 2017-2-9 11:35 | 只看該作者

回復 10# sujane0701

爬蟲的知識要靠自己一點一滴慢慢去天天摸，天天累積，最重要的是，遇到問題要能在"GOOGLE搜尋"找答案，前人所累積的知識都存在於網路這個大資料庫裡，小弟我也是站在巨人的肩膀上學習。等您大概看懂HTML的主要標籤(常用的就好，不要鉅細靡遺的背)，並能夠理解如何用Python、Chrome的開發人員工具實現POST動作後，您就可以改我的程式碼去做第二次POST動作，獲取您最終要的資料了，再配合xls套件把資料存檔即可。以下附圖提示第二次POST的參數所在位置，有關Python不懂的語法GOOGLE一下即可得知，有問題歡迎再提出，加油!!!

真心感謝每一位願意分享所學、指導新手的人!

TOP

sujane0701

　暱稱: Ted

中學生 Rank: 2

帖子: 70
主題: 12
精華: 0
積分: 163
點名: 0
作業系統: windows
軟體版本: office 2010
閱讀權限: 20
性別: 男
來自: 基隆市
註冊時間: 2010-5-3
最後登錄: 2024-6-7

10^#

發表於 2017-2-8 23:22 | 只看該作者

感謝VBALearner及 koshi0413 兩位耐心,看過視頻後突然發現眼界大開,很希望學會抓取網路資料的技術,昨天特地去買了一本網頁設計入門,期望在工作之餘打一點基礎,再次謝謝2位大大指明學習方向,非常感謝~

TOP

[發問] 關於網頁資料抓取問題

[收藏此主題] [關注此主題的新回復]

[通過 QQ、MSN 分享給朋友]