返回列表 上一主題 發帖

[發問] 關於網頁資料抓取問題

回復 18# sujane0701

Python有關Excel的操作有很多方式,xlrd模組是其中一種
真心感謝每一位願意分享所學、指導新手的人!

TOP

主提單號碼 = ['160-69306532','608-10318674']
請問,如果想要指向某一個EXCEL檔案第一個工作表A2儲存格,隨著A2變化而取得不同的主號資料,可以這麼做嗎?應該如何更改呢?

TOP

回復 16# c_c_lai

我發現昨天PO圖時打錯了網址的順序了,我把你的打成我的...正確是"大寫i"才對......= ="
附原始碼,希望可以一勞永逸解決這問題 ...
  1. import requests
  2. import time
  3. from bs4 import BeautifulSoup

  4. 主提單號碼 = ['160-69306532','608-10318674']

  5. with requests.session() as r:
  6.     res = r.get('https://accs.tradevan.com.tw/accsw-bin/APACCS/userLoginAction.do?userid=GUEST&password=GUEST')
  7.     for code in 主提單號碼:
  8.         print('主提單號碼 :',code,'\n')
  9.         payload = {'mawb_no':code,'查詢':'查詢'}
  10.         res = r.post("https://accs.tradevan.com.tw/accsw-bin/APACCS/cImMergeQueryAction.do", data=payload)
  11.         res.encoding = "big-5"
  12.         html = BeautifulSoup(res.text,"html.parser")
  13.         for tr in html.body.select('table')[4].select('tr')[1:]: #請詳閱w3school裡有關HTML的Table標籤知識,就能知道這裡在做啥
  14.             data = [] #建立陣列
  15.             for td in tr.select('td'):
  16.                 data.append(td.text.strip())
  17.                 if td == tr.select('td')[len(tr.select('td'))-1]: #這裡有下一個POST所需的資訊(payload),透過觀察網頁原始碼得知
  18.                     print('第二次POST的資料 :',td,'\n')
  19.             print('摘要資訊 :',data,'\n') #第一次查詢得到的摘要資料
複製代碼
真心感謝每一位願意分享所學、指導新手的人!

TOP

回復 15# VBALearner
加了 #,排除 Select,接下來是索引範圍了!

TOP

回復 14# c_c_lai

c大,不好意思,這是我的錯xD
我沒有PO程式碼造成您的手動輸入錯誤...真是抱歉哈哈哈
魔鬼藏在網址的細節裡哈哈哈

Hint : I跟L還真像阿呵呵
真心感謝每一位願意分享所學、指導新手的人!

TOP

本帖最後由 c_c_lai 於 2017-2-9 19:59 編輯

回復 11# VBALearner
請教為何會無 select 屬性?

我輸入內容是否有誤?
  1. import requests
  2. import time
  3. from bs4 import BeautifulSoup
  4. 主提單號碼=['160-69306532','608-10318674']

  5. with requests.session() as r:
  6.     res = r.get('https://accs.tradevan.com.tw/accsw-bin/APACCS/userLoginAction.do?userid=GUEST&password=GUEST')
  7.     for code in 主提單號碼:
  8.         print('主提單號碼:',code, '\n')
  9.         payload = {'mawb_no':code,'查詢':'查詢'}
  10.         res = r.post("https://accs.tradevan.com.tw/accsw-bin/APACCS/clmMergeQueryAction.do", data=payload)
  11.         res.encoding = "big-5"
  12.         html = BeautifulSoup(res.text,"html.parser")
  13.         for tr in html.body.select('table')[4].select('tr')[1:]:  #請詳閱w3school裡有關HTML的Table標籤知識,就能知道這裡在做啥
  14.             data = []  #建立陣列
  15.             for td in tr.select('td'):
  16.                 data.append(td.text.strip())
  17.                 if td == tr.select('td')[len(tr.select('td'))-1]: #這裡有下一個POST所需的資訊 (payload),透過觀察網頁原始碼得知
  18.                     print('第二次POST的資料:',td,'\n')
  19.             print('摘要資訊:',data, '\n')   #第一次查詢得到的摘要資料
複製代碼

TOP

回復 12# VBALearner

發現少框兩個參數...
其實可以不用POST方法,用原始碼給的已附加參數的網址GET也可以
真心感謝每一位願意分享所學、指導新手的人!

TOP

回復 10# sujane0701

第二次POST所需參數如圖,用Chrome的開發人員工具觀察即可得知POST的所需資訊
真心感謝每一位願意分享所學、指導新手的人!

TOP

回復 10# sujane0701

爬蟲的知識要靠自己一點一滴慢慢去天天摸,天天累積,最重要的是,遇到問題要能在"GOOGLE搜尋"找答案,前人所累積的知識都存在於網路這個大資料庫裡,小弟我也是站在巨人的肩膀上學習。等您大概看懂HTML的主要標籤(常用的就好,不要鉅細靡遺的背),並能夠理解如何用Python、Chrome的開發人員工具實現POST動作後,您就可以改我的程式碼去做第二次POST動作,獲取您最終要的資料了,再配合xls套件把資料存檔即可。以下附圖提示第二次POST的參數所在位置,有關Python不懂的語法GOOGLE一下即可得知,有問題歡迎再提出,加油!!!
真心感謝每一位願意分享所學、指導新手的人!

TOP

感謝VBALearner及 koshi0413 兩位耐心,看過視頻後突然發現眼界大開,很希望學會抓取網路資料的技術,昨天特地去買了一本網頁設計入門,期望在工作之餘打一點基礎,再次謝謝2位大大指明學習方向,非常感謝~

TOP

        靜思自在 : 自己害自己,莫過於亂發脾氣。
返回列表 上一主題