python上市櫃三大法人買賣超日報資料下載 - 程式設計不分區

c_c_lai

博士班 Rank: 6 Rank: 6

帖子: 2035
主題: 24
精華: 0
積分: 2031
點名: 0
作業系統: Win7
軟體版本: Office2010
閱讀權限: 100
性別: 男
註冊時間: 2012-3-22
最後登錄: 2024-2-1

92^#

發表於 2016-9-12 11:50 | 只看該作者

回復 91# zyzzyva
現在談功力還差太遠了(初淺)，還無法駕馭尚請指導，
努力學習中，我幾乎將近有半年多未曾接觸 Python，
應用方面還尚未完全上手，正好碰上你們才使我重拾信心。
(前半個月才動完眼睛手術) 真有麻煩你指教了！

帖子: 109
主題: 1
精華: 0
積分: 116
點名: 0
作業系統: win7
軟體版本: 2007
閱讀權限: 20
註冊時間: 2016-8-4
最後登錄: 2018-10-22

論壇榮譽勳章論壇贊助勳章

93^#

發表於 2016-9-12 12:32 | 只看該作者

回復 92# c_c_lai
說指導不敢當，我也是趁這個機會一邊做一邊學。
其實好不好抓跟網頁的html編排有很大的關係，會提這個數字是因為我自己試了覺得這個數字還有點小麻煩。

您如果是用chrome，可以在想抓取的資料上按右鍵，選「檢查」，應該可以看到類似圖中的畫面(有時候需要點開樹狀結構)。
以這個結構來說，除了上面table的class="tb_pages"，我沒有看到什麼容易用的東西，所以我會選這個table做為起始的參考點。
(通常找到目標的方式都會有非常多種，只要能找得到就好了)，用下面的code就可以找到整個句子：

url = 'http://church.oursweb.net/slocation.php?w=1&c=TW&a=台中市&t='
res = requests.get(url)
res.encoding='utf-8'
soup = BeautifulSoup(res.text, 'lxml')
target = soup.select('.tb_pages td')[0].text
print(target)

複製代碼

但是數字還是藏在裡頭，真是有點煩人。
到這邊我是再用regular expression把它取出來。

import re
total_num = re.search(r'/\s\d{1,3}', target).group().replace('/ ','')
print(total_num)

複製代碼

另一個比較簡單的方式則是用lxml。

帖子: 109
主題: 1
精華: 0
積分: 116
點名: 0
作業系統: win7
軟體版本: 2007
閱讀權限: 20
註冊時間: 2016-8-4
最後登錄: 2018-10-22

論壇榮譽勳章論壇贊助勳章

94^#

發表於 2016-9-12 13:22 | 只看該作者

剛想了一下，以這個頁面來說，其實也不用用到BeautifulSoup，直接用re就可以了。

import requests
import re
url = 'http://church.oursweb.net/slocation.php?w=1&c=TW&a=台中市&t='
res = requests.get(url)
total_num = re.findall(r'/\s\d{1,3}', res.text)[0].replace('/ ','')
print(total_num)

複製代碼

clianghot546

帖子: 23
主題: 3
精華: 0
積分: 50
點名: 0
作業系統: win7
軟體版本: 2010
閱讀權限: 20
註冊時間: 2014-6-24
最後登錄: 2025-6-26

95^#

發表於 2016-9-12 13:39 | 只看該作者

想請問各位都是用python抓取完網路資料後再透過excel整理，還是可以用python一次處理到最後所要的結果。

c_c_lai

博士班 Rank: 6 Rank: 6

帖子: 2035
主題: 24
精華: 0
積分: 2031
點名: 0
作業系統: Win7
軟體版本: Office2010
閱讀權限: 100
性別: 男
註冊時間: 2012-3-22
最後登錄: 2024-2-1

96^#

發表於 2016-9-12 16:02 | 只看該作者

本帖最後由 c_c_lai 於 2016-9-12 16:22 編輯

回復 94# zyzzyva
Python 詮釋的實在太美了，簡潔扼要。
請問 r'/\s\d{1,3} 代表之涵義為何？
BeautifulSoup 一定是搭配 'lxml' 使用？
soup.select('.tb_pages td')[0] 其中的 [0] 指的是？
它能直接應用 regular expression 把它取出來實在是太厲害了。
#94 它怎麼知道要抓的是總頁數？

帖子: 109
主題: 1
精華: 0
積分: 116
點名: 0
作業系統: win7
軟體版本: 2007
閱讀權限: 20
註冊時間: 2016-8-4
最後登錄: 2018-10-22

論壇榮譽勳章論壇贊助勳章

97^#

發表於 2016-9-12 17:11 | 只看該作者

回復 95# clianghot546
要看你是要什麼樣的結果。需要做那些處理。如果要做一些一般的運算我都還是會放到excel裡。
雖然理論上python也有很多套件可以做各種分析，不過一般使用來說，我還是覺得excel的工作表跟儲存格比較親切。

帖子: 109
主題: 1
精華: 0
積分: 116
點名: 0
作業系統: win7
軟體版本: 2007
閱讀權限: 20
註冊時間: 2016-8-4
最後登錄: 2018-10-22

論壇榮譽勳章論壇贊助勳章

98^#

發表於 2016-9-12 17:33 | 只看該作者

回復 96# c_c_lai
r'/\s\d{1,3}'：字串前面加上r是表示raw string，就是通知python不要理會特殊字元，照字串原本的樣子代進去re module。
後面就是re的表示，以「總共 5704 筆資料《《上一頁頁次 1 / 286 下一頁》》」來說，「/」就是在兩個數字(1、286)之間
「/」之後有一個空白(在re裡就是「\s」，後面「\d」表示數字，「{1,3}」表示有1~3個前面的東西(以這裡來說就是「\d」。
BeautifulSoup不一定要用lxml做為parser，網頁如果結構良好，用那種差別其實不大(lxml速度可能好一些)。
可以參考https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id49
soup.select('.tb_pages td')返回的是一個list，list[0]就是list的第一個元素的意思。
regular expression的速度滿好的，應該各語言都有相應的模組，不過我比較少用，一個是不熟，一個是pattern比較廣的時候，怕會比對到意料外的資料。
python不會知道那是總頁數，還是要靠人觀察，python只能知道某個位子(或符合re pattern)的數字是什麼。

c_c_lai

博士班 Rank: 6 Rank: 6

帖子: 2035
主題: 24
精華: 0
積分: 2031
點名: 0
作業系統: Win7
軟體版本: Office2010
閱讀權限: 100
性別: 男
註冊時間: 2012-3-22
最後登錄: 2024-2-1

99^#

發表於 2016-9-12 18:09 | 只看該作者

回復 98# zyzzyva
非常感謝你的詳細說明。
手頭上有一現成的 Excel 範例，我將其日期訂為 105年09月08日，
應用 IE 物件去抓取該日的 "信用交易統計"。我非常希望能藉由此範例
使用 Python 來達成，一方面增長智慧、另一方面得以增進 Python 的學習，
及進一步之了解與應用。先行謝謝你囉！

Sub 信用交易統計()
Dim i As Integer, j As Integer
Dim ie As Object, E As Object, Sh As Worksheet
Set ie = CreateObject("InternetExplorer.Application")
With ie
.Visible = True
.navigate "http://www.twse.com.tw/ch/trading/exchange/MI_MARGN/MI_MARGN.php"
Do While .Busy Or .readyState <> 4: DoEvents: Loop
.document.getElementById("date-field").Value = Format("2016/9/8", "EE/MM/DD") ' 填入
.document.all("selectType").SelectedIndex = 1 ' 1 全部; 7 水泥工業; 8 食品工業
.document.all("query-button").Click
Do While .Busy Or .readyState <> 4: DoEvents: Loop
' Set Sh = ActiveSheet
Set Sh = Sheets("信用交易統計") ' 工作表單名稱
Sh.UsedRange.Clear
' Sh.[A:A].NumberFormatLocal = "G/通用格式" ' 解決 "0050" -> "50" (不理想)
' Sh.[A:A].NumberFormatLocal = "@" ' 解決 "0050" -> "50" (左上角會有三角形)
i = 0
With .document
For Each E In .all.tags("table")(3).Rows
i = i + 1 '
For j = 0 To E.Cells.Length - 1
If j = 0 And Left(E.Cells(j).innerText, 1) = "0" Then ' 改以 .Formula 的方式處理
Sh.Cells(i, j + 1).Formula = "=""" & E.Cells(j).innerText & """"
Else
Sh.Cells(i, j + 1) = E.Cells(j).innerText
End If
Next
Next
i = i + 1 ' 間隔出一空白行，易於上下區隔辨識
For Each E In .all.tags("table")(4).Rows
i = i + 1 '
For j = 0 To E.Cells.Length - 1
If j = 0 And Left(E.Cells(j).innerText, 1) = "0" Then
Sh.Cells(i, j + 1).Formula = "=""" & E.Cells(j).innerText & """"
Else
Sh.Cells(i, j + 1) = E.Cells(j).innerText
End If
Next
Next
End With
.Quit
With Sh
.[A:A].HorizontalAlignment = xlLeft ' A 欄值全數靠左
.Select
End With
End With
End Sub

複製代碼

信用交易統計.rar (51.88 KB)

帖子: 109
主題: 1
精華: 0
積分: 116
點名: 0
作業系統: win7
軟體版本: 2007
閱讀權限: 20
註冊時間: 2016-8-4
最後登錄: 2018-10-22

論壇榮譽勳章論壇贊助勳章

100^#

發表於 2016-9-12 19:03 | 只看該作者

回復 99# c_c_lai
這個有提供csv下載阿，用我們這個討論串開頭的方式直接抓csv應該是最快的。

import requests
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36"}
url = 'http://www.twse.com.tw/ch/trading/exchange/MI_MARGN/MI_MARGN.php'
payload={'download':'csv',
'qdate':'105/09/07',
'selectType':'ALL'}
res = requests.post(url, headers=headers, data=payload, stream=True)
with open('test.csv', 'wb',) as f:
for chunk in res.iter_content(1024):
f.write(chunk)

複製代碼