返回列表 上一主題 發帖

[原創] python上市櫃三大法人買賣超日報資料下載

回復 90# c_c_lai
太好了!如果這樣也不行就頭痛了。
原文中有提到希望可以用縣市為單位來抓。因為網站本身就有提供縣市別分類的連結,如:
http://church.oursweb.net/slocation.php?w=1&c=TW&a=台中市&t=
其實只要把連結換一下,總頁數改一下用現有的 code就可以把該區域的資料抓下來了。
但如果要讓使用者選擇呢?假設我們已經依使用者選擇進入該分區的頁面,但是要如何決定總頁數呢?
以台中市來說。 Screenshot_1.png ,能把圖裡藍圈中的31抓出來嗎?

TOP

回復 91# zyzzyva
現在談功力還差太遠了(初淺),還無法駕馭尚請指導,
努力學習中,我幾乎將近有半年多未曾接觸 Python,
應用方面還尚未完全上手,正好碰上你們才使我重拾信心。
(前半個月才動完眼睛手術) 真有麻煩你指教了!

TOP

回復 92# c_c_lai
說指導不敢當,我也是趁這個機會一邊做一邊學。
其實好不好抓跟網頁的html編排有很大的關係,會提這個數字是因為我自己試了覺得這個數字還有點小麻煩。

您如果是用chrome,可以在想抓取的資料上按右鍵,選「檢查」,應該可以看到類似圖中的畫面(有時候需要點開樹狀結構)。
以這個結構來說,除了上面table的class="tb_pages",我沒有看到什麼容易用的東西,所以我會選這個table做為起始的參考點。
(通常找到目標的方式都會有非常多種,只要能找得到就好了),用下面的code就可以找到整個句子:
  1. url = 'http://church.oursweb.net/slocation.php?w=1&c=TW&a=台中市&t='

  2. res = requests.get(url)

  3. res.encoding='utf-8'

  4. soup = BeautifulSoup(res.text, 'lxml')

  5. target = soup.select('.tb_pages td')[0].text

  6. print(target)
複製代碼
但是數字還是藏在裡頭,真是有點煩人。
到這邊我是再用regular expression把它取出來。
  1. import re
  2. total_num = re.search(r'/\s\d{1,3}', target).group().replace('/ ','')
  3. print(total_num)
複製代碼
另一個比較簡單的方式則是用lxml。

TOP

剛想了一下,以這個頁面來說,其實也不用用到BeautifulSoup,直接用re就可以了。
  1. import requests
  2. import re

  3. url = 'http://church.oursweb.net/slocation.php?w=1&c=TW&a=台中市&t='

  4. res = requests.get(url)

  5. total_num = re.findall(r'/\s\d{1,3}', res.text)[0].replace('/ ','')

  6. print(total_num)
複製代碼

TOP

想請問各位都是用python抓取完網路資料後再透過excel整理,還是可以用python一次處理到最後所要的結果。

TOP

本帖最後由 c_c_lai 於 2016-9-12 16:22 編輯

回復 94# zyzzyva
Python 詮釋的實在太美了,簡潔扼要。
請問 r'/\s\d{1,3} 代表之涵義為何?
BeautifulSoup 一定是搭配 'lxml' 使用?
soup.select('.tb_pages td')[0] 其中的 [0]  指的是?
它能直接應用 regular expression 把它取出來實在是太厲害了。
#94 它怎麼知道要抓的是總頁數?

TOP

回復 95# clianghot546
要看你是要什麼樣的結果。需要做那些處理。如果要做一些一般的運算我都還是會放到excel裡。
雖然理論上python也有很多套件可以做各種分析,不過一般使用來說,我還是覺得excel的工作表跟儲存格比較親切。

TOP

回復 96# c_c_lai
r'/\s\d{1,3}':字串前面加上r是表示raw string,就是通知python不要理會特殊字元,照字串原本的樣子代進去re module。
後面就是re的表示,以「總共 5704 筆資料 《《上一頁 頁次 1 / 286 下一頁》》」來說, 「/」就是在兩個數字(1、286)之間
「/」之後有一個空白(在re裡就是「\s」,後面「\d」表示數字,「{1,3}」表示有1~3個前面的東西(以這裡來說就是「\d」。
BeautifulSoup不一定要用lxml做為parser,網頁如果結構良好,用那種差別其實不大(lxml速度可能好一些)。
可以參考https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id49
soup.select('.tb_pages td')返回的是一個list,list[0]就是list的第一個元素的意思。
regular expression的速度滿好的,應該各語言都有相應的模組,不過我比較少用,一個是不熟,一個是pattern比較廣的時候,怕會比對到意料外的資料。
python不會知道那是總頁數,還是要靠人觀察,python只能知道某個位子(或符合re pattern)的數字是什麼。

TOP

回復 98# zyzzyva
非常感謝你的詳細說明。
手頭上有一現成的 Excel 範例,我將其日期訂為 105年09月08日,
應用 IE 物件去抓取該日的 "信用交易統計"。我非常希望能藉由此範例
使用 Python 來達成,一方面增長智慧、另一方面得以增進 Python 的學習,
及進一步之了解與應用。先行謝謝你囉!
  1. Sub 信用交易統計()
  2.     Dim i As Integer, j As Integer
  3.     Dim ie As Object, E As Object, Sh As Worksheet
  4.         
  5.     Set ie = CreateObject("InternetExplorer.Application")
  6.    
  7.     With ie
  8.         .Visible = True
  9.         .navigate "http://www.twse.com.tw/ch/trading/exchange/MI_MARGN/MI_MARGN.php"
  10.         
  11.         Do While .Busy Or .readyState <> 4: DoEvents: Loop
  12.         
  13.         .document.getElementById("date-field").Value = Format("2016/9/8", "EE/MM/DD")    '  填入
  14.                  
  15.         .document.all("selectType").SelectedIndex = 1      '   1 全部; 7 水泥工業; 8 食品工業
  16.         .document.all("query-button").Click
  17.         
  18.         Do While .Busy Or .readyState <> 4: DoEvents: Loop
  19.         
  20.         '  Set Sh = ActiveSheet
  21.         Set Sh = Sheets("信用交易統計")                     '  工作表單名稱
  22.         Sh.UsedRange.Clear
  23.         '  Sh.[A:A].NumberFormatLocal = "G/通用格式"        '  解決 "0050"  ->  "50" (不理想)
  24.         '  Sh.[A:A].NumberFormatLocal = "@"                 '  解決 "0050"  ->  "50" (左上角會有三角形)
  25.         
  26.         i = 0
  27.         With .document
  28.             For Each E In .all.tags("table")(3).Rows
  29.                 i = i + 1 '
  30.                 For j = 0 To E.Cells.Length - 1
  31.                     If j = 0 And Left(E.Cells(j).innerText, 1) = "0" Then    '  改以 .Formula 的方式處理
  32.                         Sh.Cells(i, j + 1).Formula = "=""" & E.Cells(j).innerText & """"
  33.                     Else
  34.                         Sh.Cells(i, j + 1) = E.Cells(j).innerText
  35.                     End If
  36.                 Next
  37.             Next
  38.             
  39.             i = i + 1         '  間隔出一空白行,易於上下區隔辨識
  40.             For Each E In .all.tags("table")(4).Rows
  41.                 i = i + 1 '
  42.                 For j = 0 To E.Cells.Length - 1
  43.                     If j = 0 And Left(E.Cells(j).innerText, 1) = "0" Then
  44.                         Sh.Cells(i, j + 1).Formula = "=""" & E.Cells(j).innerText & """"
  45.                     Else
  46.                         Sh.Cells(i, j + 1) = E.Cells(j).innerText
  47.                     End If
  48.                 Next
  49.             Next
  50.         End With
  51.         
  52.         .Quit
  53.         With Sh
  54.             .[A:A].HorizontalAlignment = xlLeft           '  A 欄值全數靠左
  55.             .Select
  56.         End With
  57.     End With
  58. End Sub
複製代碼
信用交易統計.rar (51.88 KB)

TOP

回復 99# c_c_lai
這個有提供csv下載阿,用我們這個討論串開頭的方式直接抓csv應該是最快的。
  1. import requests

  2. headers = {"User-Agent":"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36"}
  3.            
  4. url = 'http://www.twse.com.tw/ch/trading/exchange/MI_MARGN/MI_MARGN.php'

  5. payload={'download':'csv',
  6.         'qdate':'105/09/07',
  7.         'selectType':'ALL'}

  8. res = requests.post(url, headers=headers, data=payload, stream=True)

  9. with open('test.csv', 'wb',) as f:
  10.     for chunk in res.iter_content(1024):
  11.         f.write(chunk)
複製代碼

TOP

        靜思自在 : 有多少力量就做多少事,不要心存等待,等待才會落空。
返回列表 上一主題