Board logo

標題: 請問如何抓取javascript的*.csv檔案? [打印本頁]

作者: torrent    時間: 2013-12-27 11:01     標題: 請問如何抓取javascript的*.csv檔案?

想請教一下,我要用批次抓取網頁中的*csv檔,然後把裡面的資料放入excel的表格中,但網頁中的檔案連結是用javascript藏起來,案例如下:

http://prtr.epa.gov.tw/resultEMS.aspx?emsno=A36A0770&tab=Panel5

我打算存放的excel檔已經有管制編號列表,然後就根據這個列表去抓取需要的資料,不過在抓*csv這個地方就卡住了。

謝謝

[attach]17130[/attach]
作者: stillfish00    時間: 2013-12-27 20:23

回復 1# torrent
系統忙碌中,請稍後再次查詢。

系統壞了嗎,手動都不能下載。。。
作者: torrent    時間: 2013-12-28 01:51

好像是耶,我前幾天試還正常。
作者: GBKEE    時間: 2014-1-1 13:38

回復 3# torrent

[attach]17176[/attach]

試試看
  1. Option Explicit
  2. Sub Ex()
  3.     Dim Sh As Worksheet, Rng As Range
  4.     Application.ScreenUpdating = False
  5.     Application.DisplayAlerts = False
  6.     Set Rng = Sheets("Sheet1").Range("A2")
  7.     On Error Resume Next
  8.     Set Sh = Sheets.Add
  9.     With Sh.QueryTables.Add("URL;http://prtr.epa.gov.tw/resultEMS.aspx?emsno=" & Rng & "&tab=Panel5", Sh.[A1])
  10.         .WebSelectionType = xlSpecifiedTables
  11.         .WebFormatting = xlWebFormattingNone
  12.         .WebTables = """GridView5"""
  13.         .WebPreFormattedTextToColumns = True
  14.         .WebConsecutiveDelimitersAsOne = True
  15.         .WebSingleBlockTextImport = False
  16.         .WebDisableDateRecognition = False
  17.         .WebDisableRedirections = False
  18.         .Refresh BackgroundQuery:=False
  19.     End With
  20.     Do While Rng <> ""
  21.         With Sh.QueryTables(1)
  22.             Rng.Offset(, 1).Range("A1:I1").Value = IIf(Err.Number = 0, Sh.QueryTables(1).ResultRange.Rows(2).Value, "")
  23.             Err.Clear
  24.             Set Rng = Rng.Offset(1)
  25.             .Connection = "URL;http://prtr.epa.gov.tw/resultEMS.aspx?emsno=" & Rng & "&tab=Panel5"
  26.             .Refresh BackgroundQuery:=False
  27.         End With
  28.     Loop
  29.     Sh.Delete
  30.     Application.DisplayAlerts = True
  31.     Application.ScreenUpdating = True
  32. End Sub
複製代碼

作者: torrent    時間: 2014-1-2 12:24

太感謝了!

我發現有些表格是多於一筆資料的,所以一個管制編號的資料有可能會有一筆、兩筆甚至10筆,例如這裡:

http://prtr.epa.gov.tw/resultEMS.aspx?emsno=E4901607&tab=Panel5

我爬了一下文並google,本來想用ResultRange.Rows.Count這個指令來算table的列數後,先以Range().EntireRow.insert插入所需要的列數,然後再以ResultRange.Rows(i)加入數據,但怎麼試都是空白,不知道大大有沒有好的辦法?

謝謝
作者: GBKEE    時間: 2014-1-2 14:08

本帖最後由 GBKEE 於 2014-1-5 06:52 編輯

回復 5# torrent
試試看
  1. Option Explicit
  2. Sub Ex()
  3.     Dim Sh As Worksheet, Rng As Range, Q As Variant
  4.     Application.ScreenUpdating = False
  5.     Set Rng = Sheets("Sheet1").Range("A2")  '管制編號
  6.     On Error GoTo ER
  7.     With Sheets("管制內容")
  8.         Set Sh = Sheets(.Name)
  9.         .UsedRange = ""
  10.     End With
  11.     On Error Resume Next
  12.     With Sh.QueryTables.Add("URL;http://prtr.epa.gov.tw/resultEMS.aspx?emsno=" & Rng & "&tab=Panel5", Sh.[AA1])
  13.         .WebSelectionType = xlSpecifiedTables
  14.         .WebFormatting = xlWebFormattingNone
  15.         .WebTables = """GridView5"""
  16.         .WebPreFormattedTextToColumns = True
  17.         .WebConsecutiveDelimitersAsOne = True
  18.         .WebSingleBlockTextImport = False
  19.         .WebDisableDateRecognition = False
  20.         .WebDisableRedirections = False
  21.         .Refresh BackgroundQuery:=False
  22.     End With
  23.     Set Q = Sh.QueryTables(1)
  24.     Do While Rng <> ""
  25.         If Err = 0 And Application.Count(Q.ResultRange) > 0 Then
  26.             With Sh.Cells(Sh.Rows.Count, 2).End(xlUp)
  27.                 .Offset(1, -1) = Rng
  28.                 If .Row = 1 Then
  29.                     .Offset(, -1) = "管制編號"
  30.                     Q.ResultRange.Copy .Cells
  31.                 Else
  32.                     Q.ResultRange.Rows("2:" & Q.ResultRange.Rows.Count).Copy .Offset(1)
  33.                 End If
  34.             End With
  35.         End If
  36.         Err.Clear
  37.         Set Rng = Rng.Offset(1)
  38.         Q.Connection = "URL;http://prtr.epa.gov.tw/resultEMS.aspx?emsno=" & Rng & "&tab=Panel5"
  39.         Q.Refresh BackgroundQuery:=False
  40.     Loop
  41.     Q.ResultRange = ""
  42.     With Sh
  43.         .Columns.AutoFit
  44.         For Each Q In .Names
  45.            Q.Delete
  46.         Next
  47.         For Each Q In .QueryTables
  48.            Q.Delete
  49.         Next
  50.     End With   
  51.    Application.ScreenUpdating = True
  52.    Exit Sub
  53. ER:
  54.     If Err.Number = 9 Then
  55.         Sheets.Add.Name = "管制內容"
  56.         Resume
  57.     End If
  58. End Sub
複製代碼

作者: torrent    時間: 2014-1-4 22:47

太感激了,我這幾天修正了一些裡面的程式碼,讓它也可以抓別的資源。非常感謝!

順便問一下,這裡不抓csv而是抓網頁的table,是因為csv中文進來是亂碼而又無解的原因嗎?
作者: GBKEE    時間: 2014-1-5 06:54

回復 7# torrent
這網頁csv不是無法下載嗎!,
作者: torrent    時間: 2014-1-5 13:28

不好意思,我是因為後來要到環保署另一個opendata網站抓csv的時候發現抓進工作表都會變成亂碼,所以才聯想到。

http://opendata.epa.gov.tw/Data/Contents/EMS/

這個網站和之前那個第一樓的網站應該是通的,但這裡csv就直接提供所有單位的管制編號,但一次提供1000筆,所以總共7萬多筆要下載71次csv檔案。

雖然我只是要最重要的管制編號,但其它都亂碼還是覺得很怪,以下是我的code,我還是初學者,用最簡單的do/loop來處理迴圈,跑到一半就卡住了,不知道出了什麼事情,多謝!
  1. Sub csv()

  2.     Dim i As Integer, k As Integer, emsUrl As String
  3.    
  4.     Set i = 0
  5.    
  6.     Set k = 1000
  7.    
  8.     emsUrl = "http://opendata.epa.gov.tw/ws/Data/EMS/?$orderby=RegistrationNo&$skip=" & i & "&$top=" & k & "&format=csv"
  9.    
  10.     With ActiveSheet.QueryTables.Add(Connection:="URL;" & emsUrl, Destination:=Range("A2"))
  11.    
  12.         .BackgroundQuery = True
  13.         .RefreshStyle = xlOverwriteCells
  14.         .RefreshPeriod = 0
  15.         .AdjustColumnWidth = False
  16.         .WebSelectionType = xlSpecifiedTables
  17.         .WebFormatting = xlWebFormattingNone
  18.          
  19.     End With
  20.    
  21. End Sub
複製代碼

作者: torrent    時間: 2014-1-5 13:36

抱歉,剛剛貼錯code了,但已經不能編輯:
  1. Sub csv()

  2.     Dim i As Integer, k As Integer, emsUrl As String, Rng As Range
  3.    
  4.     i = 1
  5.    
  6.     k = 1000

  7.     Do Until k = 71000

  8.     Set Rng = Sheets("Sheet1").Range("A" & i & "")

  9.     emsUrl = "http://opendata.epa.gov.tw/ws/Data/EMS/?$orderby=RegistrationNo&$skip=" & i & "&$top=" & k & "&format=csv"
  10.    
  11.     With ActiveSheet.QueryTables.Add(Connection:="URL;" & emsUrl, Destination:=Rng)
  12.    
  13.         .BackgroundQuery = True
  14.         .RefreshStyle = xlOverwriteCells
  15.         .RefreshPeriod = 0
  16.         .AdjustColumnWidth = False
  17.         .WebSelectionType = xlSpecifiedTables
  18.         .WebFormatting = xlWebFormattingNone
  19.          
  20.     End With
  21.    
  22.     i = i + 1000

  23.     k = k + 1000

  24.     Loop

  25. End Sub
複製代碼

作者: GBKEE    時間: 2014-1-5 17:02

回復 10# torrent
試試看
  1. Option Explicit
  2. Sub Ex()  '全部資料超過 65536筆 2003版不適用
  3.     Dim Sh As Worksheet, wb As Workbook, i As Long
  4.     Set Sh = ActiveWorkbook.Sheets(1)
  5.     Sh.UsedRange = ""
  6.     i = 0
  7.     Do
  8.         Workbooks.OpenText Filename:="http://opendata.epa.gov.tw/ws/Data/EMS/?$orderby=RegistrationNo&$skip=" & i & "&$top=1000&format=csv" _
  9.             , Origin:=-535, StartRow:=1, DataType:=xlDelimited, TextQualifier:= _
  10.             xlDoubleQuote, ConsecutiveDelimiter:=False, Tab:=True, Semicolon:=False, _
  11.             Comma:=True, Space:=False, Other:=False, FieldInfo:=Array(Array(1, 1), _
  12.             Array(2, 1), Array(3, 1), Array(4, 1), Array(5, 1), Array(6, 1), Array(7, 1), Array(8, 1), _
  13.             Array(9, 1), Array(10, 1), Array(11, 1)), TrailingMinusNumbers:=True
  14.         With ActiveWorkbook.Sheets(1).UsedRange
  15.             If .Cells(1) = "" Then Exit Do
  16.             If i = 0 Then
  17.                 .Copy Sh.[a1]
  18.             Else
  19.                 .Offset(1).Copy Sh.[a1].End(xlDown).Offset(1)
  20.             End If
  21.             ActiveWorkbook.Close False
  22.         End With
  23.     i = i + 1000
  24.    Loop
  25.     ActiveWorkbook.Close False
  26. End Sub
複製代碼

作者: torrent    時間: 2014-1-6 05:18

回復 11# GBKEE

受教了,原來要用Workbooks。

另外,我在GBKEE大大幫我修正的第二個code中做了一些修正,目的是把A欄的管制編號填滿,我在第31列加了這一行:

.Resize(Q.ResultRange.Rows.Count, 1).Offset(2, -1).Value = Rng

看起來除了最後一個管制編號會多兩行尾巴之外,好像沒有其它的問題,不知道各位有沒有更好的意見或看出這樣搞會有bug?

謝謝

[attach]17199[/attach]
  1. Sub punish()
  2.     Dim Sh As Worksheet, Rng As Range, Q As Variant
  3.     Application.ScreenUpdating = False
  4.     Set Rng = Sheets("Sheet1").Range("A2")  '管制編號
  5.     On Error GoTo ER
  6.     With Sheets("管制內容")
  7.         Set Sh = Sheets(.Name)
  8.         .UsedRange = ""
  9.     End With
  10.     On Error Resume Next
  11.     With Sh.QueryTables.Add("URL;http://prtr.epa.gov.tw/resultEMS.aspx?emsno=" & Rng & "&tab=Panel5", Sh.[AA1])
  12.         .WebSelectionType = xlSpecifiedTables
  13.         .WebFormatting = xlWebFormattingNone
  14.         .WebTables = """GridView5"""
  15.         .WebPreFormattedTextToColumns = True
  16.         .WebConsecutiveDelimitersAsOne = True
  17.         .WebSingleBlockTextImport = False
  18.         .WebDisableDateRecognition = False
  19.         .WebDisableRedirections = False
  20.         .Refresh BackgroundQuery:=False
  21.     End With
  22.     Set Q = Sh.QueryTables(1)
  23.     Do While Rng <> ""
  24.         If Err = 0 And Application.Count(Q.ResultRange) > 0 Then
  25.             With Sh.Cells(Sh.Rows.Count, 2).End(xlUp)
  26.                 .Offset(1, -1) = Rng
  27.                 If .Row = 1 Then
  28.                     .Offset(, -1) = "管制編號"
  29.                     Q.ResultRange.Copy .Cells
  30.                 Else
  31.                     .Resize(Q.ResultRange.Rows.Count, 1).Offset(2, -1).Value = Rng
  32.                     Q.ResultRange.Rows("2:" & Q.ResultRange.Rows.Count).Copy .Offset(1)
  33.                     
  34.                 End If
  35.             End With
  36.         End If
  37.         Err.Clear
  38.         Set Rng = Rng.Offset(1)
  39.         Q.Connection = "URL;http://prtr.epa.gov.tw/resultEMS.aspx?emsno=" & Rng & "&tab=Panel5"
  40.         Q.Refresh BackgroundQuery:=False
  41.     Loop
  42.     Q.ResultRange = ""
  43.     With Sh
  44.         .Columns.AutoFit
  45.         For Each Q In .Names
  46.            Q.Delete
  47.         Next
  48.         For Each Q In .QueryTables
  49.            Q.Delete
  50.         Next
  51.     End With
  52.    Application.ScreenUpdating = True
  53.    Exit Sub
  54. ER:
  55.     If Err.Number = 9 Then
  56.         Sheets.Add.Name = "管制內容"
  57.         Resume
  58.     End If
  59. End Sub
複製代碼

作者: GBKEE    時間: 2014-1-6 07:56

回復 12# torrent
  1.            '.Resize(Q.ResultRange.Rows.Count, 1).Offset(2, -1).Value = Rng
  2.                     .Resize(Q.ResultRange.Rows.Count - 1, 1).Offset(1, -1).Value = Rng
  3.                     'Q.ResultRange.Rows.Count - 1 ->不包含表頭的列數
複製代碼

作者: torrent    時間: 2014-1-6 10:13

回復 13# GBKEE

多謝,這樣跑出來的結果沒有問題了。




歡迎光臨 麻辣家族討論版版 (http://forum.twbts.com/)