python上市櫃三大法人買賣超日報資料下載 - 程式設計不分區

zyzzyva

中學生 Rank: 2

帖子: 109
主題: 1
精華: 0
積分: 116
點名: 0
作業系統: win7
軟體版本: 2007
閱讀權限: 20
註冊時間: 2016-8-4
最後登錄: 2018-10-22

論壇榮譽勳章論壇贊助勳章

71^# 跳轉到 »

發表於 2016-9-11 17:36 | 只看該作者

回復 70# c_c_lai

tmpList沒有定義。
要記得在function外面加上：
myDict = {}
myList = []
tmpList = []
然後那個print(myUrl)可以註解掉。

TOP

c_c_lai

博士班 Rank: 6 Rank: 6

帖子: 2035
主題: 24
精華: 0
積分: 2031
點名: 0
作業系統: Win7
軟體版本: Office2010
閱讀權限: 100
性別: 男
註冊時間: 2012-3-22
最後登錄: 2024-2-1

72^#

發表於 2016-9-11 17:42 | 只看該作者

回復 71# zyzzyva

TOP

c_c_lai

博士班 Rank: 6 Rank: 6

帖子: 2035
主題: 24
精華: 0
積分: 2031
點名: 0
作業系統: Win7
軟體版本: Office2010
閱讀權限: 100
性別: 男
註冊時間: 2012-3-22
最後登錄: 2024-2-1

73^#

發表於 2016-9-11 17:52 | 只看該作者

回復 71# zyzzyva

TOP

zyzzyva

中學生 Rank: 2

帖子: 109
主題: 1
精華: 0
積分: 116
點名: 0
作業系統: win7
軟體版本: 2007
閱讀權限: 20
註冊時間: 2016-8-4
最後登錄: 2018-10-22

論壇榮譽勳章論壇贊助勳章

74^#

發表於 2016-9-11 17:59 | 只看該作者

回復 73# c_c_lai
跟get_detail放的位子也有關係(call function的時候python就會去找，如果還沒定義就會有問題)。
改了一個bug(之前會址沒處理到)，加上輸出的部份。
目前的code我整理了一下，您用這個再測試看看。

import requests
from bs4 import BeautifulSoup
import csv
def get_detail(url, s):
print(url)
res = s.get(url)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text, 'lxml')
detail = soup.find_all('td', 'church_detail')
for ddd in detail[0].stripped_strings:
if '回報資料錯誤 >' in ddd:
continue
else:
tmpList.append(ddd)
for i, s in enumerate(tmpList):
if s == "":
continue
elif any(x in s for x in ['電郵', '網址', '宗派', '母會']):
myDict[s.replace('：', '')] = tmpList[i+1]
elif '會址' in s:
myDict[s.split('：')[0]] = (s.split('：')[1] + tmpList[i+1])
else:
try:
myDict[s.split('：')[0]] = s.split('：')[1]
except:
pass
myList.append(myDict)
myDict = {}
myList = []
tmpList = []
s = requests.session()
for i in range(1, 2):
url = 'http://church.oursweb.net/slocation.php?w=1&c=TW&a=&t=&p=' + str(i)
res = s.get(url)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text, 'lxml')
for d in soup.select('a[href^="church.php?pkey"]'):
myUrl = 'http://church.oursweb.net/' + d.get('href')
get_detail(myUrl,s)
myDict = {}
i += 1
with open('gospel2.csv', 'a', new='', encoding='utf-8') as f:
fieldnames = ['建檔 ID', '中文名稱', '英文名稱', '分類', '宗派', '母會', '網址', '國別區域', '設立時間', '負責人', '電話', '傳真', '電郵', '會址', '通訊處']
w = csv.DictWriter(f, fieldnames)
w.writeheader()
w.writerows(myList)

複製代碼

TOP

c_c_lai

博士班 Rank: 6 Rank: 6

帖子: 2035
主題: 24
精華: 0
積分: 2031
點名: 0
作業系統: Win7
軟體版本: Office2010
閱讀權限: 100
性別: 男
註冊時間: 2012-3-22
最後登錄: 2024-2-1

75^#

發表於 2016-9-11 18:08 | 只看該作者

回復 74# zyzzyva

TOP

zyzzyva

中學生 Rank: 2

帖子: 109
主題: 1
精華: 0
積分: 116
點名: 0
作業系統: win7
軟體版本: 2007
閱讀權限: 20
註冊時間: 2016-8-4
最後登錄: 2018-10-22

論壇榮譽勳章論壇贊助勳章

76^#

發表於 2016-9-11 18:24 | 只看該作者

回復 75# c_c_lai
跟早上一樣的問題，不知道是bug還是有特殊原因，論壇不能輸入「線」的英文。

這邊改一下應該就可以了。

TOP

c_c_lai

博士班 Rank: 6 Rank: 6

帖子: 2035
主題: 24
精華: 0
積分: 2031
點名: 0
作業系統: Win7
軟體版本: Office2010
閱讀權限: 100
性別: 男
註冊時間: 2012-3-22
最後登錄: 2024-2-1

77^#

發表於 2016-9-11 18:40 | 只看該作者

本帖最後由 c_c_lai 於 2016-9-11 18:42 編輯

回復 76# zyzzyva

謝謝你用心的指導！

TOP

zyzzyva

中學生 Rank: 2

帖子: 109
主題: 1
精華: 0
積分: 116
點名: 0
作業系統: win7
軟體版本: 2007
閱讀權限: 20
註冊時間: 2016-8-4
最後登錄: 2018-10-22

論壇榮譽勳章論壇贊助勳章

78^#

發表於 2016-9-11 18:44 | 只看該作者

本帖最後由 zyzzyva 於 2016-9-11 18:45 編輯

回復 77# c_c_lai
這樣應該是有work了，用excel開看看，如果是亂碼要用筆記本開起來存檔一下再重開。

TOP

c_c_lai

博士班 Rank: 6 Rank: 6

帖子: 2035
主題: 24
精華: 0
積分: 2031
點名: 0
作業系統: Win7
軟體版本: Office2010
閱讀權限: 100
性別: 男
註冊時間: 2012-3-22
最後登錄: 2024-2-1

79^#

發表於 2016-9-11 18:55 | 只看該作者

回復 78# zyzzyva
筆記本內亦是一堆亂碼，有沒有辦法存檔時轉成 Big5 碼之類
如 Unicode 等，否則每次都需另找 NotePad++ 等工具轉碼
實在太麻煩了。

TOP

zyzzyva

中學生 Rank: 2

帖子: 109
主題: 1
精華: 0
積分: 116
點名: 0
作業系統: win7
軟體版本: 2007
閱讀權限: 20
註冊時間: 2016-8-4
最後登錄: 2018-10-22

論壇榮譽勳章論壇贊助勳章

80^#

發表於 2016-9-11 19:08 | 只看該作者

回復 79# c_c_lai
怪怪，我的可以說，您的在ipython裡可以顯示可是用筆記本開反而不行？
編碼的問題我也一直很頭痛，會用utf-8是因為資料裡有一些不是big5，像「平瀬義樹牧師」的「瀬」。
在最後with open那邊的encoding改成encoding='utf-8-sig'試試看。

TOP

[原創] python上市櫃三大法人買賣超日報資料下載

[收藏此主題] [關注此主題的新回復]

[通過 QQ、MSN 分享給朋友]