python上市櫃三大法人買賣超日報資料下載 - 程式設計不分區

c_c_lai

博士班 Rank: 6 Rank: 6

帖子: 2035
主題: 24
精華: 0
積分: 2031
點名: 0
作業系統: Win7
軟體版本: Office2010
閱讀權限: 100
性別: 男
註冊時間: 2012-3-22
最後登錄: 2024-2-1

151^# 跳轉到 »

發表於 2016-9-18 21:02 | 只看該作者

回復 150# koshi0413
請問：

TOP

koshi0413

中學生 Rank: 2

帖子: 55
主題: 1
精華: 0
積分: 81
點名: 0
作業系統: win
軟體版本: 10
閱讀權限: 20
註冊時間: 2016-5-15
最後登錄: 2018-11-1

152^#

發表於 2016-9-18 22:47 | 只看該作者

回復 151# c_c_lai

這是隨機排列，並不是每項排列，所以可能是沒輪到吧？
就算真的沒有也無所謂，去多收集幾個就好了~~

TOP

c_c_lai

博士班 Rank: 6 Rank: 6

帖子: 2035
主題: 24
精華: 0
積分: 2031
點名: 0
作業系統: Win7
軟體版本: Office2010
閱讀權限: 100
性別: 男
註冊時間: 2012-3-22
最後登錄: 2024-2-1

153^#

發表於 2016-9-19 07:26 | 只看該作者

回復 152# koshi0413
原本是快將之前學習的 Python 忘記了，多虧這篇文章讓我重拾對它的興趣，
有了一個醒目實用的主題，讓大家來一同探討，真的有助於吸引大家的學習心。
希望大大們能無私地將其心得分享，有了實際得以應用的實用範例，真實地
觸發求知慾的得以滿足，這亦是我個人的理想。
謝謝囉！

TOP

koshi0413

中學生 Rank: 2

帖子: 55
主題: 1
精華: 0
積分: 81
點名: 0
作業系統: win
軟體版本: 10
閱讀權限: 20
註冊時間: 2016-5-15
最後登錄: 2018-11-1

154^#

發表於 2016-9-20 14:17 | 只看該作者

本帖最後由 koshi0413 於 2016-9-20 14:21 編輯

下面是找到的文章，用 python的可以看一下：
小弟附上的代碼是為了應付這類的，其它的就參考了，看看總沒壞處

http + s://zhuanlan.zhihu.com/p/20520370

0x02 通过Headers反爬虫
从用户请求的Headers反爬虫是最常见的反爬虫策略。很多网站都会对Headers的User-Agent进行检测，
还有一部分网站会对Referer进行检测（一些资源网站的防盗链就是检测Referer）。
如果遇到了这类反爬虫机制，可以直接在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中；
或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫，在爬虫中修改或者添加Headers就能很好的绕过。

目前想針對這種的下手：
0x03 基于用户行为反爬虫
还有一部分网站是通过检测用户行为，例如同一IP短时间内多次访问同一页面，或者同一账户短时间内多次进行相同操作。

現在卡在這種@@
0x04 动态页面的反爬虫

TOP

zyzzyva

中學生 Rank: 2

帖子: 109
主題: 1
精華: 0
積分: 116
點名: 0
作業系統: win7
軟體版本: 2007
閱讀權限: 20
註冊時間: 2016-8-4
最後登錄: 2018-10-22

論壇榮譽勳章論壇贊助勳章

155^#

發表於 2016-9-21 09:34 | 只看該作者

回復 154# koshi0413
不錯的文章，謝謝分享。
大量爬取的時候加進一些sleep很好，避免短時間大量request造成網站過大的負擔。
selenium+phantomJS的組合可以隱形瀏覽器，不過如果不介意，用firefox或chrome也可以。

TOP

koshi0413

中學生 Rank: 2

帖子: 55
主題: 1
精華: 0
積分: 81
點名: 0
作業系統: win
軟體版本: 10
閱讀權限: 20
註冊時間: 2016-5-15
最後登錄: 2018-11-1

156^#

發表於 2016-9-21 10:00 | 只看該作者

本帖最後由 koshi0413 於 2016-9-21 10:09 編輯

回復 koshi0413
不錯的文章，謝謝分享。
大量爬取的時候加進一些sleep很好，避免短時間大量request造成 ...
zyzzyva 發表於 2016-9-21 09:34

動態ajax網頁目前是用 selenium+chrome解決
只是單純想用 requests，BeautifulSoup 交互響應的方式來解
目前解不掉@@
相關知識還不夠，少一個headers參數都是變化式亂碼，還在思考中

ps:有查了一下，好像要用 cookie 然後在抓取另外二參數的亂數碼（目前抓到一個，另還一還找不到規律）
不過小弟自己也不確定啦
requests.session() 好多次還是沒反應，哈哈

TOP

c_c_lai

博士班 Rank: 6 Rank: 6

帖子: 2035
主題: 24
精華: 0
積分: 2031
點名: 0
作業系統: Win7
軟體版本: Office2010
閱讀權限: 100
性別: 男
註冊時間: 2012-3-22
最後登錄: 2024-2-1

157^#

發表於 2016-10-13 07:39 | 只看該作者

回復 155# zyzzyva
請教大大
為何最近我的 Anaconda 3.5 不斷會出現
"The kernel has died, and the automatic restart has failed"
謝謝！

TOP

zyzzyva

中學生 Rank: 2

帖子: 109
主題: 1
精華: 0
積分: 116
點名: 0
作業系統: win7
軟體版本: 2007
閱讀權限: 20
註冊時間: 2016-8-4
最後登錄: 2018-10-22

論壇榮譽勳章論壇贊助勳章

158^#

發表於 2016-10-13 09:41 | 只看該作者

回復 157# c_c_lai
您是執行什麼特定指令的時候會當掉還是一開就當掉？
有更新或安裝新的環境或套件嗎？有沒有其他的錯誤訊息？

TOP

c_c_lai

博士班 Rank: 6 Rank: 6

帖子: 2035
主題: 24
精華: 0
積分: 2031
點名: 0
作業系統: Win7
軟體版本: Office2010
閱讀權限: 100
性別: 男
註冊時間: 2012-3-22
最後登錄: 2024-2-1

159^#

發表於 2016-10-13 09:52 | 只看該作者

回復 158# zyzzyva
進入 Anaconda Navigator 後，選案 Jupyter Notebook
只要進入新案或舊案，右上角隨即出現此訊息，最後它會
顯示 "No Kernel"。
我上網查結果一大卡車的相同提問。
我現在一一的往前安裝逐一舊版本再試試，
已確定 Anaconda3-4.1.1-Windows (含) 以上均不行。

TOP

zyzzyva

中學生 Rank: 2

帖子: 109
主題: 1
精華: 0
積分: 116
點名: 0
作業系統: win7
軟體版本: 2007
閱讀權限: 20
註冊時間: 2016-8-4
最後登錄: 2018-10-22

論壇榮譽勳章論壇贊助勳章

160^#

發表於 2016-10-13 10:10 | 只看該作者

回復 159# c_c_lai
在cmd底下執行jupyter kernelspec list有回應嗎？

TOP

[原創] python上市櫃三大法人買賣超日報資料下載

[收藏此主題] [關注此主題的新回復]

[通過 QQ、MSN 分享給朋友]