返回列表 上一主題 發帖

[原創] python上市櫃三大法人買賣超日報資料下載

回復 150# koshi0413
請問:

TOP

回復 151# c_c_lai

這是隨機排列,並不是每項排列,所以可能是沒輪到吧?
就算真的沒有也無所謂,去多收集幾個就好了~~

TOP

回復 152# koshi0413
原本是快將之前學習的 Python 忘記了,多虧這篇文章讓我重拾對它的興趣,
有了一個醒目實用的主題,讓大家來一同探討,真的有助於吸引大家的學習心。
希望大大們能無私地將其心得分享,有了實際得以應用的實用範例,真實地
觸發求知慾的得以滿足,這亦是我個人的理想。
謝謝囉!

TOP

本帖最後由 koshi0413 於 2016-9-20 14:21 編輯

下面是找到的文章,用 python的可以看一下:
小弟附上的代碼是為了應付這類的,其它的就參考了,看看總沒壞處

http     +      s://zhuanlan.zhihu.com/p/20520370

0x02 通过Headers反爬虫
从用户请求的Headers反爬虫是最常见的反爬虫策略。很多网站都会对Headers的User-Agent进行检测,
还有一部分网站会对Referer进行检测(一些资源网站的防盗链就是检测Referer)。
如果遇到了这类反爬虫机制,可以直接在爬虫中添加Headers,将浏览器的User-Agent复制到爬虫的Headers中;
或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫,在爬虫中修改或者添加Headers就能很好的绕过。

目前想針對這種的下手:
0x03 基于用户行为反爬虫
还有一部分网站是通过检测用户行为,例如同一IP短时间内多次访问同一页面,或者同一账户短时间内多次进行相同操作。

現在卡在這種@@
0x04 动态页面的反爬虫

TOP

回復 154# koshi0413
不錯的文章,謝謝分享。
大量爬取的時候加進一些sleep很好,避免短時間大量request造成網站過大的負擔。
selenium+phantomJS的組合可以隱形瀏覽器,不過如果不介意,用firefox或chrome也可以。

TOP

本帖最後由 koshi0413 於 2016-9-21 10:09 編輯
回復  koshi0413
不錯的文章,謝謝分享。
大量爬取的時候加進一些sleep很好,避免短時間大量request造成 ...
zyzzyva 發表於 2016-9-21 09:34


動態ajax網頁  目前是用 selenium+chrome解決
只是單純想用 requests,BeautifulSoup 交互響應 的方式來解
目前解不掉@@
相關知識還不夠,少一個headers參數 都是變化式亂碼,還在思考中

ps:有查了一下,好像要用 cookie 然後在抓取 另外二參數的亂數碼(目前抓到一個,另還一還找不到規律)
不過小弟自己也不確定啦
requests.session() 好多次還是沒反應,哈哈

TOP

回復 155# zyzzyva
請教大大
為何最近我的 Anaconda 3.5 不斷會出現
"The kernel has died, and the automatic restart has failed"
謝謝!

TOP

回復 157# c_c_lai
您是執行什麼特定指令的時候會當掉還是一開就當掉?
有更新或安裝新的環境或套件嗎?有沒有其他的錯誤訊息?

TOP

回復 158# zyzzyva
進入 Anaconda Navigator 後,選案 Jupyter Notebook
只要進入新案或舊案,右上角隨即出現此訊息,最後它會
顯示 "No Kernel"。
我上網查結果一大卡車的相同提問。
我現在一一的往前安裝逐一舊版本再試試,
已確定 Anaconda3-4.1.1-Windows (含) 以上均不行。

TOP

回復 159# c_c_lai
在cmd底下執行jupyter kernelspec list有回應嗎?

TOP

        靜思自在 : 【時間無法遮擋】怕時間消逝,花了許多心血,想盡各式方法要遮擋時間,結果是:浪費了更多時間,且一無所成!
返回列表 上一主題