Pythonでスクレイピングすると403が返ってくる場合の打開策: Selenium

Python

あるWebサービスをPythonでスクレイピングしようとしたら、403が返ってきました。どうやらWebサービス側でスクレイピングをブロックしているようです。

PythonとSeleniumでスクレイピング

他に方法がないか探してみたところ、PythonとSeleniumでできるようでした。これは、Webブラウザを自動で操作するという方法です。実際、この方法で問題なくスクレイピングできました。

さいごに

スクレイピングを禁止しているサイトは、この方法でスクレイピングできます。過去に図書館のサイトのデータをスクレイピングして逮捕された人もいるので、サーバへの負荷には十分注意しましょう。

広告