<前説>
70歳がだんだんと近づく爺の暴走パソコン記です。
Python環境出来た→requetsしたけどテキスト取得できないサイトある→SeleniumとChromeドライバをインストール→とりあえず表示できた。このあたりがこれまでの「成果」というか到達点です。
ひとまず、ページめくり、ページ遷移、「次のページ」などを実現したいと思います。ええ、手作業でなく、Pythonの作業で…(妄想か)。
<PythonでSelenium+ChromeDriver使い「はてブ」ページ遷移>
このブログの最新面を表示するのは、単にURLを呼び出せばよいので、requestsでOK。で、2ページ目というか「次のページ」に自動で移動しようというのが、下のPythonのスクリプトです。
from selenium import webdriver aClick = "次のページ" #はてブの次ページリンクが埋まっている目印 webdriver_path=('C:\xxx\chromedriver.exe') #ご自身の環境に書き換えてください driver = webdriver.Chrome(webdriver_path) driver.get('https://pagetaka.hatenablog.jp/') driver.find_element_by_link_text(aClick).click() #Pythonがクリック→次頁に遷移(移動)
待機時間とか、3ページ目への遷移、などフロー制御などは別途検討ということで、ご容赦のほど。
<HTML、CSS、ID、class>
で、どこに遷移用リンクがあるのかというのは、HTMLなどの理解が不可欠かと。
爺は、WebブラウジングはChromeを普段使っておりますので、[f12]キーを押すと表示される表示されているWebページのソースを見ながら探しております。
HTML、CSSに関係し、よりピンポイントに絞るターゲットとしてid、classの理解は必須かと。
Python+Selenium使おうかという人がHTML理解できないということは、ほぼ考え難い程度のことかと思うのですが、もし、HTMLわからん、という人がこの記事見てたら…少し時間をとってidとclassの違いとか最低限の理解はしといた方が良さそうかと。
Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド-
- 作者:加藤 耕太
- 発売日: 2019/08/03
- メディア: Kindle版