ジャンプ公式から連載一覧をpythonで自動取得したい。

python

こんばんは。ヤマモトです。

山本由伸投手が大好きですが、今日は佐々木朗希投手だけを見つめ、最後は村上様に浮気しました ←

プロ野球が熱い。ビールが美味い。
そんな華金を満喫している今日この頃、村上様のHRを見ていてやる気スイッチが入ったので、かねてより取り組みたいと思っていたブログ運用の改善を始めてみようと思う。

先日、以下の記事にて「ブログ記事の定型化」を目標に掲げていたが、今回はそれに関連して毎週発信しているジャンプ感想記事の効率化を目指そうと思う。

先日たてた目標はこちらを参照

現状の運用課題

現在、毎週毎週ジャンプの感想記事を以下のように掲載している。
すんごい適当な一言日記だけど 笑

ジャンプ感想記事の例

んで、何回か変更はありはしたが大体フォーマットが決まってきていて、直近だとこんな感じ。

・リード文
・今週号の各作品の一言感想(印象順)
 - 各作品のタイトル
   一言感想
 - ・・・
・次号への抱負

感想部分や次号への抱負の部分はその時思いついたものを書いていて、まあまあ飽きずに楽しくかけているとは思うのだが、各作品のタイトルを羅列するのがちょっとめんどくさい

印象順、と書いている通り、ジャンプ(電子版)を片手に見ながら「あ~この作品あったな」とか思い出しながら作品タイトルを書いて、感想を書くという順番で普段は記事を書いている。

そんなに大変なように思えないかもしれない。実際、思い出すのに30秒~1分、タイトル書くのに10~20秒(ややこしいタイトルの時は一応公式サイトからコピペ)ぐらいの時間しか要さない作業なわけだが、、、

定型の「作業」は「自動化」すべき。

なので今回はこの課題に対処していきたいと思う。

やりたいこと(ゴール設定)

イメージとしては以下の通り。

  1. 記事を書く前にバッチを走らせる。(手動起動想定だが、ジャンプ発売日に自動起動でも可)
  2. ジャンプ公式サイトから連載一覧のページにアクセス
  3. 連載一覧をごっそり持ってくる。(Webスクレイピング)
  4. 連載一覧をWordPressのフォーマットに修正して画面出力 or ファイル出力。
  5. 出力結果をブログ記事欄に貼り付け。

仰々しく書いてみたけど、要は3のWebスクレイピングが肝っすね。

目論見と意気込み

Webスクレイピングはpythonでやろうかなと。

ただ、会社のPCほど自宅のPCは環境が整っていないので、まずは環境整備から始まりそう。
まあその辺も記事にできたらwinwinでしょう。

公式ページのhtmlをのぞいてみたが、連載一覧は「https://www.shonenjump.com/j/rensai/」でURL固定っぽいし、body内に作品名が書きだされているところを見つけたので、抜き出した後ちょこっと文字列処理すれば抜き出せるっしょ。(楽観視)

連載一覧のhtmlはこんな感じ

時間があるとき前提で、毎日1時間ずつちょびちょび進めれば2週間後くらいには運用に乗るかな??
9月のシルバーウィークぐらいには片付いていると嬉しいな。

そんな目標感で行きましょうか。

ということで、これから動き出すのですが、進捗はちょこちょこ記事にしていこうと思いますので、それなりに期待して待っていてもらえると嬉しいな。

コメント

タイトルとURLをコピーしました