前説:Pythonで東証株式相場表(日報、PDF)からCSV作ってみたけど…。
PDFMinerをつかったPythonスクリプトで東証株式相場表(日報、PDF)からCSVが何とかできたか、と思ったものの、できあがったファイル容量が日ごとにいくらか異なり懸念がありました。
- 9月5日、最初のPythonスクリプトを記事にしました。ファイル容量が半分とかのCSVがありました。
- 10月10日、修正スクリプトを掲載しました。508~526KBのCSVファイルができました。
- 今朝、スクリプト掲載をいったん取り消しました。ピックアップできてない銘柄があるなど、齟齬が見つかりました。
改めて、東証株式相場表(日報、PDF)を眺めてみました。
「日報」は約400ページあります。一般に目にする株式市場は「日報」のごく一部です。「日報」右上にある整理番号のようなものに沿って、対応するだろう「取引」をまとめると次のようになっていました。なお、使った「日報」は7月27日のものです。
1:立会市場普通取引
2:立会市場当日決済取引
3:立会市場発行日決済取引
…(略)…※途中欠番もありました
15:T o S T N e T 市場当日決済取引
爺がデータを得たいのは、「1:立会市場普通取引」の一部です。「1:立会市場普通取引」は五つに分かれているようです。(1)内国株式、(2)内国株式優先株等、以下略。
「内国株式」のなかは四つに分かれている…かのように見える。
「立会市場普通取引」の「内国株式」は、「プライム」「スタンダード」「グロース」の三つかと思いきや、「日報」では「TOKYO PRO Market銘柄」が四つ目の区分にあるように爺には見えました。7月27日「日報」では155ページ目に登場しています。「TOKYO PRO Market銘柄」からあとは爺的には不要です。
「TOKYO PRO Market銘柄」をPDF内で探し、以後分析対象外とのスクリプトにすれば…時短になる?
現在は「妄想」の段階ですが、「日報」内の「「TOKYO PRO Market銘柄」表示位置を探し、以後CSVにする対象から外せば、たくさんのページの分析を省くことができそうです。
その上で、ピックアップする銘柄とデータの齟齬が無いようPythonスクリプトを書きなおす……と爺は妄想中です。
さて、はて、実現はいつのことか…爺、痴呆進行中…。