pagetakaBlog

最近リフォームと鳥取県日南町の記事多め。写真、PC、ネット等の話題も

東証株式相場表:日報コード欄に1文字表示が、CSVの位置関係を…。

以前掲載したPythonスクリプト、修正。

東証株式相場表日報(PDF)をPDFMinerで解析できていると思ってたけど…。

以前の記事で、大体できているのかと思ってましたが、不十分でした。
pagetaka.hatenablog.jp

時々現れるコード欄の一文字を処理していなかったことです。具体的には、下図の赤丸(実線と点線)を考慮していなかったことです。

【コード欄に「D」字がある場合とそうでない場合】
【コード欄に「D」字がある場合とそうでない場合】

気づいたのは出来上がったファイルの容量が大きく異なる日があったから

3月30日と9月29日のファイル容量が他日の半分程度で、おかしいな~と思ったのがきっかけでした。
各銘柄は、普段、銘柄コード、売買単位と続きます。しかし、3月30日の例だと、銘柄コード、「D」、売買単位となっています。

PDFMinerでCSVにしたとき、「D」は一項目となり順次項目ずれが起こっていました。この結果、整合性がないデータということで、CSV収載時に排除され、ファイル容量も少なくなっていた、ということでした。

「D」以外もかなりある

【16種類ある「コード欄」の一文字追記】
【16種類ある「コード欄」の一文字追記】

東証株式相場表日報(PDF)先頭ページ右上には「コード欄」の説明がありました。全部で16種類あるようです。アルファベット大文字と「#」があります。数字はありませんので、スクリプトで追加するなら、第二コラムが数字でないなら削除、というようなものを足す必要があるのかと思っています。

修正:恥ずかしながらのPython script

10/12追記:できあがったCSVをチェックしました。取引無し、上場廃止などで収載できてないほか、必要データ項目数があるのに拾いきれてない銘柄があることもわかりました。以下に掲載していたスクリプトを使用しできるCSVは、東証株式相場表(日報、PDF)と齟齬が起こっている可能性がありましたので、掲載を見合わせました。

# PDFファイルを読込みPDFMinerで解析し、CSV出力する
10/12追記:スクリプト削除の上、以下追記しました。
掲載していたスクリプトを使用しできるCSVは、東証株式相場表(日報、PDF)と齟齬が起こっている可能性がありましたので、掲載を見合わせました。