株
株価データをMySQLに放り込んでます。 NULL、''、' 'など 空白にヒットしない不思議。 目に見えないだけで、なにかがあるのではないか…と妄想しました。 MySQLでASCIIコード表示できるか…。 ASCIIコード0は見えないけど、NUL、\0、ナル文字を表す…らしい。 P…
ChatGPTさまに、ベクトル(内積)が株価予測に役立つ根拠を教えていただきました。 Q:ベクトル(内積)が株価予測に役立つ根拠を教えてください。 A:ベクトル(内積)は株価予測に役立つ場合があります。以下にその根拠を示します。 1: 類似度の算出:株…
パソコン環境。 実現すること:株で儲ける準備…。 行程概要。 銘柄コードごとにSQLしてたら、1,050秒かかった。 MySQLから設定範囲N日分データをDataFrameにしてみたら、14秒くらいで完了。 問題は、これでもうけを出せるか、株の売買…。 【98%程度時間を節…
前説:Pythonなどのブログ記事11月中旬から書いてない。 Excel形式に保存するのに時間かかっていた。 CSV保存、pandas利用で早くなった。 pandas の本。 このあとは numpy の利用かな~。 逆時計曲線(逆クロックチャート) 前説:Pythonなどのブログ記事11…
「PDFMiner」で東証株式相場表(日報、PDF)を解析しかけたら…エラー表示、止まった…。 止まったPythonスクリプト 対策:失敗=「PDFMiner」入れなおす 対策:成功=「PDFMiner.six」をインストール 余談:「pdfminer.six」だけだとどうも動かないのか…よく…
11/5追記:PDF解析に使うPDFMinerの使い方、一部修正 前口上:ひとまとめにして「備忘録」のように PDFMinerの使い方にてこずりました。 翌市場日の午前8時半頃に直近日のPDFが公開されるみたいなんですよね 11/5追記:PDF解析に使うPDFMinerの使い方、一部…
11/5追記:PDF解析に使うPDFMinerの使い方、一部修正 PDFMiner使い、東証株式相場表(日報、PDF)からデータ抽出し日別CSVにする 恥ずかしながらのPyhtonスクリプト MySQLへ放り込むまで三つのステップ 11/5追記:PDF解析に使うPDFMinerの使い方、一部修正 P…
MySQLへのデータ形式変えたら1割くらい容量減った 株価データには、数字のほか「-」というのがあって… 「LOAD DATA INFILE 」つかい約59万行のCSVデータを約6秒でMySQLへ放り込めた。 MySQLへのデータ形式変えたら1割くらい容量減った (1)東証株式…
東証株式相場表(日報、PDF)を解析するPythonスクリプトでエラー二つ ひとつめ:「.start()」は、メンバーではないとのご託宣 ふたつめ:「boxes_flow=None」はリファレンスにはあるけど…警告エラーが PDFMiner使ったPythonスクリプトは、ふたつの警告エラ…
XAMPPをインストールし起動など MySQLをつかう場面 MySQL:データベース上にテーブルを作る XAMPP上でphpMyAdmin起動 phpMyAdmin使って、データベース「stock」作り、テーブル「market_data」設定 10/28追記:「まとめ」UP XAMPPをインストールし起動など 東…
Python:DLのみ、MySQL不要バージョン Pythonスクリプト:株式相場表(日報、PDF)をDLする 10/28追記:「まとめ」UP Python:DLのみ、MySQL不要バージョン 初めて東証サイトから株式相場表(日報、PDF)をダウンロード(DL)する時用です。まだ、MySQLのテ…
11/5追記:PDF解析に使うPDFMinerの使い方、一部修正 東証株式相場表(日報、PDF)解析の引っかかりどころ 株価データのうち「-」は該当数値がない…。 利用する項目を絞り込みました 11/5追記:PDF解析に使うPDFMinerの使い方、一部修正 Python:「PDFMiner」…
東証株式相場表(日報、PDF)は手ごわかった 作業するPCの問題 IDEはVSCodeを使いました 東証株式相場表(日報、PDF)は手ごわかった 東京証券取引所日報 | 日本取引所グループに掲載されている「株式相場表」(PDF)を利用したいと考えました。Pythonで、(…
前説:東証株式相場表(日報、PDF)約3800銘柄のうち、7銘柄データピックアップできていなかった。 正規表現とPython.replaceを工夫し、何とかなったかしら……(不安だけど)。 1:正規表現でヒットする範囲をゆるくしてみた 2:「,」数字3桁区切りコンマ…
前説:Pythonで東証株式相場表(日報、PDF)からCSV作ってみたけど…。 PDFMinerをつかったPythonスクリプトで東証株式相場表(日報、PDF)からCSVが何とかできたか、と思ったものの、できあがったファイル容量が日ごとにいくらか異なり懸念がありました。 9…
前説:東証株式相場表(日報、PDF)銘柄コード隣りの1文字に気づかず1か月以上 東証株式相場表(日報、PDF)をPDFMinerでなんとか解析できそうだと思ったのが9月5日でした。 Python:VSCodeでPDFMinerを使って、東証株日報PDFから表抽出(3) - pagetakaBlo…
以前掲載したPythonスクリプト、修正。 東証株式相場表日報(PDF)をPDFMinerで解析できていると思ってたけど…。 気づいたのは出来上がったファイルの容量が大きく異なる日があったから 「D」以外もかなりある 修正:恥ずかしながらのPython script 東証株式…
前説:複数CSVで「LOAD DATA INFILE」をfor文で使えるようにしてみた。 記事タイトルのとおり、複数のファイルをひとつにまとめればOKではないのかしらん…。 複数CSVをひとつにし大きなCSVをひとつ用意するのを省き、「Dataframe」にして、MySQLへ書き込むと…
前説:CSVの文字コード、utf_8_sig、cp932 などで苦戦 同一フォルダ・同一ファイル名:恥ずかしながらのPythonスクリプト(文字コード変更し保管) 別フォルダ:恥ずかしながらのPythonスクリプト(現状Pathから別Path置換) 余談: shift_jis は cp932 で文…
ちょっと一休みみたいな感じで、「東証株式相場表(日報、PDF)」作業の課題を備忘録的に書きだしました。 東証株式相場表(日報、PDF)を解析し、これまでにできたこと。 東証株式相場表(日報、PDF)を解析し、まだできてないこと。 東証株式相場表(日報…
この項10/27追記:フォルダ名適宜ご変更のほど ファイル名を変数にする悪あがき、マニュアルでは文字列定数…みたいだけど 前説:CSV単ファイルを処理できました。 「LOAD DATA INFILE」でフォルダ内CSVを一気にMySQLテーブルへ 恥ずかしながらのPythonスクリ…
CSV(BOM無し)をMySQLへ読み込む LOAD DATA INFILE をPythonスクリプトで書くとこうなった…合ってるかな? LOAD DATA INFILE をPython…CSVのcolumnとDB.TABLE.columnの関係づけは… CSV(BOM無し)をMySQLへ読み込む 環境:Win11(64)home、VSCode、Python3…
ネット上のスクリプトをお借りし、東証株式相場表(複数・PDF)DLできました。 前説:自動で東証株式相場表(PDF)をDLしたい。 「デジタル推進課」さんのブログにドンピシャのスクリプトがありました。 恥ずかしながらのPythonスクリプト 課題:CRON動かす…
mysql.connetorで別PCのMySQLに接続できたみたいです。 前説:どこにRDBのデータ置くんだと考えたら、自PC内ではあまり都合よくないよな~と思った。 設定1:Win10PCにXAMPP入れ、その中のMySQLをつかってみることにしました。 設定2:Win11PCのVSCodeで使…
【内国株式だけを残した「東証上場銘柄」(部分)】 「東証上場銘柄」には10種類の「市場区分」情報。 「内国株式」だけを「東証上場銘柄」から選択する。 関連記事 「東証上場銘柄」には10種類の「市場区分」情報。 「東証上場銘柄」(Excel、XLS)を閲覧し…
東証上場銘柄表から、RDBのいくつかのテーブルが作れそうです。 前説:東証上場銘柄一覧(Excel:XLS)をPandasで読み込んだらDataFrameができました。 DataFrameは、「辞書型」らしい…。 課題:コード・銘柄名一覧表など各種一覧表をつくりたいです。 【東証…
東証上場銘柄一覧(xls)を読み込んで、VSCodeターミナルに表示…ができたみたいです。 前説:ネット上のExcelファイルをDLし保存せずそのままPythonで処理したかった。 pandas.io.excel.read_excel(url,etc) でDataframeに取り込めるらしいというのが、まず…
東証株日報からのデータ抽出、少し前進。耄碌爺にこれ以上できるか全く不明ですが、ひとまず、世間様へ恥さらしながら…。 追記・10月12日:できあがったCSVと東証株式相場表(日報、PDF)に齟齬 10/28追記:「まとめ」UP 追記・10月10日:スクリプトの修正が…
今回できたこと:東証株日報PDFからCSVへの書き出し、部分的にできた。 PDFMiner解析の結果、異なるところにテキスト・データが…。 課題:複雑なページもある東証株日報PDF 今回できたこと:東証株日報PDFからCSVへの書き出し、部分的にできた。 東証株日報…
東証株日報PDFのテキスト抽出で少し前進がありました。 10/28追記:「まとめ」UP 前説:Java+tabula-pyでほぼ挫折していました。その後、PDFMinerでなんとかなるのではと思ってはみたものの…。 現状:lprms = LAParams(boxes_flow=None) を使って縦罫線無視…