HTMLフォルダは、競艇データの現場そのもの
これが、実際に取り込んだHTML
ここに表示しているのは、私のPC内に保存してある 2020年・桐生の直前情報HTML です。

このフォルダの中には、2020年の桐生で取得した直前情報HTMLが、1レースごとに保存されています。
数は 2256個 です。
これは、2020年の桐生における直前情報のすべてです。
開催されたレースだけでなく、中止レースも含めて、その年の桐生の直前情報がこのフォルダに集まっています。
ここで大事なのは、単に「たくさん保存している」ということではありません。
日付。
会場コード。
レース番号。
データの種類。
これらのルールに従って、同じ形式のファイル名で並んでいることです。
つまり、あとから見たときに、
「これは何年のデータか」
「どこの会場のデータか」
「何レースのデータか」
「どの種類のデータか」
が分かる状態になっています。
競艇ソフト制作では、この整理がとても重要になります。
データは、集めただけでは使い物になりません。
どこに何があるのか分からない状態では、あとから確認することも、検証することも、作り直すこともできません。
逆に、ルールに従って保存されていれば、HTMLフォルダそのものが、ひとつの資料室になります。
この例では直前情報を表示していますが、raw data はこれだけではありません。
出走表。
結果。
オッズ。
それぞれのHTMLも、同じように規則正しく集積されています。
こうした元データを、どのように保存し、どのように整理し、どのように取り出せる状態にしておくか。
そしてHTMLには、もうひとつ大きな意味があります。
それは、WEBサイトの画面を見ているだけでは気づきにくい情報が、HTMLの中には残っているということです。
次の画像は、直前情報HTMLの一部です。
HTMLをテキスト(メモ帳)で開いたら

普通にWEBサイトを見ると、天候や風速、水温、波高などは、人間が読みやすい形で表示されています。
これはこれで分かりやすいのですが、競艇ソフトに使う場合、人間に見やすい表示だけでは不十分なことがあり、特に分かりやすいのが、風向きです。(管理人も苦労しました)
WEBサイト上では、風向きは矢印で表示されています。
人間が見るだけなら、矢印で十分です。
しかし、ソフトに保存する場合は、矢印の画像そのものでは扱いにくいです。
画像は画像です。
そのままでは、
「何度の風向きなのか」
「追い風なのか向かい風なのか」
「横風成分があるのか」
といった形で計算に使うことができません。
ところがHTMLの中を見ると、風向きは単なる見た目だけで管理されているわけではありません。
たとえば、画像の中には is-wind02 のような記述があります。
WEB画面上では矢印として表示されていても、HTMLの中では番号付きの情報として存在しているのです。
これは非常に大きな違いです。
人間には矢印に見える。
コンピューターには番号として取り出せる。
この状態になっているからこそ、競艇ソフト側で風向きを数値化できます。
たとえば、
is-wind01 ならこの方向。is-wind02 ならこの方向。is-wind03 ならこの方向。
というように対応表を作れば、画面上では矢印だった情報を、分析に使えるデータへ変換できます。
つまりHTMLは、ただの画面の裏側ではありません。
人間向けの表示と、コンピューター向けの材料が同時に入っている場所です。
この画像の中にも、天候、風速、水温、波高、気温、風向きに関する情報が含まれています。
WEB画面ではきれいに整えられて表示されているものが、HTMLの中では部品ごとに分かれて存在しています。
この「部品」を取り出して、ExcelやDetaBaseに並べ直す。
それが、競艇ソフト制作におけるデータ化の作業です。
ここで勘違いしてはいけないのは、HTMLをすべて読めるようになる必要はないということです。
HTMLを開くと、英語のコードや記号が大量に並んでいます。
最初は、かなり見づらいです。
正直、慣れていなければ気分が悪くなるような画面です。
しかし、全部を理解する必要はありません。
必要なのは、
「どの部分に欲しいデータがあるのか」
「どの記述が画面上の何に対応しているのか」
「どの形で取り出せばソフトで使いやすいのか」
を見つけることですが、安心してください!ChatGPTに手伝ってくれます。
HTMLの構造を読み解く作業は、AIがかなり得意な分野です。
人間側は、競艇ソフトとして何を使いたいのかを決める。
AIには、その情報がHTMLのどこにあるのかを探してもらう。
この役割分担ができれば、HTMLは怖いものではなくなります。
むしろ、競艇ソフト制作にとって非常にありがたい材料になります。
画面では見えているだけの情報。
画像として表示されている情報。
一見するとただのコードにしか見えない情報。
その中に、ソフトで使えるデータが眠っています。
raw data(HTML)を保存する価値は、単なるバックアップだけではありません。
そこには、画面を見ているだけでは気づけない、整ったデータの入口があります。
2020年桐生の直前情報2256個。
このように1年分のHTMLが揃っていると、そこから初めて見えてくるものがあります。
欠けているレースはないか。
中止レースはどう扱われているか。
風向きや気象条件はどのように記録されているか。
WEB画面とHTMLの中身はどう対応しているか。
こうした確認ができるようになります。
競艇ソフト制作では、表に見えているデータだけを使うのではなく、その裏側にあるHTMLも見ていく必要があります。
HTMLは、ただの英語のコードではありません。
競艇データの現場であり、競艇ソフト制作の原石です。

