モデル方法論
GeoAlpha は 2 つのモデルを組み合わせて Alpha Score を算出します。 XGBoost が「施設・地形・規制から見た理論地価」を推定し、 Regression Kriging が「実際の取引から見た市場実勢価」を空間補間します。 両者の乖離が Alpha Score です。
1. XGBoost 理論地価モデル
「需要側の本来の価値」を機械学習で推定
学習データ
国交省 REINFOLIB(不動産取引価格情報取得API)から取得した福岡県全域の 実取引データ 164,615件(2020〜2025年)。 土地 / 土地+建物 / マンションの 3 サブモデルを独立して学習。
特徴量(43次元)
| グループ | 内容 |
|---|---|
| 施設重力スコア | station_gravity, supermarket_gravity, convenience_store_gravity, school_gravity, hospital_gravity, park_gravity, restaurant_gravity, pharmacy_gravity, gym_gravity(各カテゴリの充実度) |
| 利便性合算 | convenience_score(全重力スコア合計) |
| 最近傍距離 | nearest_station_m, nearest_supermarket_m |
| 駅アクセシビリティ | station_accessibility(乗降客数 × ティア × 徒歩時間減衰) |
| ハブ距離 | dist_to_tenjin_km, dist_to_hakata_km, dist_to_airport_km |
| ハザード・地形 | elevation_m, flood_risk, landslide_risk |
| 座標 | latitude, longitude |
| 土地規制 | land_use_zone_code, floor_area_ratio, coverage_ratio, land_shape_score, frontage_m |
| 用途地域(A29) | youto_code, far_official, bcr_official |
| 人口統計 | population_density_norm, future_pop_ratio_2050 |
| 物件種別・仕様 | property_type_code, building_age, floor_level, total_floor_area |
| 敷地 | land_area, log_land_area |
| 時系列 | transaction_year, transaction_quarter |
施設重力モデル
各施設の「引力」を距離と規模(ティア)から計算します。 単純な距離・件数カウントより実態に即した利便性評価が可能です。
※ 最小距離 50m クリップ、カテゴリ別の有効距離ゾーン付き
ティア例: 天神駅=3.0 / イオン=3.0 / サニー=1.8 / 一般施設=1.0
2. Regression Kriging 市場実勢価モデル
「実際の取引が語る市場価格」を空間統計で補間
Regression Kriging
XGBoost の予測残差(実測 − 予測)を空間的に補間し、予測精度を向上させます。 Kriging は空間自己相関(近い地点は似た価格)を変量図でモデル化するため、 単純な IDW より精度が高く、郊外の疎なエリアでも安定した推定が可能です。
Kriging(p) = Σ( λ_i × residual_i ) ← 変量図重みで求解
market_price(p) = expm1( log1p(XGBoost(p)) + Kriging(p) )
k=20近傍局所クリギング、Spherical/Exponential/Gaussian 自動選択
参照点
- • REINFOLIB 実取引 164,615件(丁目レベル座標)
- • 国土数値情報 L01 地価公示 4,659件(±10m精密座標)
精密座標の地価公示をアンカーとして加えることで、 取引データが疎な郊外エリアの補間精度を大幅に改善しています。
信頼度フィルター
半径 2km 以内の参照点が 5件未満の建物は Alpha Score を非表示にします。 データが疎なエリアで誤ったシグナルを表示しないための品質管理です。
3. 精度検証
内部 CV・Out-of-time 検証・バックテストの 3 段階で汎化性能と予測力を確認
5-fold Cross Validation
164,615件全データ・5分割交差検証
目標 R²=0.70 を達成
Out-of-time 検証(重要)
2021年以前データのみで学習
→ モデルが一切見ていない 2022〜2025年
実取引 89,864件でテスト
Out-of-time 検証が重要な理由
単純な交差検証は「同じ期間内の別サンプル」への汎化しか測定できません。 Out-of-time 検証では学習データと評価データを時系列で完全分離することで、 「未来の市場でも機能するか」という実投資に直結する問いに答えます。 R²=0.552 は、モデルが過去データへの過適合なしに未来市場を予測できることを示します。
バックテスト(2015〜2017学習 → 2018年以降テスト)
2015〜2017年の取引データのみで学習したモデルで割安判定 → 2018年以降の実取引価格変化と照合。 丁目(district)単位 5,092 セルで Spearman ρ = 0.286、p < 0.001(***)の 統計的に有意な正の相関を確認。Alpha が「割安」と判定したエリアがその後実際に価格上昇した。
(丁目レベル)
(*** 最高水準)
(サンプルサイズ)
XGBoost 物件種別別精度(OOT)
| 物件種別 | R²(OOT) | RMSE(円/㎡) | MAPE |
|---|---|---|---|
| 全種別合計 | 0.552 | 174,151 | 47.4% |
| IDW(旧方式・参考) | 0.271 | 222,136 | 74.0% |
4. データソース一覧
すべて公的機関が提供するオープンデータを使用
| データソース | 用途 | 詳細 |
|---|---|---|
国交省 REINFOLIB(XIT001) 学習データ | XGBoost 学習データ | 164,615件・福岡県全域・2020〜2025年の実取引価格。丁目レベル座標付き。 |
国土数値情報 N02(鉄道・駅) 独立データ | 駅アクセシビリティ特徴量 | 乗降客数・路線ティア・徒歩時間減衰で「駅の価値」を数値化。 |
国土数値情報 A29(用途地域) 独立データ | 土地規制特徴量 | 用途地域コード・容積率・建蔽率を XGBoost 特徴量として利用。 |
GSI 標高 DEM・A33 土砂リスク 独立データ | ハザード特徴量 | 標高・洪水リスク・土砂災害リスクを加味して価格予測精度を向上。 |
e-Stat API(国勢調査) 独立データ | 人口統計特徴量 | 人口密度・2050年将来人口比率で中長期需要を定量化。 |
OpenStreetMap(Overpass API) 独立データ | POI 施設データ・建物ポリゴン | 27,303 POI(9カテゴリ)+ 約143,000建物ポリゴンを活用。 |
国土数値情報 L01(地価公示) 独立データ | IDW アンカー点 | 4,659件の精密座標(±10m)を IDW 参照点に追加し補間精度を向上。 |
5. 制約事項・免責
データを実際に使ってみる