GeoAlpha/ モデル方法論

モデル方法論

GeoAlpha は 2 つのモデルを組み合わせて Alpha Score を算出します。 XGBoost が「施設・地形・規制から見た理論地価」を推定し、 Regression Kriging が「実際の取引から見た市場実勢価」を空間補間します。 両者の乖離が Alpha Score です。

Alpha Score の定義
Alpha Score = log(XGBoost 理論地価 / Kriging 市場実勢価)
正値(+):理論地価 > 市場価 → 割安(市場が見落としている)
負値(−):理論地価 < 市場価 → 割高(利便性以上の値段)
クリップ範囲: −1 〜 +1

1. XGBoost 理論地価モデル

「需要側の本来の価値」を機械学習で推定

学習データ

国交省 REINFOLIB(不動産取引価格情報取得API)から取得した福岡県全域の 実取引データ 164,615件(2020〜2025年)。 土地 / 土地+建物 / マンションの 3 サブモデルを独立して学習。

特徴量(43次元)

グループ内容
施設重力スコアstation_gravity, supermarket_gravity, convenience_store_gravity, school_gravity, hospital_gravity, park_gravity, restaurant_gravity, pharmacy_gravity, gym_gravity(各カテゴリの充実度)
利便性合算convenience_score(全重力スコア合計)
最近傍距離nearest_station_m, nearest_supermarket_m
駅アクセシビリティstation_accessibility(乗降客数 × ティア × 徒歩時間減衰)
ハブ距離dist_to_tenjin_km, dist_to_hakata_km, dist_to_airport_km
ハザード・地形elevation_m, flood_risk, landslide_risk
座標latitude, longitude
土地規制land_use_zone_code, floor_area_ratio, coverage_ratio, land_shape_score, frontage_m
用途地域(A29)youto_code, far_official, bcr_official
人口統計population_density_norm, future_pop_ratio_2050
物件種別・仕様property_type_code, building_age, floor_level, total_floor_area
敷地land_area, log_land_area
時系列transaction_year, transaction_quarter

施設重力モデル

各施設の「引力」を距離と規模(ティア)から計算します。 単純な距離・件数カウントより実態に即した利便性評価が可能です。

G_c(p) = Σ ( weight_c × tier_i / (distance_i / 100)^1.5 )
※ 最小距離 50m クリップ、カテゴリ別の有効距離ゾーン付き

ティア例: 天神駅=3.0 / イオン=3.0 / サニー=1.8 / 一般施設=1.0

2. Regression Kriging 市場実勢価モデル

「実際の取引が語る市場価格」を空間統計で補間

Regression Kriging

XGBoost の予測残差(実測 − 予測)を空間的に補間し、予測精度を向上させます。 Kriging は空間自己相関(近い地点は似た価格)を変量図でモデル化するため、 単純な IDW より精度が高く、郊外の疎なエリアでも安定した推定が可能です。

residual_i = log1p(実取引価格_i) − log1p(XGBoost予測_i)
Kriging(p) = Σ( λ_i × residual_i ) ← 変量図重みで求解
market_price(p) = expm1( log1p(XGBoost(p)) + Kriging(p) )
k=20近傍局所クリギング、Spherical/Exponential/Gaussian 自動選択

参照点

  • • REINFOLIB 実取引 164,615件(丁目レベル座標)
  • • 国土数値情報 L01 地価公示 4,659件(±10m精密座標

精密座標の地価公示をアンカーとして加えることで、 取引データが疎な郊外エリアの補間精度を大幅に改善しています。

信頼度フィルター

半径 2km 以内の参照点が 5件未満の建物は Alpha Score を非表示にします。 データが疎なエリアで誤ったシグナルを表示しないための品質管理です。

3. 精度検証

内部 CV・Out-of-time 検証・バックテストの 3 段階で汎化性能と予測力を確認

5-fold Cross Validation

R² = 0.750

164,615件全データ・5分割交差検証
目標 R²=0.70 を達成

Out-of-time 検証(重要)

R² = 0.552

2021年以前データのみで学習
→ モデルが一切見ていない 2022〜2025年
実取引 89,864件でテスト

Out-of-time 検証が重要な理由

単純な交差検証は「同じ期間内の別サンプル」への汎化しか測定できません。 Out-of-time 検証では学習データと評価データを時系列で完全分離することで、 「未来の市場でも機能するか」という実投資に直結する問いに答えます。 R²=0.552 は、モデルが過去データへの過適合なしに未来市場を予測できることを示します。

バックテスト(2015〜2017学習 → 2018年以降テスト)

2015〜2017年の取引データのみで学習したモデルで割安判定 → 2018年以降の実取引価格変化と照合。 丁目(district)単位 5,092 セルで Spearman ρ = 0.286、p < 0.001(***)の 統計的に有意な正の相関を確認。Alpha が「割安」と判定したエリアがその後実際に価格上昇した。

ρ = 0.286
Spearman 相関係数
(丁目レベル)
p < 0.001
統計的有意水準
(*** 最高水準)
n = 5,092
有効丁目セル数
(サンプルサイズ)

XGBoost 物件種別別精度(OOT)

物件種別R²(OOT)RMSE(円/㎡)MAPE
全種別合計0.552174,15147.4%
IDW(旧方式・参考)0.271222,13674.0%

4. データソース一覧

すべて公的機関が提供するオープンデータを使用

データソース用途詳細
国交省 REINFOLIB(XIT001)
学習データ
XGBoost 学習データ164,615件・福岡県全域・2020〜2025年の実取引価格。丁目レベル座標付き。
国土数値情報 N02(鉄道・駅)
独立データ
駅アクセシビリティ特徴量乗降客数・路線ティア・徒歩時間減衰で「駅の価値」を数値化。
国土数値情報 A29(用途地域)
独立データ
土地規制特徴量用途地域コード・容積率・建蔽率を XGBoost 特徴量として利用。
GSI 標高 DEM・A33 土砂リスク
独立データ
ハザード特徴量標高・洪水リスク・土砂災害リスクを加味して価格予測精度を向上。
e-Stat API(国勢調査)
独立データ
人口統計特徴量人口密度・2050年将来人口比率で中長期需要を定量化。
OpenStreetMap(Overpass API)
独立データ
POI 施設データ・建物ポリゴン27,303 POI(9カテゴリ)+ 約143,000建物ポリゴンを活用。
国土数値情報 L01(地価公示)
独立データ
IDW アンカー点4,659件の精密座標(±10m)を IDW 参照点に追加し補間精度を向上。

5. 制約事項・免責

本モデルは統計的パターン認識に基づく参考情報です。投資判断の最終的な責任はユーザーに帰属します。
現在の対応エリアは福岡県(β版)。東京23区・大阪府は順次対応予定。
住所座標は丁目レベル精度(番地以降は匿名化)。建物単位の帰属は近傍推定です。
Kriging 市場実勢価は参照点が少ないエリアで精度が低下します。信頼度フィルター(半径 2km 内 5件未満は非表示)を適用しています。
Alpha Score は絶対的な「割安・割高」を保証するものではなく、統計モデルに基づく相対的な乖離指標です。

データを実際に使ってみる