Chapter 9

Model-Based Feature Extraction

7 sections 22 notebooks 108 references Code

Library

Learning Objectives

distinguish direct features from model-based features and judge when a fitted procedure adds useful information beyond
use fitted procedures to extract forecasts, filtered states, residuals, conditional volatility, regime probabilities,
design a compact, interpretable set of model-based features from diagnostics, signal transforms, volatility models,
enforce point-in-time correctness by fitting and selecting models within training windows, using filtered rather than
transform asset-level temporal outputs into cross-sectional, benchmark-adjusted, pairwise, and universe-level features
distinguish between exploratory time-series methods that are useful for research diagnosis and deployable features
use uncertainty and regime outputs primarily as conditioning features, and recognize when they should not be treated

9.1

Diagnostics and stationarity features

9.2

Transforming signals to uncover hidden structure

9.3

Volatility Features

9.4

Uncertainty features

9.5

Regime features

9.6

Cross-sectional and panel features

9.7

Summary

Related Case Studies

See where these chapter concepts get applied in end-to-end trading workflows.

All case studies

ETF Cross-Asset Exposures

All six model families compared across 100 ETFs spanning 9 asset classes

ETFs Daily

Crypto Perpetuals Funding

Alternative data and non-standard frequencies in 24/7 crypto markets

Cryptocurrency 8-Hour

NASDAQ-100 Microstructure

Intraday microstructure signals across 114 stocks at 15-minute frequency

Equities 15-Minute

S&P 500 Equity + Option Analytics

Combining options-derived features with equity data for multi-source prediction

Options Daily

FX Spot Pairs

Momentum and carry factors in the world's most liquid market

Foreign Exchange Daily

CME Futures

Carry signals across 30 products — data quality as the critical variable

Futures Daily

S&P 500 Options (Straddles)

Direct options trading and why equity-style cost models fail for options

Options Daily

US Equities Panel

Large-scale cross-sectional prediction across 3,200 stocks with 16 walk-forward folds

Equities Daily

All Chapters

Model-Based Feature Extraction

Learning Objectives

Diagnostics and stationarity features

Transforming signals to uncover hidden structure

Volatility Features

Uncertainty features

Regime features

Cross-sectional and panel features

Summary

Related Case Studies

ETF Cross-Asset Exposures

Crypto Perpetuals Funding

NASDAQ-100 Microstructure

S&P 500 Equity + Option Analytics

FX Spot Pairs

CME Futures

S&P 500 Options (Straddles)

US Equities Panel

ACF and PACF Interpretation

Autoregressive, Moving-Average, and ARIMA Foundations for Feature Engineering

Bayesian Inference and MCMC for Time Series

Bayes' Theorem and Posterior Distributions

Block Bootstrap and Permutation Testing for Dependent Data

Bootstrap Methods for Dependent Financial Time Series

Cointegration

Fourier Transform Foundations

Fractional Differencing: Keeping Memory Without Keeping the Unit Root

HAC Standard Errors and Robust Inference

Hypothesis Testing and P-Values

Markov Chains and the Markov Property

Microstructure Noise and Bid-Ask Bounce

Path Signatures and Log-Signatures for Financial Sequences

Point-in-Time Data and Decision-Time Correctness

Range-Based Volatility Estimators from OHLC Data

Regime Models for Feature Engineering: HMMs, Markov Switching, and Distributional Clustering

State-Space Models and Kalman Filtering for Feature Engineering

State Space Models from Kalman Intuition to Mamba

Stationarity and Unit Roots

Stationarity Tests: ADF, KPSS, and Rolling Stability Signals

Structural Break Diagnostics and Time-Since-Break Features

Stylized Facts of Financial Time Series for Simulation and Validation

Uncertainty as a Feature

Volatility Forecasting Mechanics for Risk Control

Volatility Models as Feature Extractors: GARCH, EGARCH, and HAR

Volatility: Realized, Implied, and Why It Clusters

Walk-Forward Validation for Time Series

Wavelets for Multi-Scale Diagnostics and Causal Feature Design