Chapter 7

Defining the Learning Task

6 sections 10 notebooks 66 references Code

Library

Learning Objectives

Build split-aware preprocessing pipelines that produce stable, auditable inputs for label and feature computation.
Define execution-consistent labels, including fixed-horizon and event-style constructions, and diagnose overlap, resolution behavior, and implied trading intensity.
Evaluate feature-label bundles fold by fold using appropriate diagnostics for continuous and discrete targets, including stability, shape, and feasibility.
Screen candidates for implementation feasibility using turnover, break-even cost, and liquidity or capacity checks.
Account for search bias by defining searched sets, separating exploration from confirmation, and applying appropriate multiple-testing adjustments to fold-level summaries.
Use mechanism plausibility checks to distinguish potentially stable signal channels from confounded proxies, timing artifacts, and aggregation effects.

7.1

Data preprocessing and encodings

7.2

Label engineering

7.3

Univariate feature–label evaluation

7.4

Search accounting and multiple testing

7.5

From correlation to causality

7.6

Summary

Related Case Studies

See where these chapter concepts get applied in end-to-end trading workflows.

All case studies

ETF Cross-Asset Exposures

All six model families compared across 100 ETFs spanning 9 asset classes

ETFs Daily

Crypto Perpetuals Funding

Alternative data and non-standard frequencies in 24/7 crypto markets

Cryptocurrency 8-Hour

NASDAQ-100 Microstructure

Intraday microstructure signals across 114 stocks at 15-minute frequency

Equities 15-Minute

S&P 500 Equity + Option Analytics

Combining options-derived features with equity data for multi-source prediction

Options Daily

US Firm Characteristics

Classic factor investing with ML on monthly fundamental data

Fundamentals Monthly

FX Spot Pairs

Momentum and carry factors in the world's most liquid market

Foreign Exchange Daily

CME Futures

Carry signals across 30 products — data quality as the critical variable

Futures Daily

S&P 500 Options (Straddles)

Direct options trading and why equity-style cost models fail for options

Options Daily

US Equities Panel

Large-scale cross-sectional prediction across 3,200 stocks with 16 walk-forward folds

Equities Daily

All Chapters

Defining the Learning Task

Learning Objectives

Data preprocessing and encodings

Label engineering

Univariate feature–label evaluation

Search accounting and multiple testing

From correlation to causality

Summary

Related Case Studies

ETF Cross-Asset Exposures

Crypto Perpetuals Funding

NASDAQ-100 Microstructure

S&P 500 Equity + Option Analytics

US Firm Characteristics

FX Spot Pairs

CME Futures

S&P 500 Options (Straddles)

US Equities Panel

Block Bootstrap and Permutation Testing for Dependent Data

Causality, Confounding, and Why Good Signals Can Be Misleading

Coverage-Aware Evaluation and Event-Time Alignment for Text Signals

From Information Coefficient to Information Ratio

HAC Standard Errors and Robust Inference

Hypothesis Testing and P-Values

Label Overlap: Why Your Sample Is Smaller Than You Think

Momentum and Mean Reversion

Multiple Testing and the Researcher’s Trap

Multiple Testing in Factor Research: The Search Tax on Discovery

Multiple Testing, Replication, and the Factor Zoo After the Replication Wars

Point-in-Time Data and Decision-Time Correctness

Reading the Information Coefficient: Stability, ICIR, and Horizon Decay

Simple Returns vs Log Returns

The Information Coefficient

Trading Costs: Spread, Slippage, and Market Impact

Volatility: Realized, Implied, and Why It Clusters

Walk-Forward Validation for Time Series