# Curated Data

Training data is a critical input for frontier AI models. The competitive landscape depends on data quality, diversity, licensing, and regulatory frameworks governing data collection and use.

**Measure:** High-Quality Training Data Availability & Access

**US & Allies Score:** 6.0/10  
**China Score:** 7.0/10  
**Leader:** China

## Key Metrics

- **Effective data advantage:** Advantage = (Unique high-quality tokens) × (Domain coverage) × (Licensing clarity)
- **Synthetic data multiplier:** Effective Supply = (Real data) + (Synthetic data × Quality factor)

## What matters in this layer

As model architectures converge, training data quality and curation are becoming primary differentiators. Access to proprietary, well-labeled, domain-specific data can determine which models achieve breakthrough performance in specialized areas.

### Data quality over quantity

The shift from “more data is better” to “better data is better” is accelerating. Carefully curated, deduplicated, and high-quality datasets produce measurably stronger models at lower training cost.

### Regulatory landscape

Differing privacy frameworks (GDPR, China’s PIPL, US state laws) shape what data is available for training. These regulatory asymmetries create distinct advantages and constraints for each ecosystem.

### Synthetic data

AI-generated synthetic data is increasingly used to supplement real-world datasets, particularly for rare domains, code generation, and mathematical reasoning tasks.

### Licensing and provenance

Legal challenges around training data usage are intensifying. Clear data provenance and licensing are becoming competitive advantages as litigation and regulation increase.

## Recent Developments

### Data Quality Becomes a Differentiator
*1 week ago | Strategy*

As model architectures converge, the quality and curation of training data is emerging as a key differentiator for frontier AI labs. Companies investing in proprietary, high-quality datasets are seeing outsized returns in model performance.

### China's Data Advantage in Specific Domains
*2 weeks ago | Analysis*

China's large internet population and different privacy frameworks provide access to vast datasets in areas like e-commerce, social media, and manufacturing, creating advantages for domain-specific AI applications.

### Synthetic Data Generation Gains Traction
*3 weeks ago | Technology*

Both US and Chinese AI labs are increasingly using synthetic data generation to supplement real-world training data, potentially reducing the importance of raw data access over time.