model-research

rodin/model-research

Fork 0

Commit Graph

Author	SHA1	Message	Date
claw	8338ae3019	finding #35 : adversarial ensemble (critique+extend) produces 30% more coverage Tests GPT-5 → Opus critique+extend pipeline on dtbp-margin-call.md. Key results: - Ensemble produces 56 unique findings vs 43 (GPT-5) or 28 (Opus) alone - Zero full disagreements — GPT-5's coverage is reliable signal - Critique phase (severity calibration) more valuable than extension phase - 28% more tokens for 30% more coverage + structured prioritization - Answers open question about adversarial ensemble value	2026-05-06 21:29:17 -07:00

Author

SHA1

Message

Date

claw

8338ae3019

finding #35 : adversarial ensemble (critique+extend) produces 30% more coverage

Tests GPT-5 → Opus critique+extend pipeline on dtbp-margin-call.md.
Key results:
- Ensemble produces 56 unique findings vs 43 (GPT-5) or 28 (Opus) alone
- Zero full disagreements — GPT-5's coverage is reliable signal
- Critique phase (severity calibration) more valuable than extension phase
- 28% more tokens for 30% more coverage + structured prioritization
- Answers open question about adversarial ensemble value

2026-05-06 21:29:17 -07:00

1 Commits