model-research

Files

T

History

Rodin 1b108ff66e Initial publish: 29 findings, 6 prompts, methodology, open questions

Full comparative analysis of GPT-5, Claude Opus 4.6, Claude Sonnet 4.6,
GPT-4.1, and GPT-4.1 Mini on analytical tasks (not coding).

Contents:
- findings/ALL-FINDINGS.md — complete 3,249-line research log with all
  29 findings, methodology notes, and open questions
- prompts/ — 6 exact prompts used across experiments
- methodology.md — experimental setup and evaluation criteria
- open-questions.md — unanswered questions for future work
- README.md — overview and summary table

Key findings:
- Cross-document consistency: Opus is 2.4x faster with more findings
- Gap-finding: GPT-5 reasoning tokens find domain-specific gaps
- Race conditions: Opus excels at temporal interaction reasoning
- Bias detection: Signal-to-noise ratio > model capability
- Adversarial analysis: GPT-5 exhaustive, Opus qualitatively different

Signed-off-by: Rodin

2026-05-05 19:13:03 -07:00

adversarial-manipulation.md

Initial publish: 29 findings, 6 prompts, methodology, open questions

2026-05-05 19:13:03 -07:00

contradiction-detection.md

Initial publish: 29 findings, 6 prompts, methodology, open questions

2026-05-05 19:13:03 -07:00

cross-document-consistency.md

Initial publish: 29 findings, 6 prompts, methodology, open questions

2026-05-05 19:13:03 -07:00

design-coherence.md

Initial publish: 29 findings, 6 prompts, methodology, open questions

2026-05-05 19:13:03 -07:00

gap-finding.md

Initial publish: 29 findings, 6 prompts, methodology, open questions

2026-05-05 19:13:03 -07:00

hidden-assumptions.md

Initial publish: 29 findings, 6 prompts, methodology, open questions

2026-05-05 19:13:03 -07:00