# XTB vs nox 前 10 页召回相关度排序效果报告

## 结论

本轮没有证明 XTB 相比 nox 的同页召回相关度有整体提升。

## 执行摘要

- 同页对比没有达到预期：XTB 全页加权 badcase率差为 0.0pp。
- 头部页没有改善：1-3 页差值为 0.0pp，这会直接削弱排序效果结论。
- 排序梯度有一定支持：头部改善不弱于尾部，和“高相关结果前置”的预期方向一致。

| 指标 | 结果 |
| --- | --- |
| 关键词数 | 0 |
| 可比页数 | 0 |
| XTB 优于 nox 的页数 | 0/0 |
| 全页加权 badcase率差(XTB-nox) | 0.0pp |
| 头部1-3页 badcase率差(XTB-nox) | 0.0pp |
| 尾部8-10页 badcase率差(XTB-nox) | 0.0pp |
| 平均单频道评分耗时 | - |
| 平均单 shard 评分耗时 | - |

判读口径：负数代表 XTB badcase率低于 nox，是我们希望看到的方向；正数代表 XTB 更差。
排序口径：头部 1-3 页差值代表头部召回质量；尾部 8-10 页与 badcase率斜率用于观察排序是否把高相关结果排到了更靠前位置。

## 按页码聚合

| page | 覆盖关键词 | nox badcase率 | xtb badcase率 | 差值(XTB-nox) |
| --- | --- | --- | --- | --- |
| 1 | 0 | 0.0% | 0.0% | - |
| 2 | 0 | 0.0% | 0.0% | - |
| 3 | 0 | 0.0% | 0.0% | - |
| 4 | 0 | 0.0% | 0.0% | - |
| 5 | 0 | 0.0% | 0.0% | - |
| 6 | 0 | 0.0% | 0.0% | - |
| 7 | 0 | 0.0% | 0.0% | - |
| 8 | 0 | 0.0% | 0.0% | - |
| 9 | 0 | 0.0% | 0.0% | - |
| 10 | 0 | 0.0% | 0.0% | - |

## 按关键词概览

| keyword | 结论 | XTB优于nox页数 | 全页差值 | 头部1-3页差值 | 尾部8-10页差值 | XTB斜率 | nox斜率 | 斜率差 |
| --- | --- | --- | --- | --- | --- | --- | --- | --- |

## 召回量与执行耗时

| keyword | provider | 页面召回量 | 实际评分量 | badcase率 | 单频道均时 | 单shard均时 | shard数 |
| --- | --- | --- | --- | --- | --- | --- | --- |

## 逐关键词同页码对比

## 方法说明

- 本报告只比较相同关键词、相同 provider 页码下的结果，不做跨页错位比较。
- 核心假设：如果 XTB 召回排序更好，越靠前的页码应该有越低 badcase率，并且同页码应低于 nox。
- `fit + adjacent` 视为非 badcase；`badcase` 代表召回相关度失败。
- 页面召回量优先读取 `.result-count`；当页面文本不可读时，使用接口返回的 `totalSize` 或实际评分量作为可解释降级。
- 斜率为 badcase率随页码增长的线性趋势。正斜率通常代表越往后越差，更符合“好结果排前”的排序预期；XTB 斜率高于 nox 说明 XTB 的排序梯度更明显。