基准测试说明与方法论（Benchmark Notes & Methodology）

本页说明 Memorose 网站和文档中引用的基准测试数据。

重要范围说明

当前数据为 Memorose 内部评估环境中收集的项目自报工程基准。这些数据有助于了解方向性的性能和能力表现，但不应被视为独立的第三方审计结果。

报告数据

HaluMem 召回率：项目基准测试中实现 100% 无幻觉召回
人格一致性（Persona Consistency）：项目基准测试中实现 100% 保持率
LoCoMo：项目基准测试中实现 100% 长对话质量
缓存加速（Cache Speedup）：项目基准测试中重复查询加速 1273 倍

这些数据旨在说明什么

Memorose 能够在长时间运行的交互中保持用户和智能体的上下文。
混合检索（Hybrid Retrieval）加上记忆整合（Memory Consolidation），在相关记忆已结构化且可用时，可以显著降低重复查询的延迟。
该系统针对智能体记忆质量进行优化，而不仅仅是文档检索准确率。

这些数据尚未证明什么

它们不能替代公开的、可复现的基准测试套件。
它们不保证在每种模型、数据集或部署拓扑下都能获得相同结果。
它们不应被视为正式的独立认证。

建议的解读方式

将这些基准测试数据用作：

当前工程方向的证据，
Memorose 针对持久化 AI 记忆进行优化的信号，
以及你自己针对特定工作负载进行评估的起点。

可复现性路线图

Memorose 项目正在推进以下工作：

公开基准测试输入和评估脚本，
更清晰地披露硬件和模型配置，
以及提供可复现的基准测试包供外部验证。

在这些工作完成之前，评估 Memorose 用于生产环境的团队应针对自己关心的工作负载、模型和延迟预算运行自己的基准测试。

多模态写入 SDK