跳转到主要内容

基准测试说明与方法论(Benchmark Notes & Methodology)

本页说明 Memorose 网站和文档中引用的基准测试数据。

重要范围说明

当前数据为 Memorose 内部评估环境中收集的项目自报工程基准。这些数据有助于了解方向性的性能和能力表现,但不应被视为独立的第三方审计结果。

报告数据

  • HaluMem 召回率:项目基准测试中实现 100% 无幻觉召回
  • 人格一致性(Persona Consistency):项目基准测试中实现 100% 保持率
  • LoCoMo:项目基准测试中实现 100% 长对话质量
  • 缓存加速(Cache Speedup):项目基准测试中重复查询加速 1273 倍

这些数据旨在说明什么

  • Memorose 能够在长时间运行的交互中保持用户和智能体的上下文。
  • 混合检索(Hybrid Retrieval)加上记忆整合(Memory Consolidation),在相关记忆已结构化且可用时,可以显著降低重复查询的延迟。
  • 该系统针对智能体记忆质量进行优化,而不仅仅是文档检索准确率。

这些数据尚未证明什么

  • 它们不能替代公开的、可复现的基准测试套件。
  • 它们不保证在每种模型、数据集或部署拓扑下都能获得相同结果。
  • 它们不应被视为正式的独立认证。

建议的解读方式

将这些基准测试数据用作:
  • 当前工程方向的证据,
  • Memorose 针对持久化 AI 记忆进行优化的信号,
  • 以及你自己针对特定工作负载进行评估的起点。

可复现性路线图

Memorose 项目正在推进以下工作:
  • 公开基准测试输入和评估脚本,
  • 更清晰地披露硬件和模型配置,
  • 以及提供可复现的基准测试包供外部验证。
在这些工作完成之前,评估 Memorose 用于生产环境的团队应针对自己关心的工作负载、模型和延迟预算运行自己的基准测试。