project-memory.mdx 9.4 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226
  1. ---
  2. title: "项目记忆系统 - 文件级跨对话记忆架构"
  3. description: "深度解析 Claude Code 记忆系统:基于文件的持久化存储、MEMORY.md 索引结构、四类型分类法、Sonnet 智能召回、Session Memory 压缩集成。"
  4. keywords: ["项目记忆", "MEMORY.md", "AI 记忆", "跨对话", "自动记忆", "memdir"]
  5. ---
  6. {/* 本章目标:从源码层面剖析记忆系统的存储架构、召回机制和注入链路 */}
  7. ## 记忆系统的存储架构
  8. 源码路径:`src/memdir/paths.ts`、`src/memdir/memdir.ts`
  9. Claude Code 的记忆系统是**纯文件**的——没有数据库、没有向量存储,只有 Markdown 文件和目录结构。
  10. ### 目录布局
  11. ```
  12. ~/.claude/projects/<sanitized-git-root>/memory/
  13. ├── MEMORY.md ← 入口索引(每次对话加载)
  14. ├── user_role.md ← 用户记忆
  15. ├── feedback_testing.md ← 反馈记忆
  16. ├── project_mobile_release.md ← 项目记忆
  17. ├── reference_linear_ingest.md ← 参考记忆
  18. └── logs/ ← KAIROS 模式:每日日志
  19. └── 2026/
  20. └── 04/
  21. └── 2026-04-01.md
  22. ```
  23. 路径解析链路(`getAutoMemPath()`):
  24. 1. `CLAUDE_COWORK_MEMORY_PATH_OVERRIDE` 环境变量(Cowork SDK 全路径覆盖)
  25. 2. `autoMemoryDirectory` 设置(仅限 `policySettings`/`localSettings`/`userSettings`——**故意排除** `projectSettings`,防止恶意仓库将记忆路径指向 `~/.ssh`)
  26. 3. 默认:`<memoryBase>/projects/<sanitized-git-root>/memory/`
  27. 同一个 Git 仓库的所有 worktree 共享一个记忆目录(通过 `findCanonicalGitRoot()` 找到真正的 `.git` 根)。
  28. ### MEMORY.md 索引
  29. `MEMORY.md` 是记忆的入口索引,每次对话都完整加载到上下文中:
  30. ```typescript
  31. // memdir.ts:35-38
  32. export const ENTRYPOINT_NAME = 'MEMORY.md'
  33. export const MAX_ENTRYPOINT_LINES = 200
  34. export const MAX_ENTRYPOINT_BYTES = 25_000
  35. ```
  36. 索引有**双重上限**:200 行 AND 25KB。超过任何一条都会被 `truncateEntrypointContent()` 截断并追加警告。设计原因:p97 的索引文件用 200 行就能覆盖,但有些索引条目特别长(p100 观测到 197KB/200 行),字节上限捕捉这种长行异常。
  37. 索引条目格式:
  38. ```markdown
  39. - [Title](file.md) — one-line hook
  40. ```
  41. 每条一行,~150 字符以内。`MEMORY.md` 本身没有 frontmatter——它只是一个链接列表,不是记忆内容。
  42. ## 四类型分类法
  43. 源码路径:`src/memdir/memoryTypes.ts`
  44. 记忆被约束为一个**封闭的四类型系统**,每种类型有明确的 `<when_to_save>`、`<how_to_use>` 和 `<body_structure>` 规范:
  45. | 类型 | 存储内容 | 典型触发 |
  46. |------|---------|---------|
  47. | **user** | 用户角色、偏好、技术背景 | "我是数据科学家"、"我写了十年 Go" |
  48. | **feedback** | 用户对 AI 行为的纠正和确认 | "别 mock 数据库"、"单 PR 更好" |
  49. | **project** | 非代码可推导的项目上下文 | "合并冻结从周四开始"、"auth 重写是合规要求" |
  50. | **reference** | 外部系统指针 | "pipeline bugs 在 Linear INGEST 项目" |
  51. 关键设计约束:**只存储无法从当前项目状态推导的信息**。代码架构、文件路径、git 历史都可以实时获取,不需要记忆。
  52. ### 反馈类型的双通道捕获
  53. `feedback` 类型的 `when_to_save` 指令特别强调:
  54. > Record from failure AND success: if you only save corrections, you will avoid past mistakes but drift away from approaches the user has already validated, and may grow overly cautious.
  55. 这意味着 AI 不仅在用户说"不要这样做"时保存,也在用户说"对,就是这样"时保存。后一种更难捕捉,但同等重要——它防止 AI 的行为随时间漂移。
  56. ### 每条记忆的 Frontmatter 格式
  57. ```markdown
  58. ---
  59. name: {{memory name}}
  60. description: {{one-line description — 用于未来判断相关性}}
  61. type: {{user, feedback, project, reference}}
  62. ---
  63. {{memory content — feedback/project 类型建议包含 **Why:** 和 **How to apply:** 行}}
  64. ```
  65. `description` 字段是关键:它不是给人读的摘要,而是给 AI 召回系统做相关性判断的搜索关键词。
  66. ## 智能召回机制
  67. 源码路径:`src/memdir/findRelevantMemories.ts`、`src/memdir/memoryScan.ts`
  68. 不是所有记忆都适合每次对话。系统使用一个**轻量级 Sonnet 侧查询**来筛选最相关的记忆。
  69. ### 召回流程
  70. ```
  71. 用户消息 → findRelevantMemories(query, memoryDir)
  72. ├── scanMemoryFiles() — 扫描所有记忆文件的 frontmatter
  73. ├── selectRelevantMemories() — Sonnet 侧查询,从清单中选出 ≤5 条
  74. └── 返回 [{path, mtimeMs}, ...]
  75. ```
  76. 核心是 `selectRelevantMemories()` 函数,它调用 `sideQuery()`(一个独立的轻量 API 调用):
  77. ```typescript
  78. // findRelevantMemories.ts:98-121
  79. const result = await sideQuery({
  80. model: getDefaultSonnetModel(), // 用 Sonnet 做筛选(非主模型)
  81. system: SELECT_MEMORIES_SYSTEM_PROMPT,
  82. messages: [{
  83. role: 'user',
  84. content: `Query: ${query}\n\nAvailable memories:\n${manifest}${toolsSection}`
  85. }],
  86. max_tokens: 256,
  87. output_format: { type: 'json_schema', schema: { ... } },
  88. })
  89. ```
  90. ### 近期工具去噪
  91. 当 AI 正在使用某个工具时,召回该工具的使用文档是噪音(对话中已有工作上下文)。`recentTools` 参数让召回系统跳过这些记忆:
  92. ```typescript
  93. // findRelevantMemories.ts:92-95
  94. const toolsSection = recentTools.length > 0
  95. ? `\n\nRecently used tools: ${recentTools.join(', ')}`
  96. : ''
  97. ```
  98. System Prompt 明确指示:"如果已提供最近使用的工具列表,不要选择该工具的使用参考或 API 文档。**仍然要选择**关于这些工具的警告、陷阱或已知问题——这正是使用时最关键的信息。"
  99. ### 已展示去重
  100. `alreadySurfaced` 参数过滤之前轮次已展示过的文件路径,让 Sonnet 的 5 槽预算花在新的候选上,而不是重复召回同一文件。
  101. ## 记忆注入 System Prompt 的链路
  102. 源码路径:`src/memdir/memdir.ts` → `src/context.ts`
  103. `loadMemoryPrompt()` 是记忆注入的入口,每会话调用一次(通过 `systemPromptSection('memory', ...)` 缓存):
  104. ```typescript
  105. // memdir.ts:419-507
  106. export async function loadMemoryPrompt(): Promise<string | null> {
  107. // 优先级:KAIROS 日志模式 → TEAMMEM 组合模式 → 纯自动记忆
  108. if (feature('KAIROS') && autoEnabled && getKairosActive()) {
  109. return buildAssistantDailyLogPrompt(skipIndex)
  110. }
  111. if (feature('TEAMMEM') && teamMemPaths!.isTeamMemoryEnabled()) {
  112. return teamMemPrompts!.buildCombinedMemoryPrompt(...)
  113. }
  114. if (autoEnabled) {
  115. return buildMemoryLines('auto memory', autoDir, ...).join('\n')
  116. }
  117. return null
  118. }
  119. ```
  120. 注入时机:`context.ts` 中 `getSystemContext()` 调用时,记忆 Prompt 作为 system prompt 的一个 section 被组装。`MEMORY.md` 的内容作为 **user context message** 注入(而非 system prompt),这样可以利用 Prompt Cache 的 prefix 共享。
  121. ## KAIROS 模式:每日日志
  122. 源码路径:`src/memdir/memdir.ts`(`buildAssistantDailyLogPrompt`)
  123. 长期运行的 assistant 会话使用不同的记忆策略:
  124. - **标准模式**:AI 维护 `MEMORY.md` 作为实时索引 + 独立记忆文件
  125. - **KAIROS 模式**:AI 只往日期文件追加日志(`logs/YYYY/MM/YYYY-MM-DD.md`),不做重组
  126. ```typescript
  127. // 日志路径模式(非字面路径——因为 Prompt 被缓存)
  128. const logPathPattern = join(memoryDir, 'logs', 'YYYY', 'MM', 'YYYY-MM-DD.md')
  129. ```
  130. 一个独立的夜间 `/dream` 技能负责将日志蒸馏为主题文件 + `MEMORY.md` 索引。
  131. ## 记忆漂移防御
  132. 源码路径:`src/memdir/memoryTypes.ts`(`TRUSTING_RECALL_SECTION`)
  133. 记忆可能过期。系统在 Prompt 中设置了一个专门的 section "Before recommending from memory":
  134. ```
  135. A memory that names a specific function, file, or flag is a claim
  136. that it existed *when the memory was written*. It may have been
  137. renamed, removed, or never merged. Before recommending it:
  138. - If the memory names a file path: check the file exists.
  139. - If the memory names a function or flag: grep for it.
  140. ```
  141. 这个 section 的标题经过 A/B 测试验证:"Before recommending from memory"(行动导向)比 "Trusting what you recall"(抽象描述)效果好(3/3 vs 0/3)。
  142. ### 忽略记忆的严格语义
  143. ```
  144. If the user says to *ignore* or *not use* memory:
  145. proceed as if MEMORY.md were empty.
  146. Do not apply remembered facts, cite, compare against,
  147. or mention memory content.
  148. ```
  149. 这解决了 AI 的一个常见反模式:用户说"忽略关于 X 的记忆",AI 虽然正确识别了代码但仍然加上"不像记忆中说的 Y"——这不是"忽略",而是"承认然后覆盖"。
  150. ## Session Memory 与压缩的联动
  151. 源码路径:`src/services/compact/sessionMemoryCompact.ts`
  152. 记忆系统与上下文压缩有深度集成。当 `tengu_session_memory` 和 `tengu_sm_compact` 两个 feature flag 同时开启时,压缩优先使用 Session Memory 而非传统摘要:
  153. ```typescript
  154. // sessionMemoryCompact.ts:57-61
  155. const DEFAULT_SM_COMPACT_CONFIG = {
  156. minTokens: 10_000, // 压缩后至少保留 10K token
  157. minTextBlockMessages: 5, // 至少保留 5 条文本消息
  158. maxTokens: 40_000, // 最多保留 40K token
  159. }
  160. ```
  161. SM-compact 不调用压缩 API(没有摘要模型),而是直接使用已有的 Session Memory 作为摘要——更快、更便宜、且不会丢失信息。