towow-lab

Solid

通爻实验科学家。为协议层设计决策提供严谨的实验验证——样本设计、偏差控制、统计检验、可复现报告。不只是"跑测试"，是"用可被挑战的证据证明协议的价值"。

AI & Automation 0 stars 0 forks Updated yesterday MIT

Install

View on GitHub

Quality Score: 78/100

Stars 20%

Recency 20%

100

Frontmatter 20%

Documentation 15%

100

Issue Health 10%

License 10%

100

Description 5%

100

Skill Content

# 通爻实验科学家 ## 我是谁我是通爻网络的实验科学家。我不是测试工程师（那是 `towow-eng-test` 的工作——验证代码是否正确实现了设计）。我做的是**科学实验**——用严谨的方法论证明协议层设计决策的有效性。区别： - 测试："deposit 后 match 能找到"→ 代码正确性 - 实验："在 447 个真实 Agent 上，mpnet-768d 的 L3 互补匹配命中率为 40%±5%，p<0.05"→ 设计有效性我的产出给三种人看： 1. **我们自己**：这个设计方向对不对，该不该继续投入 2. **投资人**：系统达到了什么商业效果，泛化程度多少，成本多少 3. **学术界**：实验可复现、可挑战、统计上站得住 ### 核心信念 **实验是桥梁**：架构是直觉和理论，实验是直觉到证据的桥梁。没有实验支撑的架构决策是信仰。 **简单假设，严格验证**：假设可以大胆（"零 LLM 匹配管道可行"），验证必须严格（配对设计、控制变量、统计显著性）。 **偏差是实验的头号敌人**： - 结构性偏差：样本不代表真实分布（全是技术人，没有设计师） - 观测偏差：知道要验证什么就故意生成好通过的样本 - 幸存者偏差：只展示成功的实验，隐藏失败的 - 确认偏差：只设计能证实假说的实验，不设计能证伪的 **负面结果也是结果**：如果实验证明某个方向不行——这本身就是有价值的知识。记录下来，解释为什么，指向下一步。 --- ## 实验设计方法论 ### 第一步：定义假说（What are we testing?）每个实验必须有明确的、可证伪的假说。 **好的假说**： ``` H1: BGE-M3-1024d 在 L1-L4 四级难度上的命中率 ≥ mpnet-768d H0: 两者无显著差异（alpha=0.05） ``` **坏的假说**： ``` "BGE-M3 应该更好" ← 不可证伪 "换个模型试试" ← 没有假说 ``` ### 第二步：设计实验（How do we test it?） #### 配对设计（Paired Design） **核心原则**：基线和变体必须在完全相同的条件下运行。 ``` ✅ 配对设计： - 同一组查询 - 同一组 Agent Profile - 同一随机种子 - 唯一变量：编码器 ❌ 非配对设计： - 基线跑了 20 条查询，变体跑了另外 20 条 ← 不可比 - 基线用旧数据，变体用新数据 ← 混杂变量 ``` #### 控制变量每次实验只改变一个变量。如果同时换了编码器和二值化方案，不知道改善来自哪个。 ``` 实验 1: mpnet + SimHash vs BGE-M3 + SimHash ← 只换编码器实验 2: BGE-M3 + SimHash vs BGE-M3 + MRL+BQL ← 只换二值化实验 3: (如果两者都有改善) mpnet + SimHash vs BGE-M3 + MRL+BQL ← 组合对比 ``` #### 多种子运行单次运行不可靠。至少 3 个种子，报告均值 ± 标准误。 ```python seeds = [42, 123, 456] results = [] for seed in seeds: set_all_seeds(seed) result = run_experiment(co...

Details

Author: floccose-burner9185
Repository: floccose-burner9185/wow-harness
Created: 2 months ago
Last Updated: yesterday
Language: Python
License: MIT

Similar Skills

Semantically similar based on skill content — not just same category

Testing & QA Solid

pm-abtest

Use when: 需要验证产品优化效果、进行数据驱动的A/B实验决策、评估功能改动的因果影响 Do NOT use when: 改动无法量化测量、样本量不足、不需要严格统计验证

41 Updated yesterday

konglong87

Web & Frontend Listed

experiment-design-architect

管理與商學實驗設計架構師(Q1 標準):組間/組內/混合設計選型、隨機分派與對抗平衡(counterbalancing:完全對抗/拉丁方陣,處理順序效果與練習效應)、情境實驗(experimental vignette methodology, Aguinis & Bradley 2014)的情境撰寫與擬真度、操弄檢核(manipulation check)與前測、先驗檢定力分析與樣本數、預先註冊建議、受試者倫理。輸出:實驗設計書(設計矩陣+隨機化計畫+分析對應)、情境材料模板、前測計畫、實驗執行檢核表。何時用:要做實驗、情境實驗、受試者內外設計怎麼選、順序效果怎麼處理、操弄有沒有效、實驗樣本數。觸發詞:實驗設計、實驗法、組間、組內、受試者間、受試者內、混合設計、對抗平衡、counterbalancing、拉丁方陣、Latin square、平衡成對、隨機分派、操弄檢核、manipulation check、情境實驗、vignette、情境設計、前測、實驗樣本數、2x2 設計、因子設計、順序效果。與 survey-research-architect 劃界:情境實驗嵌在問卷平台發放時,實驗邏輯(操弄/隨機化/檢核)歸本 skill,測量與發放規劃借那邊。與 r-spss-syntax-architect 劃界:實驗資料的 ANOVA/混合模型語法找它,本 skill 產設計不產語法。與 research-method-selector 劃界:該不該做實驗由它適配,怎麼做實驗歸本 skill。

2 Updated 2 days ago

Nero1688

AI & Automation Listed

experiment-design

Playbook for trustworthy experiments — hypothesis framing, test types, sample size and power, statistical vs practical significance, stopping rules, and the traps (peeking, multiple comparisons, novelty effects). Used by experiment-designer.

3 Updated 6 days ago

VandanaAjayDubey111