wechat-article-extractorlisted
Install: claude install-skill zhuzhaoyun/Molio
# WeChat Article Extractor
提取微信公众号文章内容为结构化 Markdown,保留表格、代码块、图片占位。
## ⚠️ 重要:禁止使用 WebFetch
WebFetch 对 `mp.weixin.qq.com` 会被企业安全策略拦截。**必须**使用本 skill 的 `extract.js` 脚本提取文章内容。
## 使用方法
### 从 URL 提取
```bash
node "<skill_dir>/extract.js" "https://mp.weixin.qq.com/s?__biz=...&mid=...&idx=...&sn=..."
```
其中 `<skill_dir>` 是本 skill 所在目录的绝对路径(即包含此 SKILL.md 的目录)。
### 从本地 HTML 文件提取
```bash
node "<skill_dir>/extract.js" --html /path/to/article.html [source_url]
```
## 输出格式
### 成功(退出码 0)
- **stdout**: Markdown 格式的文章正文(保留表格、代码块、图片占位)
- **stderr**: 一行 JSON 元数据:
```json
{"title":"文章标题","author":"作者","account":"公众号名称","publishTime":"2024/01/15 10:30:00","url":"原始链接","type":"post","chars":12345}
```
### 失败(退出码非 0)
- **stderr**: `[wechat-extractor] ERROR <code>: <错误信息>`
- **退出码含义**:
- `1`: 一般性错误(缺少输入、不支持的链接等)
- `2`: 内容不可用(风控拦截、已删除、已过期、违规等)— **不要重试**,提示用户手动粘贴正文
- `3`: 网络/HTTP 错误 — 可重试 1 次
## 错误码表
| 代码 | 错误信息 | 处理方式 |
|------|----------|----------|
| 1000 | 文章获取失败 | 检查 URL 是否正确 |
| 1001 | 无法获取文章信息 | 页面结构异常 |
| 1002 | 请求失败 | 网络问题,可重试 |
| 1003 | 响应为空 | 网络问题,可重试 |
| 1004 | 访问过于频繁 | 等待后重试或请用户手动粘贴 |
| 1006 | 公众号已迁移 | 自动跟随重定向 |
| 2001 | 请提供文章内容或链接 | 缺少输入 |
| 2002 | 链接已过期 | 请用户提供新链接 |
| 2003 | 内容涉嫌侵权 | 内容不可用 |
| 2005 | 内容已被发布者删除 | 内容不可用 |
| 2006 | 内容因违规无法查看 | 内容不可用 |
| 2009 | 不支持的链接 | 仅支持 mp.weixin.qq.com |
| 2012 | 帐号已被屏蔽 | 内容不可用 |
| 2013 | 帐号已自主注销 | 内容不可用 |
## 与知识库工作流集成
提取成功后,按以下步骤处理:
1. 将 Markdown 正文暂存到 `raw/wechat/YYYY-MM-DD/HHmm-简短标题.md`
2. 在暂存文件头部添加 frontmatter:
```yaml
---