bigdata-processinglisted
Install: claude install-skill MARUCIE/openclaw-foundry
# Big Data Processing Toolkit
## Overview
大数据团队核心处理工具集,包含高性能DataFrame库和分布式计算框架。
## Quick Reference
| 工具 | 场景 | 数据规模 |
|------|------|----------|
| **Polars** | 单机高性能分析 | GB级 |
| **Dask** | 分布式/超内存处理 | TB级 |
| **Vaex** | 超大文件惰性处理 | 100GB+ |
## 选择指南
```
数据大小判断:
├── < 10GB → Polars (最快)
├── 10GB - 100GB → Polars (streaming) 或 Dask
├── > 100GB → Dask (分布式)
└── 超大单文件 → Vaex (内存映射)
任务类型:
├── 简单ETL → Polars
├── 复杂管道 → Dask
├── 交互分析 → Vaex
└── 机器学习 → Dask + Dask-ML
```
## 子Skills
- `polars/` - 高性能DataFrame,替代Pandas
- `dask/` - 分布式计算框架
- `vaex/` - 大规模数据惰性处理
- `exploratory-data-analysis/` - 探索性数据分析
- `statistical-analysis/` - 统计分析方法
- `zarr-python/` - 分块数组存储
## 常用模式
### ETL Pipeline (Polars)
```python
import polars as pl
# 读取 -> 转换 -> 写入
(
pl.scan_csv("raw/*.csv")
.filter(pl.col("status") == "valid")
.with_columns(
pl.col("amount").cast(pl.Float64),
pl.col("date").str.to_datetime()
)
.group_by("category")
.agg(pl.col("amount").sum())
.collect()
.write_parquet("output/summary.parquet")
)
```
### 分布式处理 (Dask)
```python
import dask.dataframe as dd
from dask.distributed import Client
client = Client() # 启动本地集群
ddf = dd.read_parquet("data/*.parquet")
result = ddf.groupby("key").agg({"value": "sum"}).compute()
```
### 超大文件分析 (Vaex)
```python
import vaex
df = vaex.open("huge_file.hdf5") # 不加载到内存
df.mean(df.column) # 惰性计算
```
## 性能最佳实践
1. **文件格式**: Parquet > CSV (10x faster)
2. **惰性计算**: 使用 `scan_*` 而非 `read_*`
3. **列选择**: 尽