bigdata-processinglisted

Core big data processing toolkit for data teams. Includes Polars, Dask, Vaex for large-scale data processing, ETL pipelines, and distributed computing. Use when working with datasets larger than memory, building data pipelines, or optimizing data processing performance.
MARUCIE/openclaw-foundry · ★ 1 · Data & Documents · score 65

Install: claude install-skill MARUCIE/openclaw-foundry

# Big Data Processing Toolkit ## Overview 大数据团队核心处理工具集，包含高性能DataFrame库和分布式计算框架。 ## Quick Reference | 工具 | 场景 | 数据规模 | |------|------|----------| | **Polars** | 单机高性能分析 | GB级 | | **Dask** | 分布式/超内存处理 | TB级 | | **Vaex** | 超大文件惰性处理 | 100GB+ | ## 选择指南 ``` 数据大小判断: ├── < 10GB → Polars (最快) ├── 10GB - 100GB → Polars (streaming) 或 Dask ├── > 100GB → Dask (分布式) └── 超大单文件 → Vaex (内存映射) 任务类型: ├── 简单ETL → Polars ├── 复杂管道 → Dask ├── 交互分析 → Vaex └── 机器学习 → Dask + Dask-ML ``` ## 子Skills - `polars/` - 高性能DataFrame，替代Pandas - `dask/` - 分布式计算框架 - `vaex/` - 大规模数据惰性处理 - `exploratory-data-analysis/` - 探索性数据分析 - `statistical-analysis/` - 统计分析方法 - `zarr-python/` - 分块数组存储 ## 常用模式 ### ETL Pipeline (Polars) ```python import polars as pl # 读取 -> 转换 -> 写入 ( pl.scan_csv("raw/*.csv") .filter(pl.col("status") == "valid") .with_columns( pl.col("amount").cast(pl.Float64), pl.col("date").str.to_datetime() ) .group_by("category") .agg(pl.col("amount").sum()) .collect() .write_parquet("output/summary.parquet") ) ``` ### 分布式处理 (Dask) ```python import dask.dataframe as dd from dask.distributed import Client client = Client() # 启动本地集群 ddf = dd.read_parquet("data/*.parquet") result = ddf.groupby("key").agg({"value": "sum"}).compute() ``` ### 超大文件分析 (Vaex) ```python import vaex df = vaex.open("huge_file.hdf5") # 不加载到内存 df.mean(df.column) # 惰性计算 ``` ## 性能最佳实践 1. **文件格式**: Parquet > CSV (10x faster) 2. **惰性计算**: 使用 `scan_*` 而非 `read_*` 3. **列选择**: 尽