rag-chunking-strategy

Solid

Document chunking with multiple strategies including semantic, recursive, and fixed-size chunking

AI & Automation 814 stars 53 forks Updated today MIT

Install

View on GitHub

Quality Score: 93/100

Stars 20%

Recency 20%

100

Frontmatter 20%

Documentation 15%

Issue Health 10%

License 10%

100

Description 5%

100

Skill Content

# RAG Chunking Strategy Skill ## Capabilities - Implement multiple document chunking strategies - Configure semantic chunking based on content boundaries - Set up recursive character text splitting - Design fixed-size chunking with overlap - Implement document-aware chunking (markdown, code, etc.) - Optimize chunk sizes for retrieval quality ## Target Processes - rag-pipeline-implementation - chunking-strategy-design ## Implementation Details ### Chunking Strategies 1. **RecursiveCharacterTextSplitter**: Hierarchical splitting with separators 2. **SemanticChunker**: Embedding-based semantic boundaries 3. **TokenTextSplitter**: Token-aware splitting 4. **MarkdownHeaderTextSplitter**: Structure-aware markdown splitting 5. **CodeSplitter**: Language-aware code chunking ### Configuration Options - Chunk size (characters or tokens) - Chunk overlap percentage - Separator hierarchy - Embedding model for semantic chunking - Document type detection ### Best Practices - Match chunk size to embedding model limits - Use appropriate overlap for context preservation - Test retrieval quality with different strategies - Consider document structure in strategy selection ### Dependencies - langchain-text-splitters - sentence-transformers (for semantic chunking)

Details

Author: a5c-ai
Repository: a5c-ai/babysitter
Created: 4 months ago
Last Updated: today
Language: JavaScript
License: MIT

Integrates with

LangChain · AI

Related Skills

AI & Automation Featured

videodb

See, Understand, Act on video and audio. See- ingest from local files, URLs, RTSP/live feeds, or live record desktop; return realtime context and playable stream links. Understand- extract frames, build visual/semantic/temporal indexes, and search moments with timestamps and auto-clips. Act- transcode and normalize (codec, fps, resolution, aspect ratio), perform timeline edits (subtitles, text/image overlays, branding, audio overlays, dubbing, translation), generate media assets (image, audio, video), and create real time alerts for events from live streams or desktop capture.

196,640 Updated 2 days ago

affaan-m

AI & Automation Featured

ck

Persistent per-project memory for Claude Code. Auto-loads project context on session start, tracks sessions with git activity, and writes to native memory. Commands run deterministic Node.js scripts — behavior is consistent across model versions.

196,640 Updated 2 days ago

affaan-m

AI & Automation Featured

browser

Web browser automation with AI-optimized snapshots for claude-flow agents

55,973 Updated today

ruvnet