markitdownlisted
Install: claude install-skill iamtatsuki05/dotfiles
# MarkItDown
## Overview
MarkItDown(Microsoft製)を使って、PDF・Word・PowerPoint・Excel・HTML・画像・URL など多様なソースを Markdown テキストに変換するスキル。
## インストール確認と手順
まず `markitdown` が利用可能かを確認する。
```bash
markitdown --version
```
**インストールされていない場合:**
インストールは環境変更を伴うため、ユーザーに確認してから実行する。OCR・音声文字起こしが必要な場合だけ `[all]` を検討する。
```bash
# 標準インストール(PDF・Word・Excel・HTML 等に対応)
pip install markitdown
# 全形式サポート(画像OCR・音声文字起こし等を含む)
pip install 'markitdown[all]'
```
> `pip` が使えない場合は `pip3` または `python3 -m pip` を使用する。
## 対応フォーマット
| フォーマット | 備考 |
|---------------------------|--------------------------------------------|
| PDF (`.pdf`) | テキスト抽出 |
| Word (`.docx`) | テキスト・見出し構造を保持 |
| PowerPoint (`.pptx`) | スライドごとにセクション化 |
| Excel (`.xlsx`, `.csv`) | テーブル形式で変換 |
| HTML (`.html`, URL) | ページコンテンツを抽出 |
| 画像 (`.png`, `.jpg` 等) | `[all]` インストール時に OCR で文字抽出 |
| 音声 (`.mp3`, `.wav` 等) | `[all]` インストール時に文字起こし |
| Jupyter Notebook (`.ipynb`) | セルとアウトプットを変換 |
| JSON / XML | 構造化テキストとして変換 |
| ZIP | 内包ファイルを一括変換 |
## 使い方
### CLI での変換
```bash
# 基本(標準出力)
markitdown input.pdf
# ファイルに保存
markitdown input.pdf -o output.md
# URL を変換
markitdown https://example.com
# パイプ経由
cat input.pdf | markitdown
```
### Python API での変換
```python
from markit