pauldelavallaz-tiktok-clipper
TikTok 视频剪辑与高光提取:下载、切片与字幕生成工作流。
安装 / 下载方式
TotalClaw CLI推荐
totalclaw install totalclaw:totalclaw~pauldelavallaz-tiktok-clippercURL直接下载,无需登录
curl -fsSL https://skills.taituai.com/api/skills/totalclaw%3Atotalclaw~pauldelavallaz-tiktok-clipper/file -o pauldelavallaz-tiktok-clipper.md## 概述(中文)
TikTok 视频剪辑与高光提取:下载、切片与字幕生成工作流。
## 技能正文
# TikTok Clipper — 视频 → 带字幕的爆款短片
## 功能简介
接收一段长视频,对其进行转录,识别出最适合 TikTok/Reels 的精彩片段,使用 ffmpeg 剪辑出来,并添加 TikTok 风格的动画字幕。
## 使用场景
- 用户发送视频并希望生成 TikTok/Reels 短片
- 用户要求 "clip this"(剪辑这段)、"find viral moments"(找出爆款时刻)、"cut for TikTok"(为 TikTok 剪辑)
- 用户希望为视频片段添加字幕
## 处理流程
### 步骤 1:转录
```bash
# Transcribe with Whisper (word-level timestamps)
python3 SKILL_DIR/transcribe.py --input VIDEO_PATH --output TRANSCRIPT.json
```
使用 OpenAI Whisper API,配合 `timestamp_granularities=["word","segment"]` 以实现精确的字幕计时。
### 步骤 2:分析并推荐片段
阅读转录文本,识别出可能在 TikTok 上表现良好的片段:
- **钩子(Hooks)**:有力的开场白、煽动性的陈述、提问
- **价值炸弹(Value bombs)**:关键洞见、令人惊讶的事实、可操作的技巧
- **情绪高潮(Emotional peaks)**:热情、幽默、强烈的观点
- **故事弧线(Story arcs)**:有头有尾的完整小故事
- **争议/辩论(Controversy/debate)**:能引发评论的两极化观点
将片段以编号选项的形式呈现,并包含:
- 时间范围(起始 → 结束)
- 时长
- 钩子台词(第一句话)
- 它为何可能成为爆款
- 建议的文案
由用户选择要剪辑哪些。
### 步骤 3:剪辑片段
```bash
python3 SKILL_DIR/clip.py --input VIDEO_PATH --start MM:SS --end MM:SS --output CLIP.mp4
```
- 使用 ffmpeg 进行重新编码以实现干净的剪切
- 必要时转换为 9:16 竖屏(裁剪或填充)
- 确保 TikTok 兼容格式(h264、aac、mp4)
### 步骤 4:添加 TikTok 风格字幕
```bash
python3 SKILL_DIR/subtitles.py --input CLIP.mp4 --transcript TRANSCRIPT.json --start SS --end SS --style STYLE --output FINAL.mp4
```
#### 可用的字幕样式:
1. **bold-center**:白色粗体文字、黑色描边、居中于底部三分之一处(经典 TikTok 风格)
2. **word-highlight**:逐词高亮,黄色/绿色(类似 CapCut 自动字幕)
3. **karaoke**:当前词放大 + 变色(Alex Hormozi 风格)
4. **box**:带彩色背景框的文字(MrBeast 风格)
所有样式均通过 ffmpeg 使用 ASS(Advanced SubStation Alpha)实现丰富的排版效果。
### 步骤 5:竖屏格式
如果源视频为横屏(16:9),自动裁剪为 9:16:
- 对口播人物进行居中裁剪
- 或采用模糊背景填充(视频缩小居中,模糊填满)
## 文件输出
所有输出文件均保存到 `/home/ubuntu/clawd/clips/`,命名规则为:`{source}-clip{N}-{style}.mp4`
## 环境要求
- `ffmpeg`(已安装)
- 用于 Whisper 的 OpenAI API 密钥(位于 .env)
- 源视频文件
## 注意事项
- TikTok 最大时长:90 秒以获得最佳表现
- 最佳区间:30-60 秒
- 始终以钩子开场(前 3 秒最为关键)
- 字幕最多 2 行,每行约 5-7 个词