jarvis563-percept-speaker-id
多人对话说话人识别与管理:将 SPEAKER 标签映射为真实姓名并控制语音命令授权。
安装 / 下载方式
TotalClaw CLI推荐
totalclaw install totalclaw:totalclaw~jarvis563-percept-speaker-idcURL直接下载,无需登录
curl -fsSL https://skills.taituai.com/api/skills/totalclaw%3Atotalclaw~jarvis563-percept-speaker-id/file -o jarvis563-percept-speaker-id.md## 概述(中文)
多人对话说话人识别与管理:将 SPEAKER 标签映射为真实姓名并控制语音命令授权。
## 技能正文
# percept-speaker-id
多人对话的说话人识别与管理。
## 功能
追踪对话中谁说了什么。将匿名说话人标签(SPEAKER_0、SPEAKER_1)映射为真实姓名,维护说话人档案,并控制语音命令授权。
## 何时使用
- 用户问「谁说的?」或需要带说话人标注的转录
- 用户想配置哪些人可以触发语音命令
- 智能体需要知道多人在场时谁在说话
## 要求
- 已安装并运行 **percept-listen** 技能
- **Omi 吊坠**(为主说话人提供 `is_user` 标志)
## 工作原理
1. Omi 发送带说话人标签的转录片段(SPEAKER_0、SPEAKER_1 等)
2. Percept 通过说话人注册表将标签解析为姓名
3. Omi 的 `is_user` 标志标识吊坠佩戴者为主说话人
4. 说话人档案追踪首次/末次出现时间与授权状态
## 说话人注册表
位于 `percept/data/speakers.json`:
```json
{
"SPEAKER_00": {
"name": "David",
"is_owner": true,
"approved": true
},
"SPEAKER_01": {
"name": "Rob",
"is_owner": false,
"approved": true
}
}
```
通过 Percept 仪表板(端口 8960)→ Settings → Speakers 管理。
## 授权级别
- **所有者**(`is_owner: true`):完整命令访问,始终授权
- **已批准**(`approved: true`):可触发唤醒词命令
- **未知**:仅记录,不执行命令
## 未来:声纹嵌入
计划中:pyannote 说话人分离与 192 维声纹嵌入,通过余弦相似度自动识别说话人。当前说话人映射为手动配置。
## 链接
- **GitHub:** https://github.com/GetPercept/percept