jarvis563-percept-speaker-id

TotalClaw 作者 totalclaw

多人对话说话人识别与管理：将 SPEAKER 标签映射为真实姓名并控制语音命令授权。

安装 / 下载方式

TotalClaw CLI推荐

totalclaw install totalclaw:totalclaw~jarvis563-percept-speaker-id

cURL直接下载，无需登录

curl -fsSL https://skills.taituai.com/api/skills/totalclaw%3Atotalclaw~jarvis563-percept-speaker-id/file -o jarvis563-percept-speaker-id.md

## 概述（中文）

多人对话说话人识别与管理：将 SPEAKER 标签映射为真实姓名并控制语音命令授权。

## 技能正文

# percept-speaker-id

多人对话的说话人识别与管理。

## 功能

追踪对话中谁说了什么。将匿名说话人标签（SPEAKER_0、SPEAKER_1）映射为真实姓名，维护说话人档案，并控制语音命令授权。

## 何时使用

- 用户问「谁说的？」或需要带说话人标注的转录
- 用户想配置哪些人可以触发语音命令
- 智能体需要知道多人在场时谁在说话

## 要求

- 已安装并运行 **percept-listen** 技能
- **Omi 吊坠**（为主说话人提供 `is_user` 标志）

## 工作原理

1. Omi 发送带说话人标签的转录片段（SPEAKER_0、SPEAKER_1 等）
2. Percept 通过说话人注册表将标签解析为姓名
3. Omi 的 `is_user` 标志标识吊坠佩戴者为主说话人
4. 说话人档案追踪首次/末次出现时间与授权状态

## 说话人注册表

位于 `percept/data/speakers.json`：

```json
{
  "SPEAKER_00": {
    "name": "David",
    "is_owner": true,
    "approved": true
  },
  "SPEAKER_01": {
    "name": "Rob",
    "is_owner": false,
    "approved": true
  }
}
```

通过 Percept 仪表板（端口 8960）→ Settings → Speakers 管理。

## 授权级别

- **所有者**（`is_owner: true`）：完整命令访问，始终授权
- **已批准**（`approved: true`）：可触发唤醒词命令
- **未知**：仅记录，不执行命令

## 未来：声纹嵌入

计划中：pyannote 说话人分离与 192 维声纹嵌入，通过余弦相似度自动识别说话人。当前说话人映射为手动配置。

## 链接

- **GitHub:** https://github.com/GetPercept/percept