jarvis563-percept-speaker-id

TotalClaw 作者 totalclaw

多人对话说话人识别与管理:将 SPEAKER 标签映射为真实姓名并控制语音命令授权。

安装 / 下载方式

TotalClaw CLI推荐
totalclaw install totalclaw:totalclaw~jarvis563-percept-speaker-id
cURL直接下载,无需登录
curl -fsSL https://skills.taituai.com/api/skills/totalclaw%3Atotalclaw~jarvis563-percept-speaker-id/file -o jarvis563-percept-speaker-id.md
## 概述(中文)

多人对话说话人识别与管理:将 SPEAKER 标签映射为真实姓名并控制语音命令授权。

## 技能正文

# percept-speaker-id

多人对话的说话人识别与管理。

## 功能

追踪对话中谁说了什么。将匿名说话人标签(SPEAKER_0、SPEAKER_1)映射为真实姓名,维护说话人档案,并控制语音命令授权。

## 何时使用

- 用户问「谁说的?」或需要带说话人标注的转录
- 用户想配置哪些人可以触发语音命令
- 智能体需要知道多人在场时谁在说话

## 要求

- 已安装并运行 **percept-listen** 技能
- **Omi 吊坠**(为主说话人提供 `is_user` 标志)

## 工作原理

1. Omi 发送带说话人标签的转录片段(SPEAKER_0、SPEAKER_1 等)
2. Percept 通过说话人注册表将标签解析为姓名
3. Omi 的 `is_user` 标志标识吊坠佩戴者为主说话人
4. 说话人档案追踪首次/末次出现时间与授权状态

## 说话人注册表

位于 `percept/data/speakers.json`:

```json
{
  "SPEAKER_00": {
    "name": "David",
    "is_owner": true,
    "approved": true
  },
  "SPEAKER_01": {
    "name": "Rob",
    "is_owner": false,
    "approved": true
  }
}
```

通过 Percept 仪表板(端口 8960)→ Settings → Speakers 管理。

## 授权级别

- **所有者**(`is_owner: true`):完整命令访问,始终授权
- **已批准**(`approved: true`):可触发唤醒词命令
- **未知**:仅记录,不执行命令

## 未来:声纹嵌入

计划中:pyannote 说话人分离与 192 维声纹嵌入,通过余弦相似度自动识别说话人。当前说话人映射为手动配置。

## 链接

- **GitHub:** https://github.com/GetPercept/percept