tageblatt-headlines

TotalClaw 作者 totalclaw

从 https://www.tageblatt.de/ 下载并存档每日 Schlagzeilen。当 Master 请求 TAGEBLATT 头条新闻、希望将其保存在本地或需要自动 07:00 工作流程来获取和转发最新头条新闻时使用。

安装 / 下载方式

TotalClaw CLI推荐
totalclaw install totalclaw:totalclaw~zopyx-tageblatt-headlines
cURL直接下载,无需登录
curl -fsSL https://skills.taituai.com/api/skills/totalclaw%3Atotalclaw~zopyx-tageblatt-headlines/file -o zopyx-tageblatt-headlines.md
# Tageblatt Headlines

## Überblick
Dieses Skill-Paket lädt die Startseite von **tageblatt.de**, extrahiert die sichtbaren Artikelüberschriften (`<h2 class="article-heading">`), bereinigt sie und speichert sie lokal als Text- oder JSON-Datei. Nutze es für Ad-hoc-Abfragen ("Schlagzeilen jetzt"), tägliche Archive oder automatisierte Benachrichtigungen.

## Quick Start
1. **Headlines ziehen**
   ```bash
   python3 skills/tageblatt-headlines/scripts/fetch_headlines.py \
     --limit 15 \
     --output data/tageblatt/$(date +%Y-%m-%d)_headlines.txt
   ```
2. **JSON statt Text** (falls du die Daten weiterverarbeiten willst):
   ```bash
   python3 skills/tageblatt-headlines/scripts/fetch_headlines.py \
     --format json --output data/tageblatt/$(date +%Y-%m-%d).json
   ```
3. Die Skriptausgabe wird zusätzlich auf STDOUT geloggt – perfekt, um die Liste sofort per Telegram zu senden.

## Automatischer 07:00-Job
1. **Cronjob anlegen (lokale Zeit Europe/Berlin):**
   ```bash
   openclaw cron add <<'JSON'
   {
     "name": "tageblatt-headlines-07",
     "schedule": {
       "kind": "cron",
       "expr": "0 7 * * *",
       "tz": "Europe/Berlin"
     },
     "sessionTarget": "isolated",
     "payload": {
       "kind": "agentTurn",
       "model": "default",
       "message": "Run `python3 skills/tageblatt-headlines/scripts/fetch_headlines.py --limit 15 --output data/tageblatt/$(date +%F)_headlines.txt`. Send Master the list via Telegram (bulleted) and mention where the file was saved."
     }
   }
   JSON
   ```
2. **Automation optionalen Versand hinzufügen:** Nach erfolgreichem Lauf kann derselbe Job eine Telegram-Zusammenfassung verschicken (siehe Payload oben).
3. **Aufbewahrung:** Lege `data/tageblatt/` an und committe Archivdateien, falls sie langfristig gespeichert werden sollen.

## Fehlerbehebung & Hinweise
- Das Skript nutzt nur Standardbibliotheken (`urllib`, `re`). Keine zusätzlichen Pip-Abhängigkeiten nötig.
- Falls Consent-Banner den HTML-Aufbau ändert, prüfe die Regex in `scripts/fetch_headlines.py` (Pattern `HEADING_PATTERN`).
- Bei Netzwerkfehlern gibt das Skript Exit-Code 1 zurück. Cronjobs sollten in diesem Fall automatisch beim nächsten Zyklus erneut laufen.
- Begrenze `--limit`, falls du nur eine kurze Liste brauchst (z. B. Top 5).

## Ressourcen
- `scripts/fetch_headlines.py` – HTTP-Download & Parser für Schlagzeilen (Text/JSON-Ausgabe, limitierbar).

---

## 中文说明

# Tageblatt Headlines

## 概述
该技能包加载 **tageblatt.de** 的首页,提取可见的文章标题(`<h2 class="article-heading">`),对其进行清理,并将其作为文本或 JSON 文件保存在本地。可用于临时查询("现在的头条")、每日存档或自动化通知。

## 快速开始
1. **抓取头条**
   ```bash
   python3 skills/tageblatt-headlines/scripts/fetch_headlines.py \
     --limit 15 \
     --output data/tageblatt/$(date +%Y-%m-%d)_headlines.txt
   ```
2. **使用 JSON 而非文本**(如果你想进一步处理数据):
   ```bash
   python3 skills/tageblatt-headlines/scripts/fetch_headlines.py \
     --format json --output data/tageblatt/$(date +%Y-%m-%d).json
   ```
3. 脚本输出还会额外记录到 STDOUT —— 非常适合立即通过 Telegram 发送该列表。

## 自动 07:00 任务
1. **创建 Cron 任务(本地时间 Europe/Berlin):**
   ```bash
   openclaw cron add <<'JSON'
   {
     "name": "tageblatt-headlines-07",
     "schedule": {
       "kind": "cron",
       "expr": "0 7 * * *",
       "tz": "Europe/Berlin"
     },
     "sessionTarget": "isolated",
     "payload": {
       "kind": "agentTurn",
       "model": "default",
       "message": "Run `python3 skills/tageblatt-headlines/scripts/fetch_headlines.py --limit 15 --output data/tageblatt/$(date +%F)_headlines.txt`. Send Master the list via Telegram (bulleted) and mention where the file was saved."
     }
   }
   JSON
   ```
2. **为自动化添加可选发送:** 成功运行后,同一任务可发送一份 Telegram 摘要(参见上方 payload)。
3. **保留:** 创建 `data/tageblatt/` 目录,如需长期保存,请提交存档文件。

## 故障排查与提示
- 该脚本仅使用标准库(`urllib`、`re`),无需额外的 Pip 依赖。
- 如果同意横幅改变了 HTML 结构,请检查 `scripts/fetch_headlines.py` 中的正则表达式(`HEADING_PATTERN` 模式)。
- 出现网络错误时,脚本返回退出码 1。此时 Cron 任务应在下一个周期自动重新运行。
- 如果你只需要简短列表(例如前 5 条),请限制 `--limit`。

## 资源
- `scripts/fetch_headlines.py` – 用于抓取头条的 HTTP 下载与解析器(文本/JSON 输出,可限制数量)。