tageblatt-headlines
从 https://www.tageblatt.de/ 下载并存档每日 Schlagzeilen。当 Master 请求 TAGEBLATT 头条新闻、希望将其保存在本地或需要自动 07:00 工作流程来获取和转发最新头条新闻时使用。
安装 / 下载方式
TotalClaw CLI推荐
totalclaw install totalclaw:totalclaw~zopyx-tageblatt-headlinescURL直接下载,无需登录
curl -fsSL https://skills.taituai.com/api/skills/totalclaw%3Atotalclaw~zopyx-tageblatt-headlines/file -o zopyx-tageblatt-headlines.md# Tageblatt Headlines
## Überblick
Dieses Skill-Paket lädt die Startseite von **tageblatt.de**, extrahiert die sichtbaren Artikelüberschriften (`<h2 class="article-heading">`), bereinigt sie und speichert sie lokal als Text- oder JSON-Datei. Nutze es für Ad-hoc-Abfragen ("Schlagzeilen jetzt"), tägliche Archive oder automatisierte Benachrichtigungen.
## Quick Start
1. **Headlines ziehen**
```bash
python3 skills/tageblatt-headlines/scripts/fetch_headlines.py \
--limit 15 \
--output data/tageblatt/$(date +%Y-%m-%d)_headlines.txt
```
2. **JSON statt Text** (falls du die Daten weiterverarbeiten willst):
```bash
python3 skills/tageblatt-headlines/scripts/fetch_headlines.py \
--format json --output data/tageblatt/$(date +%Y-%m-%d).json
```
3. Die Skriptausgabe wird zusätzlich auf STDOUT geloggt – perfekt, um die Liste sofort per Telegram zu senden.
## Automatischer 07:00-Job
1. **Cronjob anlegen (lokale Zeit Europe/Berlin):**
```bash
openclaw cron add <<'JSON'
{
"name": "tageblatt-headlines-07",
"schedule": {
"kind": "cron",
"expr": "0 7 * * *",
"tz": "Europe/Berlin"
},
"sessionTarget": "isolated",
"payload": {
"kind": "agentTurn",
"model": "default",
"message": "Run `python3 skills/tageblatt-headlines/scripts/fetch_headlines.py --limit 15 --output data/tageblatt/$(date +%F)_headlines.txt`. Send Master the list via Telegram (bulleted) and mention where the file was saved."
}
}
JSON
```
2. **Automation optionalen Versand hinzufügen:** Nach erfolgreichem Lauf kann derselbe Job eine Telegram-Zusammenfassung verschicken (siehe Payload oben).
3. **Aufbewahrung:** Lege `data/tageblatt/` an und committe Archivdateien, falls sie langfristig gespeichert werden sollen.
## Fehlerbehebung & Hinweise
- Das Skript nutzt nur Standardbibliotheken (`urllib`, `re`). Keine zusätzlichen Pip-Abhängigkeiten nötig.
- Falls Consent-Banner den HTML-Aufbau ändert, prüfe die Regex in `scripts/fetch_headlines.py` (Pattern `HEADING_PATTERN`).
- Bei Netzwerkfehlern gibt das Skript Exit-Code 1 zurück. Cronjobs sollten in diesem Fall automatisch beim nächsten Zyklus erneut laufen.
- Begrenze `--limit`, falls du nur eine kurze Liste brauchst (z. B. Top 5).
## Ressourcen
- `scripts/fetch_headlines.py` – HTTP-Download & Parser für Schlagzeilen (Text/JSON-Ausgabe, limitierbar).
---
## 中文说明
# Tageblatt Headlines
## 概述
该技能包加载 **tageblatt.de** 的首页,提取可见的文章标题(`<h2 class="article-heading">`),对其进行清理,并将其作为文本或 JSON 文件保存在本地。可用于临时查询("现在的头条")、每日存档或自动化通知。
## 快速开始
1. **抓取头条**
```bash
python3 skills/tageblatt-headlines/scripts/fetch_headlines.py \
--limit 15 \
--output data/tageblatt/$(date +%Y-%m-%d)_headlines.txt
```
2. **使用 JSON 而非文本**(如果你想进一步处理数据):
```bash
python3 skills/tageblatt-headlines/scripts/fetch_headlines.py \
--format json --output data/tageblatt/$(date +%Y-%m-%d).json
```
3. 脚本输出还会额外记录到 STDOUT —— 非常适合立即通过 Telegram 发送该列表。
## 自动 07:00 任务
1. **创建 Cron 任务(本地时间 Europe/Berlin):**
```bash
openclaw cron add <<'JSON'
{
"name": "tageblatt-headlines-07",
"schedule": {
"kind": "cron",
"expr": "0 7 * * *",
"tz": "Europe/Berlin"
},
"sessionTarget": "isolated",
"payload": {
"kind": "agentTurn",
"model": "default",
"message": "Run `python3 skills/tageblatt-headlines/scripts/fetch_headlines.py --limit 15 --output data/tageblatt/$(date +%F)_headlines.txt`. Send Master the list via Telegram (bulleted) and mention where the file was saved."
}
}
JSON
```
2. **为自动化添加可选发送:** 成功运行后,同一任务可发送一份 Telegram 摘要(参见上方 payload)。
3. **保留:** 创建 `data/tageblatt/` 目录,如需长期保存,请提交存档文件。
## 故障排查与提示
- 该脚本仅使用标准库(`urllib`、`re`),无需额外的 Pip 依赖。
- 如果同意横幅改变了 HTML 结构,请检查 `scripts/fetch_headlines.py` 中的正则表达式(`HEADING_PATTERN` 模式)。
- 出现网络错误时,脚本返回退出码 1。此时 Cron 任务应在下一个周期自动重新运行。
- 如果你只需要简短列表(例如前 5 条),请限制 `--limit`。
## 资源
- `scripts/fetch_headlines.py` – 用于抓取头条的 HTTP 下载与解析器(文本/JSON 输出,可限制数量)。