技能库 569 个
更多分类(194)
语音数据增强
应用噪声注入、速度扰动、音量调整等技术扩充训练数据,增强语音识别模型鲁棒性。
领域知识库构建与融合
从结构化或非结构化数据中抽取领域实体和关系,构建知识库并融入NLP模型,提升模型在特定领域的理解与推理能力。
分布式训练调度
使用PyTorch DDP或DeepSpeed配置多GPU/多节点分布式训练,涵盖数据并行、模型并行和混合精度训练,确保高效、稳定地利用计算资源。
数据预处理与增强
对图像、文本或数值数据进行清洗、归一化、数据增强(如随机裁剪、翻转、掩码等)操作,生成训练/验证/测试集。
实验跟踪与结果记录
使用MLflow等工具系统性地记录机器学习实验参数、指标和模型,确保实验可复现、可比较、可追溯。
推理部署与优化
将训练好的模型导出为ONNX/TensorRT格式,并实现服务化部署(如Flask/FastAPI),优化推理延迟和吞吐量。
多模态特征融合
设计并实现文本、图像、音频等多模态数据的特征提取与融合策略(如注意力融合、拼接、门控机制),用于提升多模态任务性能。
Wav2Vec2模型微调
使用预训练的Wav2Vec2模型在特定领域数据上进行微调,提升语音识别准确率。
序列标注模型构建
构建CRF、BiLSTM-CRF或Transformer-based序列标注模型,用于命名实体识别(NER)等序列标注任务。
模型评估与调优
使用准确率、召回率、F1、AUC等指标评估模型性能,并实施超参数搜索(网格搜索、贝叶斯优化)以提升效果。
训练日志分析与调参
解析大模型训练日志,根据loss曲线、梯度范数等指标动态调整学习率、batch size等超参数,提升训练效率与模型性能。
指令微调数据集构建
设计并生成高质量指令-回答对,用于监督微调
模型压缩与量化
应用剪枝、知识蒸馏、量化(INT8/FP16)等技术减小模型体积,降低计算资源消耗,适用于AI算法工程师在部署大模型时的优化任务。
文本分类模型训练
使用BERT、RoBERTa等预训练模型进行文本分类任务的微调训练
模型评估与基准测试
在MMLU、HumanEval等标准基准上对大型语言模型进行性能评估,并生成结构化的对比报告。
数据清洗与预处理
使用脚本工具对文本数据进行去重、过滤低质量内容、格式统一等操作,为大模型训练提供高质量数据集。
实验日志与版本管理
使用MLflow、Weights & Biases等工具记录实验参数、指标和模型版本,并实现结果对比与回溯。