技能库 569 个
更多分类(194)
算子性能调优
使用汇编、intrinsics或CUDA优化深度学习算子,使其达到硬件峰值性能
知识图谱本体建模
设计并维护知识图谱的概念层次、关系类型和属性约束,使用OWL/RDFS等语言定义模式。
KV Cache量化与稀疏化
对Transformer大模型推理中的Key-Value Cache进行INT8/FP8量化或稀疏化压缩,以降低显存占用并提升推理吞吐量。
模型微调与部署
使用LoRA/QLoRA等技术微调大模型,并打包部署为可调用的API服务
知识图谱运维与监控
部署知识图谱服务,监控数据质量、更新频率和查询性能,处理异常,确保系统稳定高效运行
视觉-文本对齐特征提取
使用CLIP等预训练模型提取图像与文本的对齐特征,用于多模态检索、零样本分类或跨模态相似度计算。
Python-C++接口绑定
使用pybind11或Cython封装C++核心功能,为深度学习框架提供高性能Python API
知识融合与实体对齐
解决不同数据源中实体冲突问题,实现实体链接、同义词合并和冲突消解,确保知识图谱的一致性与准确性。
推理加速与性能优化
应用vLLM、TensorRT等主流技术,系统性地降低大模型推理延迟并提高吞吐量,适用于大模型应用开发中的服务部署与性能调优。
实体关系抽取
利用规则或深度学习模型从非结构化文本中提取实体和关系,构建三元组,支撑知识图谱构建与大模型知识增强。
性能评估与可视化
使用TensorBoard等工具可视化训练曲线并评估策略性能。
多模态模型评估指标计算
计算多模态模型的准确率、F1分数、召回率等分类指标,并针对多模态场景(如视觉-语言任务)处理不平衡数据集
NLP与知识图谱集成
将BERT、GPT等语言模型与知识图谱结合,用于构建智能问答、语义搜索与推理系统。
训练脚本编写
编写可复用的强化学习训练循环脚本,集成日志记录与模型保存功能,适用于大模型与智能体训练场景。
分布式训练通信优化
针对深度学习框架中的集合通信(AllReduce、AllGather等)进行优化,减少同步开销,提升大规模分布式训练效率。
跨模态注意力机制实现
在Transformer中实现并调试跨模态注意力层,处理图像与文本的交互。
模型训练与超参数调优
使用PyTorch/TensorFlow等框架训练模型,并通过网格搜索等方法系统性地优化超参数,提升模型性能。
动态批处理策略实现
设计请求排队与合并机制,最大化GPU利用率和吞吐
排序模型训练与调优
使用TensorFlow/PyTorch训练并优化Wide&Deep、DeepFM等排序模型,提升推荐系统点击率与转化率。
计算图IR设计与转换
定义深度学习计算图的中间表示(IR),并实现图优化pass(如常量折叠、算子融合),用于提升模型推理效率和框架可扩展性。
数据预处理与增强
清洗、标注、增强训练数据以适配大模型训练或微调,提升数据质量与多样性。
量化与稀疏化工具链
集成INT8/FP16量化或稀疏化算子,支持模型压缩,提升推理效率并降低存储成本。
多智能体系统实现
实现多智能体强化学习算法(如MADDPG、QMIX)并进行协同训练,适用于多智能体协作或竞争场景。
模型评估与验证
设计交叉验证方案,计算准确率、召回率、AUC等指标,分析过拟合与欠拟合