技能库 569 个
更多分类(194)
vLLM推理引擎调优
配置和优化vLLM的PagedAttention、连续批处理等参数,提升吞吐与延迟
端到端语音识别模型构建
使用PyTorch/TensorFlow搭建基于Transformer或Conformer的端到端ASR系统。
图数据库查询与维护
使用Cypher/SPARQL查询Neo4j等图数据库,并负责索引优化与数据导入导出
模型部署与推理优化
将训练好的强化学习模型导出为ONNX格式并进行推理优化。
NLP数据预处理流水线搭建
设计并实现包括分词、去噪、数据增强等步骤的自动化数据预处理流程,用于NLP模型训练前的数据准备
分布式训练配置
编写DeepSpeed或FSDP配置文件,实现大模型多卡/多节点分布式训练
特征工程自动化
自动化实现特征交叉、embedding聚合、实时特征计算等特征处理流程,提升推荐系统特征工程效率与一致性。
实验管理
使用MLflow或Weights & Biases等工具系统化地跟踪强化学习实验的配置、超参数、指标与模型输出,确保实验可复现与结果可对比。
RAG系统搭建
基于向量数据库和检索算法实现知识增强的问答系统,提升大模型对私有或动态知识的回答准确性与时效性。
GPU kernel launch配置
设置block/grid大小和shared memory,以最大化GPU利用率
模型量化部署(GPTQ/AWQ)
使用GPTQ或AWQ算法对大语言模型进行权重量化,并部署至推理后端(如vLLM、TGI、TensorRT-LLM),以降低显存占用和推理延迟。
推理性能Profiling
使用Nsight、PyTorch Profiler等工具定位推理瓶颈,分析算子耗时与内存。
算法实现与调优
实现 DQN、PPO、SAC 等经典强化学习算法,并针对任务调整超参数以优化性能。
内存池与显存管理
实现高效的内存分配器,避免碎片和重复分配,优化深度学习框架的显存使用
自动微分引擎实现
实现反向传播的自动微分机制,支持动态图和静态图模式,为深度学习框架提供核心梯度计算能力。
FlashAttention算子集成
将FlashAttention算法集成到现有推理框架中,优化长序列下的注意力计算与显存占用。
数据管道构建
使用Airflow或Kubeflow构建自动化ETL流程,确保数据及时、可靠地可用于模型训练和推理
API接口开发与集成
开发RESTful API对接大模型服务,并处理流式/非流式响应,实现高效、稳定的模型调用与结果返回。
召回策略实现
实现协同过滤、向量检索、图召回等多种召回算法并集成到线上系统,保障推荐系统候选集多样性与覆盖度。
模型部署与监控
将机器学习模型封装为API或服务,部署到生产环境,并持续监控性能与数据漂移,确保模型稳定可靠运行
特征存储与版本管理
构建和管理特征库,实现特征一致性及版本回溯
模型推理优化(语音识别)
应用ONNX、TensorRT或量化技术加速语音识别模型推理,降低延迟,提升实时性能。
训练数据Pipeline构建
设计并实现从日志采集、清洗、特征工程到样本生成的自动化数据流,支撑推荐系统模型训练与迭代。
在线推理服务优化
使用C++/Java优化模型serving性能,降低延迟并提高吞吐,适用于推荐系统等大模型在线场景。