Research
未读
大模型显存占用分析:训练与推理
作为大模型时代的研究者,尽管我们做的是一些下游任务,我认为也有必要了解一些更加底层的基础知识。 基于此出发点,本文将简单讨论如下主题: LLM训练时的显存占用分析。 KV Cache LLM推理时的显存占用分析。 LLM训练时的显存占用分析 在分析显存占用前,需要明确数据的存储精度:float32占
Research
未读
DL数学原理:香农熵、交叉熵、KL散度
DeepSeek-R1最近刷屏全网,与之相随的是有关大模型强化学习的学习热潮。在大模型的强化学习中,有一个概念经常被提及——KL散度。正好最近复习了一下香农熵、交叉熵、KL散度的概念,将他们串在一起将更有利于理解KL散度。 信息量:小概率事件的信息量更大。用-log可以表示这层关系。 熵(香农熵):
Research
未读
如何构建高质量代码相关基准数据集
最近读了一篇聚焦“如何构建代码相关基准数据集”的论文,对研究人员来说,绝对是一份实用指南,特此分享。 参考文章:How Should I Build A Benchmark? Revisiting Code-Related Benchmarks For LLMs 作者:香港科技大学博士Jialun