网站地图官方微信:
网站首页 尚志镇 肖港镇 柏梓镇 仁沙镇 文山市 拉多乡

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | 大家的NAS都是24小时不关机吗? |

    从黑群到群晖到威联通到华硕到极空间,十多年了,简单分享吧。 ...

    查看详情>>
  • | 买到烂尾楼到底该有多绝望? |

  • | 如何评价字节跳动开源的 HTTP 框架 Hertz ? |

  • | 如何看待伊朗最高领袖哈梅内伊 6 月 18 日发布“必须强力打击以色列,永不妥协”的声明? |

  • | 中国的歼35A可以吊打十架韩国的KF21吗? |

  • | Rust的设计缺陷是什么? |

  • | DF-41已经可以打击美国本土,这是否相当于古巴导弹危机常态化? |

  • | postgresql也很强大,为何在中国大陆,mysql成为主流,postgresql屈居二线呢? |

  • | HTTP/3 解决了什么问题,又引入了什么新问题? |

  • | 如何看待 2026QS 世界大学排名? |

  • | 如何客观评价李小冉的长相? |

  • 如何选择你的 Golang 后端开发框架引言与 J***a ...

    2025-06-20
  • 似乎目前的通用Agent都是同样的路数: 单个模型或多个模型...

    2025-06-20
  • 最新刚好入手一台 mackbook写了一下工具安装记录,插楼...

    2025-06-20
  • 10人网络运维小团队,用django自带视图和form+my...

    2025-06-20

关注我们

添加微信好友,关注最新动态