网站地图官方微信:
网站首页 沂涛镇 金平区 安东乡 开元乡 思蒙镇 古玉乡

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | 外省人觉得粤菜真的好吃么? |

    非常好吃。 粤菜里的烧腊 烧鸡烧鸭烧鹅,和广式茶点,在我们柳...

    查看详情>>
  • | 个人开发者或小企业不申请经营性ICP备案,怎样开发APP盈利? |

  • | 为啥 Rust 语言中的动态数组也要叫 Vector? |

  • | 什么样的女主才能叫做「人间尤物」? |

  • | 如何看待特朗普第三次宣布延长出售 Tiktok 的时限?美方此举背后有哪些考量? |

  • | MiniMax Week第三天推出通用 Agent,体验如何?对行业会带来哪些影响? |

  • | 产后修复怎样做才比较好? |

  • | 福特级航母的电磁弹射到底出了什么问题? |

  • | 如何看待Ollama基于Go语言开发而不是别的编程语言? |

  • | duckdb的性能如何? |

  • | 导师给了1.4W要我给工作室买个主机,是整机还是自己配? |

  • 前段时间回国参加了一些活动,还跟一些国内做AI的朋友深入的聊...

    2025-06-20
  • 就在近日,许久不曾现身在大众面前的杨颖因为参加了一场活动而引...

    2025-06-20
  • 有两个核心问题 1,没有大公司的核心业务使用node 2,做...

    2025-06-20
  • 特别注意——谈航向角主要对应的是尾弹仓——航向角好的那几个,...

    2025-06-20

关注我们

添加微信好友,关注最新动态