还有好奇这里的ring中命令到后续单元的调度问题。compute ring只是compute shader相关的命令流,而gfx ring里有vertex shader,pixel shader各种相关的命令流。实际gfx ring在后续调度中是否会拆为多个队列来达到更高的并行性呢?如果vs ps在一个队列中,处理第一个三角形vs到光栅化完后才能分配第一个三角形后续ps给core,这段时间第二个三角形vs被阻塞(gfx ring中数据为vs1-ps1-vs2-ps2),这样设计应该不太合理core的利用率不高