要不是13/14代最近这波大面积不稳定的事情,大家都不知道原来有那么多公司拿大小核当服务器用hhhhhhhhhhhh。
目前看来问题的根源已经基本上锁定了,大概率是ring/cache有silicon bug,就算最后确认了,微码修复大概率也是不可能的,只能靠新步进,跟Zen 3初期有异曲同工之妙了。
逻辑链也很简单:
12代没问题/Xeon没问题:说明不是工艺问题,实际上用Co互联的Intel 7抗电迁移性能反而是优于用eCu的Intel 4的。
12代没问题:说明不是大小核/小核的问题
12900KS没问题,13700K/14700K这些问题显著少于13900K/14900K:说明不是超频或者高温的问题,或者肯定不是主因
部分U关小核能解决稳定性问题:说明可能和ring的压力有关,只有full die的13900K/14900K集中出问题也暗示了这一点。
12/13代缓存和ring配置不一样,尤其是E核。
报错的类型惊人的一致:如果是超频带来的不稳定性,通常情况下错误的概率模型不会集中在某一类上。这暗示错误和特定的ISA/缓存操作可能有关系。
最后是一个细节,就是出错的服务器在报错前会突然出现tick rate减半的情况,显然这不是突然降频,能影响处理器速度到这种程度的显然是存储子系统了。
目前看来问题的根源已经基本上锁定了,大概率是ring/cache有silicon bug,就算最后确认了,微码修复大概率也是不可能的,只能靠新步进,跟Zen 3初期有异曲同工之妙了。
逻辑链也很简单:
12代没问题/Xeon没问题:说明不是工艺问题,实际上用Co互联的Intel 7抗电迁移性能反而是优于用eCu的Intel 4的。
12代没问题:说明不是大小核/小核的问题
12900KS没问题,13700K/14700K这些问题显著少于13900K/14900K:说明不是超频或者高温的问题,或者肯定不是主因
部分U关小核能解决稳定性问题:说明可能和ring的压力有关,只有full die的13900K/14900K集中出问题也暗示了这一点。
12/13代缓存和ring配置不一样,尤其是E核。
报错的类型惊人的一致:如果是超频带来的不稳定性,通常情况下错误的概率模型不会集中在某一类上。这暗示错误和特定的ISA/缓存操作可能有关系。
最后是一个细节,就是出错的服务器在报错前会突然出现tick rate减半的情况,显然这不是突然降频,能影响处理器速度到这种程度的显然是存储子系统了。