The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 дней работы"
Версия для распечатки Пред. тема | След. тема
Форум Разговоры, обсуждение новостей
Исходное сообщение [ Отслеживать ]
Заметили полезную информацию ? Пожалуйста добавьте в FAQ на WIKI.
. "Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 д..." +/
Сообщение от Аноним (276), 09-Июн-23, 08:57 
> L3-да, здоровый. А L1 так себе (у того же Zen2 - ~20-25%
> от ядра L1I/L1D вместе).

Вселенная умеет прикалываться, так что даже маловероятные вещи сильно отличаются от невозможных. Если шанс что вон та штука сегодня сломается 1 на миллион, если у нас только 1 девайс, мы можем не дожить до его кончины. Но может и помереть, буквально завтра, столь же валидно. А если поставить парк из миллиона, в среднем каждый день будет что-то ломаться. А иногда и пару в день.

> Плюс эта шляпа (L1) в тех же зенах например использует не типовое
> питание SRAM, а питание самого ядра,

Что есть "типовое питание SRAM"? Системный SDRAM? Он не SRAM, он DRAM. И питание у него свое, регламентированое стандартом. А кеш почти часть ядра проца, он близко к нему и логично что питается от того же Vcore с общем случае. А то что совсем наружу чипа - через трансляторы уровней, конечно. Даже современные микроконтроллеры норовят Vcore сильно ниже IO делать, просто потому что работать на высоком Vcore крайне неэффективно по энергии.

> может выдавать сюрпризы, и отчасти поэтому там и приляпан ECC.

ECC в процовых кешах не новая тема и точно появился задолго до рязаней и эпиков. Я так понимаю что это частично помогает детектить бракованые чипы заодно еще производителю.

> Именно в этом и фигня. VRM не осилил, проскочила отрицательная пульсация.

Там конденсаторов немеряно, как она проскочит? И на мамке, и даже на самом проце по Vcore. Настолько по детски сейчас производители мамок имхо не лажаются. Да и раньше не лажали. И единственный способ что-то такое увидеть который я знаю это опухшие электролиты, когда они свою функцию перестают выполнять. При этом глюки быстро прогрессируют - проблемные электролиты греются еще сильнее и процесс кончины самоускоряется. Но в современных мамках с полимерами и нормальным охлаждением вокруг сокетов оно сильно менее актуально.

> но эта совершенно не исключена.

Хызы, ни разу не видел факапы такого плана именно раз в эн лет. И если что-то работало на грани, оно обычно ппри прогреве начинает весьма заметно и относитель но часто глюкать.

Скажем упомянутый проц пойманый btrfs на холодную считал ок но если минут 10 прогрузить в полку, достаточно часто флипал биты, btrfs раз в несколько минут орал csum failed. А при менее полной нагрузке системы - нагрева могло и не хватить для дестабилизации.

Там на самом деле фокус в том что электрические параметры чипов не совсем одинаковые. Повторяемость не 100% 1 в 1. Оттуда же и разблюддовка по частотам, самые отборные кристаллы идут как самые топовые и высокочастотные, у них изначально margins самые большие. Остальнму скидывают частоты и повторяют тесты еще раз, и так несколько раз, получая разные модели. Иногда могут отключать дефектные блоки еще, чтобы не выкидывать чип совсем а продать как более скромный по ядрам/кешу/частотам/etc. А китайцы этим вообще не парятся, вот вам RAW выхлоп фабы и в мане "до 2.5ГГц" - а сколько конкретный чип потянет без дестабилизации сами и замеряйте :)

Ответить | Правка | Наверх | Cообщить модератору

Оглавление
Ошибка в CPU AMD EPYC 7002 приводит к зависанию после 1044 дней работы, opennews, 03-Июн-23, 19:04  [смотреть все]
Форумы | Темы | Пред. тема | След. тема



Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру