Конференция работает на сервере Netberg

Radeon.ru

Конференция Radeon.ru

Страница 4 из 7 [ Сообщений: 255 ]  Версия для печати [+] На страницу Пред.  1, 2, 3, 4, 5, 6, 7  След.
Показать сообщения за  Поле сортировки  
X2
Ему бы еще RDIMM-800 или сразу DDR3 :)
Цена DDR3, в противовес цене самого CPU? :no:
А если б они JEDEC на reg DDR2-800 "развели" то да... :)

У настоящих мачо теперь АСР (АМД)
ага и похоже своей цели они достигли ;) — бегло просмотрев что это означает я ... так и не понял :( :)
Господа, а не кажется ли вам, что безумная гонка ядер на сокет — совсем-совсем не обеспечивается адекватным приростом ПС оперативной памяти... :oops: И не дутые ли это все величины получаются, по тестам-то... :spy: А то что-то у меня сомнений вагон в способности двух каналов DDR2 обеспечить четыре ядра так, чтобы они не застаивались...
Stranger_NN
совсем-совсем не обеспечивается адекватным приростом ПС оперативной памяти...
Дык как раз в Барселоне обещают примерно полуторакратное (!) увеличение реальной ПСП (при той же теоретической).

А то что-то у меня сомнений вагон в способности двух каналов DDR2 обеспечить четыре ядра так, чтобы они не застаивались...
Ну, это сильно зависит от того, что с этими данными делать. Если просто перегонять из одного места в другое — конечно, двух каналов не хватит. А если много считать — то вполне может и хватать.

Скажем так: при том, что четырехъядерные Хеон-ы сидят на еще более жестком пайке (реальном, а не теоретическом, с теорией все хорошо), им все равно в большинстве случаев хватает.
matik, ты знаешь, насчет большинства случаев... Не все так гладко. Огромное количество задач, и в первую очередь большие БД и "научный счет" — таки упираются в память. Более всего ситауция сейчас мне напоминает времена, когда новые процессоры вынуждены были работать с PC 133. Т.е., новые камни прирост, конечно дают, но он существенно ниже того, что можно было бы получить, подрастай память пропорционально..

Дык как раз в Барселоне обещают примерно полуторакратное (!) увеличение реальной ПСП (при той же теоретической).
С чего бы? В чудеса я уже давно не верю. Процентов 20-25 — еще туда-сюда, но 50? :oops: :no: И, к тому же, число ядер удвоится... Что даже при полуторократном повышении производительности памяти даст СНИЖЕНИЕ доступной одному отдельно взятому ядру полосы пропускания. А на подходе 8-16 ядерные решения, с ними-то как быть? :spy:

Нет, без адекватных изменений в подсистеме памяти — это тоже тупиковый путь.
Stranger_NN
С чего бы? В чудеса я уже давно не верю. Процентов 20-25 — еще туда-сюда, но 50?
Угу. Причем они даже поясняют, почему так получается. Во-первых, в новом режиме (2 х 64 вместо 1 х 128) работает контроллер памяти. Во-вторых, лучше работают префетчеры. В-третьих, лучше работа с уже открытыми страницами, и рефрешем.
В-четвертых, больше буферы записи и чтения.

Результат — примерно 150% реально достижимой ПСП.
Конечно, посмотрим на реальном продукте — но, в принципе, предварительно можно верить. Как ты помнишь, Оптероны под Сокет F имели отнюдь не высокую степень утилизации пропускной способности DDR2.

И, к тому же, число ядер удвоится... Что даже при полуторократном повышении производительности памяти даст СНИЖЕНИЕ доступной одному отдельно взятому ядру полосы пропускания. А на подходе 8-16 ядерные решения, с ними-то как быть?
Нет, без адекватных изменений в подсистеме памяти — это тоже тупиковый путь.

Адекватный — это какой? Десяток шин по 64 бита? Это, конечно, круто — но слишком дорого.
Им же нужно баланс между стоимостью и производительностью соблюдать.
Перейдут на DDR3, потом на DDR4...

Господа, а не кажется ли вам, что безумная гонка ядер на сокет — совсем-совсем не обеспечивается адекватным приростом ПС оперативной памяти... :oops: И не дутые ли это все величины получаются, по тестам-то... :spy: А то что-то у меня сомнений вагон в способности двух каналов DDR2 обеспечить четыре ядра так, чтобы они не застаивались...

ПСП Барселоны@2.0GHz минимум процентов на 30 выше ПСП К8@2.8GHz.
сравниваем
http://www.amd.com/us-en/Processors/Pro ... 98,00.html
и
http://www.amd.com/us-en/Processors/Pro ... 24,00.html

Да и по шкалируемости отдельных подтестов SPEC fp rate то же видно.

В общем, на данный момент двухсокетные Барселоны вполне сбалансированы по подсистеме памяти.

А вот четырехсокетные --- IMHO уже нет. Но там скорее всего не узкие каналы RAM, а snoop-ы мешают достижению высокой ПСП.
Должно "лечиться" HT3.0
Кстати, когда выходят платформы с HT3?
X2
У настоящих мачо теперь АСР (АМД), а не TDP (Интел) :D

Исходя из того, что у Интела реальное потребление превышало TDP, весьма вероятно что
АСР (АМД) == TDP (Интел)
Warrax
А если б они JEDEC на reg DDR2-800 "развели" то да...
Так ведь планируется в сл. году.

бегло просмотрев что это означает я ... так и не понял
ACP = Core(х)+MC+HT.
АМД от TDP не отказывается, оно служит для разработчиков железа — макcимально закладываемый (теоретический) параметр.

Stranger_NN
А на подходе 8-16 ядерные решения, с ними-то как быть?
Так у АМД на подходе G3MX (ДДР3), призванный отчасти решить проблему ПС.

vadiml
Исходя из того, что у Интела реальное потребление превышало TDP, весьма вероятно что
АСР (АМД) == TDP (Интел)

Если грубо подходить, то примерно так и выглядит, только при этом к Интел-платформе надо еще приплюсовать TDP NB.
matik

Угу. Причем они даже поясняют, почему так получается. Во-первых, в новом режиме (2 х 64 вместо 1 х 128) работает контроллер памяти. Во-вторых, лучше работают префетчеры. В-третьих, лучше работа с уже открытыми страницами, и рефрешем. В-четвертых, больше буферы записи и чтения.
Ну вот разве что префетчеры интересны, мне думается, что основной вклад они дадут. Остальное, как мне кажется, — на уровне нескольких процентов вклад дадут..

Как ты помнишь, Оптероны под Сокет F имели отнюдь не высокую степень утилизации пропускной способности DDR2.
Да, там откровенно не очень. :( Ну так и ядер было поменьше..

Да и опять же, смотри: Положим, увеличили мы ПСП на 50%. Хорошо. Но при этом делим достигнутое уже не на 2, а на 4, что дает нам 37,5 "условных единиц" ПСП в пересчете на ядро, что заметно меньше 50 "у.е." у двухъядерника предыдущего поколения.

Видишь ли, для неухудшения положения дел с т.з. масштабируемости, — нужно при переходе с двух ядер на четыре удвоить эффективную ПСП (при равной "прожорливости" ядра по памяти), но это уже за пределами самых смелых мечтаний, тем более, что производительность и отдельного ядра будет выше, чем у предыдущего поколения.

Перейдут на DDR3, потом на DDR4...
Угу.. Только число ядер будет тоже в 2-4 раза больше.. И пошли по кругу.

Адекватный — это какой? Десяток шин по 64 бита? Это, конечно, круто — но слишком дорого.
Мне, было дело, понравилась идея FB-DIMM. Там можно было относительно просто по количеству ног очень сильно увеличить ПСП. Жаль, что идея не пошла. :(

---
P.S. Заметьте, мои сомнения относятся в абсолютно одинаковой степени ко всем много-многоядерникам. Что АМД, что Интел..
P.P.S. Я совсем не считаю новый процессор ненужным, но мне кажется, что есть уже некоторые проблемы, которые в лоб решить не получится.

P.S. Заметьте, мои сомнения относятся в абсолютно одинаковой степени ко всем много-многоядерникам. Что АМД, что Интел..
P.P.S. Я совсем не считаю новый процессор ненужным, но мне кажется, что есть уже некоторые проблемы, которые в лоб решить не получится.

Не, проблема собственно ПСП сейчас совсем не такая острая как лет 8 назад.
Если подходить чисто формально, то во времена поздних P-III с частотой ~1GHz при потенциальной возможности исполнения 3 инструкций за такт (3Gops) предельная ПСП ограничивалась 800MB/sec, т.е. <0.3 байта/операцию.
У Барселоны те же 0.3 байта/операцию будут лишь на 3GHz, а пока что 24Gops при предельной ПСП 10.7GB/sec (>0.4).

Но главное не в этом, а в том, что за это время софтовые алгоритмы эволюционировали в сторону увеличения локальности данных, ну и накристальный кэш соответственно увеличился на порядок. То есть запас именно по ПСП для множества актуальных алгоритмов еще пока имеется в несколько раз.
Зато многоядерность рождает новые проблемы, ранее несущественные не только для одно-, но и для мало- процессорных систем.
Сейчас IMHO две самых актуальных это проблема обработки избыточных снуповых запросов и доступ к локальным (особенно измененным) данным чужого ядра. Обе они связаны с обеспечением кэш-когерентности и проявляются в основном в 4-8 (у Intel уже и 2-)-сокетных системах именно как снижение эффективной достижимой ПСП.
VLev

Если подходить чисто формально, то во времена поздних P-III с частотой ~1GHz при потенциальной возможности исполнения 3 инструкций за такт (3Gops) предельная ПСП ограничивалась 800MB/sec, т.е. <0.3 байта/операцию.
У Барселоны те же 0.3 байта/операцию будут лишь на 3GHz, а пока что 24Gops при предельной ПСП 10.7GB/sec (>0.4).

Хех.. Ну так там уже был затык, процессоры меняли, а производительность реальная почти не росла во многих случаях. AMD Socket А системы помните? Как они страдали, когда с SDRAM PC133 работать приходилось — не забыли? :D Как мучались P4 на SDRAM (это вообще было НЕЧТО!). Там довольно забавные были вещи, зачастую, процессор меньшей частоты на DDR оказывался быстрее старшего, приколоченного на SDRAM.

Переход на новую память и без изменения процессора сразу же давал заметный прирост.. А несколькими годами спустя — старшие модели квадропней нормально (эффективно) смогли жить только уже на двухканальной DDR, на одноканальной проку было не очень.

Так вот, помимо этого, пример, который вы привели — несколько некорректен. Потому что при увеличении ПСП (при переходе SDRAM-DDR-DDRII) — латентность уменьшалась куда как медленнее, чем росла ПСП. Поэтому лобовой пересчет в байт/операция не очень показателен.

Но главное не в этом, а в том, что за это время софтовые алгоритмы эволюционировали в сторону увеличения локальности данных, ну и накристальный кэш соответственно увеличился на порядок. То есть запас именно по ПСП для множества актуальных алгоритмов еще пока имеется в несколько раз.
Мне кажется, что просто кэши выросли быстрее, чем типичная локальность, вот и создалось ПОКА такое впечатление, что запас на порядок. И, опять же, далеко не все задачи смирно сидят себе в своей локальности, есть целый класс задач, активно лопающих память. Запас, конечно, еще есть, но.... Я вот никак не вижу удвоения реальной ПСП при переходе с DDR II на DDR III... А ведь ядер-то будет вдвое больше, да и сами ядра тоже подрастут. Вот и смотрите.

Сейчас IMHO две самых актуальных это проблема обработки избыточных снуповых запросов и доступ к локальным (особенно измененным) данным чужого ядра. Обе они связаны с обеспечением кэш-когерентности и проявляются в основном в 4-8 (у Intel уже и 2-)-сокетных системах именно как снижение эффективной достижимой ПСП.
Это отдельная тема, я до нее еще и не дотрагивался. :D Это еще одна и очень суровая проблема.
VLev

>Если подходить чисто формально, то во времена поздних P-III с частотой ~1GHz при потенциальной возможности исполнения 3 инструкций за такт (3Gops) предельная ПСП ограничивалась 800MB/sec, т.е. <0.3 байта/операцию.

Так ведь там наложилось много обстоятельств. Устаревший i440BX, обрезанный и тормознутый i815, глючной и тормознутый i820, запоздавший i840. Впрочем, даже несмотря на это Пней-3 около 1ГГц под 100МГц шину было выпущено в несколько раз меньше, чем под 133МГц шину, а это уже 1066МБ/с теоретической пропускной. Всё же главным ограничивающим фактором той архитектуры была именно системная шина. Благодаря ей тот же Пень-3 с RDRAM (i840) или DDR SDRAM (VIA Apollo Pro 266) против SDRAM (i440BX) оказывался ненамного быстрее. Быстрый S-cache "коппермайнов" и "туалатинов" много чего компенсировал.

Stranger_NN

>AMD Socket А системы помните? Как они страдали, когда с SDRAM PC133 работать приходилось — не забыли?

У Атлонов ситуация была получше из-за их шины S2K. Но с SDRAM PC133 могли работать лишь поделки VIA от KX133 до KT133A, в которых контроллеры памяти были тупо склонированы с Apollo Pro 133\133A без учёта особенностей микроархитектуры Атлонов. Но дешёвыми были до невозможности. AMD Irongate поздних ревизий имел гораздо лучшие показатели, но был недёшев, горяч и плохо масштабировался по частоте, вследствие чего вскоре был искусственно убран с рынка. Впрочем, как для первой собственно амдэшной логики получилось очень неплохо, дебют засчитан.

VLev
Так вот, помимо этого, пример, который вы привели — несколько некорректен. Потому что при увеличении ПСП (при переходе SDRAM-DDR-DDRII) — латентность уменьшалась куда как медленнее, чем росла ПСП. Поэтому лобовой пересчет в байт/операция не очень показателен.

Совершенно верно, не показателен! Теперь учтем латентность ;) .
Будем считать среднюю латентность "load-to-use" 120нс. В случае случайного доступа (без префетча) запросивщее данные ядро будет все эти 120нс простаивать (а это уже для 2GHz совсем не мало --- 240 тактов). Еще хуже то, что для одноядерного процессора большую часть времени из этих 120нс будет простаивать и шина памяти, т.к. собственно пересылка данных по ней происходит за ~6нс (64байта/(10ГБ/сек)). А вот для многоядерного (а еще лучше --- многопоточного) за это время к данным в памяти может обратиться другой поток. В результате для чисто случайного доступа максимально эффективно может использовать шину памяти только 16-20 поточный процессор.
Этот факт, кстати, Sparc T2 (Rock) демонстрирует, судя по SUN-овским тестам.
В общем, с учетом латентности, многоядерные процессоры могут использовать шину памяти более эффективно.

Впрочем, даже несмотря на это Пней-3 около 1ГГц под 100МГц шину было выпущено в несколько раз меньше, чем под 133МГц шину, а это уже 1066МБ/с теоретической пропускной. Всё же главным ограничивающим фактором той архитектуры была именно системная шина. Благодаря ей тот же Пень-3 с RDRAM (i840) или DDR SDRAM (VIA Apollo Pro 266) против SDRAM (i440BX) оказывался ненамного быстрее.

Эээ, я имел в виду i440BX с его, вероятно, искусственным, ограничением на 100MHz SDRAM.
VLev, минутку... А разве латентность у нас складывается только из латентности ячеек памяти? А как же передача сигналов управления на частоте в разы меньшей частоты передачи данных? :confused: Множественные ядра тут не упрутся со своими запросами? Тут ведь как — 2-4 ядра еще куда ни шло, но 8-16 по моей оценке таки упрутся и тут. И будет затык глобальный.

У 440BX ограничение в сто мегагерц — точно искусственное. До 133 его раскручивали неоднократно. :oops: Сам делал.

P.S. Кстати, даже при 100% утилизации ПСП двух каналов DDR II — каждому ядру из четырех достанется все равно меньше, чем при двух ядрах на сокет... :oops: И никакое чередование запросов картину не изменит.

минутку... А разве латентность у нас складывается только из латентности ячеек памяти? А как же передача сигналов управления на частоте в разы меньшей частоты передачи данных?

Да, конечно, в реальности все сложнее моей простой схемы. И предельная эффективность обычно не достигается, ну так она и раньше не часто достигалась...


Множественные ядра тут не упрутся со своими запросами? Тут ведь как — 2-4 ядра еще куда ни шло, но 8-16 по моей оценке таки упрутся и тут. И будет затык глобальный.

Потенциально, чем больше ядер --- тем более эффективно контроллер памяти может оптимизировать порядок обработки запросов.
В барселоне как раз какие-то шаги к этому сделаны вроде.
http://theinq.com/?article=42293 — круто :D
VLev

Да, конечно, в реальности все сложнее моей простой схемы. И предельная эффективность обычно не достигается, ну так она и раньше не часто достигалась...
А даже если и достигнуть 100% использования ПСП — то все равно этого не хватит. Будет все равно хуже чем сейчас, и с ростом производительности ядер — все хуже и хуже. Новым многоядерным процессорам нужны совсем другие подсистемы памяти.

Потенциально, чем больше ядер --- тем более эффективно контроллер памяти может оптимизировать порядок обработки запросов.
В барселоне как раз какие-то шаги к этому сделаны вроде.
С одной стороны — безусловно, да. А с другой... С другой см. п.1. :oops:

Ivan Andreevich, с одной стороны, опять же, логично, а с другой — такая масштабируемость достижима только при совершенно непересекающихся задачах. Фактически, это получится слабосвязанный кластер. Если же эти "ноды" будут более-менее активно взаимодействовать, то о 100% масштабируемости придется забыть.


Кстати, решение проблемы кэш-когерентности в многоядерных системах, возможно, лежит в области программирования, а не аппаратостроения. Мне кажется, что современные системы должны уже вполне понимать, на чем они работают, и организовывать процессы так, чтобы обеспечить минимальное взаимное влияние. :oops:

Новым многоядерным процессорам нужны совсем другие подсистемы памяти.

Да, конечно. Собственно, как и в процессорных шинах, требуется переход от низкочастотных параллельных к высокочастотным последовательным с буферизацией данных и масштабируемым числом каналов.
Собственно, http://www.theinquirer.net/default.aspx?article=34412
VLev, я ж говорю, FB-DIMM — недооцененная технология с огромным потенциалом, о чем неоднократно говорили большевики.

Возможно, у АМД есть туз в рукаве, но я что-то его не просматриваю..

Возможно, у АМД есть туз в рукаве, но я что-то его не просматриваю..

Упс, я не ту ссылку дал. Вот эта правильная:
http://www.hothardware.com/News/More_AM ... ls_Emerge/
VLev, ага, я это знаю. Меня смущают слова "DRAM interface". Сколько там ножек-то, в этом интерфейсе? :spy: На рисунке — восемь каналов.... :oops:

ИДЕЯ хороша, безусловно, но в практическую реализацию восьмиканальной памяти я верю, почему-то, с большим трудом. И если в безумно дорогих серверах даже готов допустить, то в массовых платформах — ну никак.

Я скучный человек, сразу в схемотехнику и физику все перевожу. :gigi:

Единственное что может быть хоть как-то похоже на правду — так это вынесение G3MX, присоединяемых узкими каналами за пределы кристалла, куда-то поближе к разъемам памяти. В таком случае мы получаем этакий "распределенный северный мост", что тоже не кажется мне самым разумным вариантом. Хотя — это, разумеется, и дешевле и удобнее, чем то, что в FB-DIMM. Но вот материнка такая будет недешевой..

И, опять же, в отличие от FB-DIMM, данная технология закрепляет тип памяти (DDR III), в то время, как FB-DIMM оставляет простор для маневров.
Stranger_NN
я ж говорю, FB-DIMM — недооцененная технология с огромным потенциалом
Угу, как и Рамбус. "Гладко было на бумаге, да забыли про овраги" ©
Греется оно. Сильно. До 12Вт на модуль (!).

Единственное что может быть хоть как-то похоже на правду — так это вынесение G3MX, присоединяемых узкими каналами за пределы кристалла, куда-то поближе к разъемам памяти
Разумеется, именно так и будут делать, это вполне разумно.

Но вот материнка такая будет недешевой..
Подорожает из-за четырех маленьких микросхем на борту? Крайне, крайне значительное удорожание :)
Не думаю, что цена как-то существенно изменится.

И, опять же, в отличие от FB-DIMM, данная технология закрепляет тип памяти (DDR III), в то время, как FB-DIMM оставляет простор для маневров.
Вообще-то никто не мешает заменить стоящие за G3MX модули на другой тип, лишь бы эти G3MX поддерживали — все ровно так же, как и в АМВ для FB DIMM.
В теории.
На практике АМВ тоже НЕ поддерживают никаких других типов, кроме DDR2.
Так что обе технологии в абсолютно одинаковом состоянии: обеспечить поддержку других типов можно, но это никому нафиг не нужно :)
matik

Угу, как и Рамбус. "Гладко было на бумаге, да забыли про овраги" ©
Греется оно. Сильно. До 12Вт на модуль (!).
Знаю. А ничего так, что этот нагрев контроллера памяти, который ранее сидел (для АМД) в процессоре? Т.е., процессор стал кушать меньше, как минимум на 12 ватт.. :D

На самом деле немного не так, конечно, и проектная норма не та у модулей, что у процессора и все такое. Но идея такая...

Подорожает из-за четырех маленьких микросхем на борту? Крайне, крайне значительное удорожание
Не думаю, что цена как-то существенно изменится.
Длинная высокочастотная разводка. Причем более широкая, чем для FB-DIMM. Да и почему ты решил, что это маленькие (и дешевые) микросхемы? Сколько у них ножек-то? У каждой? А? А ведь их четыре.. :oops:

Вообще-то никто не мешает заменить стоящие за G3MX модули на другой тип, лишь бы эти G3MX поддерживали — все ровно так же, как и в АМВ для FB DIMM.
В теории.
На практике АМВ тоже НЕ поддерживают никаких других типов, кроме DDR2.
Извини, как ты поменяешь тип памяти? :spy: У G3MX вшита подержка управления логикой DDR III. И все.. А у FB-DIMM — заметь, на самом модуле — можно поменять контроллер и соответственно, саму память.. Поменял модуль — заменил тип памяти. :-p
Stranger_NN
Знаю. А ничего так, что этот нагрев контроллера памяти, который ранее сидел (для АМД) в процессоре?
Ты не прав ;) В процессоре АМД контроллер кушает 6Вт, причем он АДЫН. Каждый модуль DDR2 ест по 6Вт.
В контроллере Интел контроллер ест порядка 10Вт, и при этом КАЖДЫЙ МОДУЛЬ FB DIMM ест по 12Вт (!) — потому что на каждом модуле FB DIMM сидит АМВ, кушающий 6Вт персонально.

Так вот, расплата за FB — эти самые АМВ на каждый модуль.

Длинная высокочастотная разводка. Причем более широкая, чем для FB-DIMM.
Длинная высокочастотная разводка уже давно (!) освоена для НТ и PCI-E, ничего нового там нет. Что касается "более широкая, чем для FB DIMM — то, по-моему, ты что-то путаешь. У одного 13 линий в одну сторону и 17 в другую, у другого что-то вроде 17 и 24. Чуть шире, но никаких принципиальных отличий не видно.

Извини, как ты поменяешь тип памяти? :spy: У G3MX вшита подержка управления логикой DDR III
Да так же и поменяю. Что помешает тебе зашить в G3MX ДВА метода управления? :) Флеш подорожал, что ли? :) Тем более, что DDR3 от DDR2 отличается аж поддержкой пары дополнительных команд :)
Другими словами, я более чем уверен, что нет никаких сложностей в создании G3MX, которые смогут поддерживать ДВА типа памяти. А то и вообще программируемых (!).

А у FB-DIMM — заметь, на самом модуле — можно поменять контроллер и соответственно, саму память.. Поменял модуль — заменил тип памяти
А заодно каким-то чудом заменил разъемы на плате, да? :D Или они сами собой поменялись? :)
В реальности смена типа памяти ВСЕ РАВНО влечет за собой смену платформы. Так за что боремся? :)
matik

Ты не прав
:lol: Давай считать.

Так вот, расплата за FB — эти самые АМВ на каждый модуль.
6 ватт на модуль (6, заметь, не 12). Хорошо. Но ты не забыл, что чипсеты делаются по немного другой проектной норме? Я про интел и его 10 ватт... Так вот, мне кажется, что реализованный по процессорной норме контроллер канала FBDIMM кушал бы заметно меньше шести ватт. Просто в силу того, что там меньше транзисторов. :oops: И часть нагрева мы бы преспокойно вынесли из процессора. А выполнив микросхему AMB по хорошей проектной норме — и там бы с 6 до 2-3 ватт просели бы.

Длинная высокочастотная разводка уже давно (!) освоена для НТ и PCI-E, ничего нового там нет. Что касается "более широкая, чем для FB DIMM — то, по-моему, ты что-то путаешь. У одного 13 линий в одну сторону и 17 в другую, у другого что-то вроде 17 и 24. Чуть шире, но никаких принципиальных отличий не видно.
Да? Что-то мне другой помнится. Проверюсь.

Кроме того, есть еще одна особенность: у FBDIMM при увеличении количества модулей увеличивается заполнение канала. У системы на G3MX заполнение канала определяется параметрами памяти. Т.е., при одном модуле на канал все равно что использовать, а при более чем одном — FBDIMM начинают постепенно выигрывать.

Да так же и поменяю. Что помешает тебе зашить в G3MX ДВА метода управления?
Несовпадение микросхем по ножкам? :spy: Ты не находишь, что это никаким флэшем не скомпенсировать? :oops:

А заодно каким-то чудом заменил разъемы на плате, да? Или они сами собой поменялись?
А зачем? Информационные ноги в канале у нас одни и те же. Разъем можно не менять, он все равно чисто механическое крепление. Вся индивидуальность технологии памяти обрабатывается в микросхеме AMB, какая разница с т.з. канала какая память на модуле?

В реальности смена типа памяти ВСЕ РАВНО влечет за собой смену платформы. Так за что боремся?
За то, чтобы уйти от этой практики, разумеется. :D
Stranger_NN
6 ватт на модуль (6, заметь, не 12)
Илья, читай внимательней ;) 6Вт на АМВ, 12Вт на модуль :)

Но ты не забыл, что чипсеты делаются по немного другой проектной норме? Я про интел и его 10 ватт...
65нм в данный момент, и те, и другие.

Так вот, мне кажется, что реализованный по процессорной норме контроллер канала FBDIMM кушал бы заметно меньше шести ватт
Не, не кушал бы. Если не лень, подыми даташиты на интеловские чипсеты за несколько поколений.

А выполнив микросхему AMB по хорошей проектной норме — и там бы с 6 до 2-3 ватт просели бы.
Не выйдет. АМВ — сильноточное устройство, и там переход на более мелкий техпроцесс не сильно помогает. Да и производят их сейчас по вполне современным 90нм, чего уж там.

Несовпадение микросхем по ножкам?
Выводы данных совпадают, а выводы управления МОЖНО стандартизовать (напомню, что АМД проталкивала в JEDEC версию DDR3, которая совпадает по разводке с DDR2, но не смогла перебороть в этом вопросе Интел). Другое дело, будут ли этим заниматься? Этого я заранее не знаю.

А зачем? Информационные ноги в канале у нас одни и те же. Разъем можно не менять, он все равно чисто механическое крепление. Вся индивидуальность технологии памяти обрабатывается в микросхеме AMB, какая разница с т.з. канала какая память на модуле?
Формально — никакой. На практике разъемы для FB DIMM сделаны для FB DIMM на базе DDR2, и для следующей технологии их наверняка поменяют. Более чем уверен.
Неоднократно уже это происходило.

За то, чтобы уйти от этой практики, разумеется.
Цель благородная, но недостижимая :) Потому что вступает в противоречие с интересами крупнейших производителей материнских плат, чипсетов, и тому подобных смежников.
Так что ничего не изменится ;)
VLev

>Эээ, я имел в виду i440BX с его, вероятно, искусственным, ограничением на 100MHz SDRAM.

Там не столько ограничение, сколько недоработка. Поддержку делителя PCI/FSB в 1/4 сделали, а вот поддержки делителя AGP/FSB в 1/2 не было, только 1/1 и 2/3. Соответственно, при системной шине в 133МГц шина AGP бегала на 89МГц, что однозначно означало откат на 1х и неважную совместимость. Я предпочитал гонять свой Abit BX6 на 117МГц с сохранением 2х и хороших таймингов памяти (2-2-2). Тем не менее, и в этом случае i440BX оказывался быстрее i815 со 133МГц шиной и памятью. Правда, последний умел AGP 4x и ATA66, но i440BX принимал вдвое больше памяти.

>Да, конечно, в реальности все сложнее моей простой схемы. И предельная эффективность обычно не достигается, ну так она и раньше не часто достигалась...

Случаи, конечно, бывают разные. Например, на Sledgehammer с реестровой 128-битной DDR SDRAM 2-3-2 при non-temporal чтении из памяти эффективная пропускная составила 94-97% от теоретической (зависит от размера блока, который коррелирует с производительностью подсистемы виртуальной памяти). И это на одном ядре.

http://www.alasir.com/software/ramspeed ... 8t800.html
matik

Илья, читай внимательней 6Вт на АМВ, 12Вт на модуль
Хмм. А что мне с потребления микросхем? Оно что так, что эдак — неизбежный компонент. :oops:

65нм в данный момент, и те, и другие.
Хм. Тогда, извини, каким образом Интел ухитряется на меньшей частоте иметь 10 ватт, когда у АМД на большей — 6? :spy: Что-то не сходится..

Не, не кушал бы. Если не лень, подыми даташиты на интеловские чипсеты за несколько поколений.
Займусь, пожалуй.. :oops:

Не выйдет. АМВ — сильноточное устройство, и там переход на более мелкий техпроцесс не сильно помогает. Да и производят их сейчас по вполне современным 90нм, чего уж там.
А с какой радости оно сильноточное получается?? :eek: Это с одной стороны. А с другой, если оно так, то с какой радости будет слаботочным G3MX? Тем более, что там, где AMB обслуживает только свои микросхемы, — G3MX должно, по картинке, обслуживать несколько модулей... :oops:

Выводы данных совпадают, а выводы управления МОЖНО стандартизовать (напомню, что АМД проталкивала в JEDEC версию DDR3, которая совпадает по разводке с DDR2, но не смогла перебороть в этом вопросе Интел). Другое дело, будут ли этим заниматься? Этого я заранее не знаю.
Мммм.. Прости, а разве можно, скажем, унифицировть управление в принципиально разных типах памяти? Не DDR 2/3 — а скажем, DDR и RDRAM... :spy: Мне кажется, что нет.. Вынесение, собственно, контроллера памяти на модуль — позволяет решить эту проблему в корне. :oops:

Цель благородная, но недостижимая Потому что вступает в противоречие с интересами крупнейших производителей материнских плат, чипсетов, и тому подобных смежников.
Хмм. Да нет, никакого противоречия тут нет.. Совместимость не значит равноценность. :D
Stranger_NN
Хмм. А что мне с потребления микросхем? Оно что так, что эдак — неизбежный компонент. :oops:
Ыыыы. У тебя один модуль (DDR2) выделяет 6Вт, другой (FB DIMM) — 12Вт.
Разница — в 6Вт на модуль. Которая появляется СУГУБО ИЗ-ЗА СТАНДАРТА FB DIMM.
В результате сервер, который содержит минимум 4 модуля (а чаще восемь), кушает больше на 24Вт — 48Вт.
Пока это ОДИН сервер — можно плюнуть.

Когда у тебя есть датацентр, в котором стоит 4 000 таких серверов, разница в стоимости эксплуатации получается весьма приличной. Не в пользу FB DIMM (и поддерживающей этот тип памяти платформы).

Хм. Тогда, извини, каким образом Интел ухитряется на меньшей частоте иметь 10 ватт, когда у АМД на большей — 6? :spy: Что-то не сходится..
Что у тебя не сходится? Возьми даташиты на чипсеты. Возьми даташиты на процессоры. Прибавь все тепловыделение всех микросхем в одной платформе, и сравни со всем тепловыделением в другой платформе.
Лично убедишься, что на текущей платформе Интел оно ВЫШЕ (хотя TDP у интеловских процессоров вроде как ниже).

А с какой радости оно сильноточное получается??
С той радости, что максимальный ток потребления равен 6А (!). Это что, слабый ток для микросхемы?

А с другой, если оно так, то с какой радости будет слаботочным G3MX? Тем более, что там, где AMB обслуживает только свои микросхемы, — G3MX должно, по картинке, обслуживать несколько модулей... :oops:
G3MX, скорее всего, тоже будет сильноточным, ты прав в этом.

Прости, а разве можно, скажем, унифицировть управление в принципиально разных типах памяти? Не DDR 2/3 — а скажем, DDR и RDRAM... :spy:
Можно, но дорого :) Собственно, управление делится на две части: общая для всех типов памяти (типа "подай мне ячейку номер такой-то, и запиши данные такие-то в ячейку номер такой-то"), и специфическое (произвести обновление массива ХХХ, и т.д.)

Хмм. Да нет, никакого противоречия тут нет.. Совместимость не значит равноценность.
Тем не менее, я сильно сомневаюсь, что производители плат на это пойдут.
matik

Когда у тебя есть датацентр, в котором стоит 4 000 таких серверов, разница в стоимости эксплуатации получается весьма приличной. Не в пользу FB DIMM (и поддерживающей этот тип памяти платформы).
Я понимаю. Другое дело, что я не вижу альтернативных путей существенного увеличения ПСП. Вынесение из процессора контроллера аппаратного канала — дело уже достаточно назревшее.

С той радости, что максимальный ток потребления равен 6А (!). Это что, слабый ток для микросхемы?
G3MX, скорее всего, тоже будет сильноточным, ты прав в этом.

Понимаешь, какое дело, если модуль AMB реально кушает 6А на один модуль — что будет с G3MX, который должен обслужить четыре модуля? :spy: Не наводит на размышления? :oops:

Кроме того, по сути дела, AMB и G3MX — одно и то же решение, разница только в локализации контроллера, рядом с разъемами или на модулях. Оба решения имеют как плюсы, так и минусы. G3MX — дешевле, AMB — позволяет выжать больше, поскольку, при более чем одном модуле на канале — запросы влегкую поступают на параллельную обработку, обеспечивая близкое к 100% использование теоретичской ПС канала. G3MX такого не позволяет, предельная утилизация ПС общей шины DDR III как была не больше 70%, так и не поднимется выше.

Можно, но дорого Собственно, управление делится на две части: общая для всех типов памяти (типа "подай мне ячейку номер такой-то, и запиши данные такие-то в ячейку номер такой-то"), и специфическое (произвести обновление массива ХХХ, и т.д.)
Молодец. Именно это вторую часть и производит модуль AMB. По каналу таки поступают запросы вида: "подай мне ячейку номер такой-то, и запиши данные такие-то в ячейку номер такой-то", а все остальное делает микросхема AMB. :oops:

Тем не менее, я сильно сомневаюсь, что производители плат на это пойдут.
Возможно... :oops:
Stranger_NN
Понимаешь, какое дело, если модуль AMB реально кушает 6А на один модуль — что будет с G3MX, который должен обслужить четыре модуля? :spy: Не наводит на размышления?
Не наводит. 6А АМВ кушает в момент recharge банка, момент которого в G3MX вовсе не должен совпадать у четырех модулей (и лучше, чтобы НЕ совпадал — быстрее будет). Согласись, это меняет дело :)

Кроме того, по сути дела, AMB и G3MX — одно и то же решение, разница только в локализации контроллера, рядом с разъемами или на модулях.
Похожие, согласен.

AMB — позволяет выжать больше, поскольку, при более чем одном модуле на канале — запросы влегкую поступают на параллельную обработку, обеспечивая близкое к 100% использование теоретичской ПС канала.
Илья, это ТЕОРИЯ. Я тоже читал эту презентацию :D
А практика показывает, что из 23GB\sec, которые теоретически доступны для четырех каналов FB DIMM на платформе i5000P, реально доступно меньше половины (!).
Кто виноват? Что делать?
Непонятно.

Пока дежурная версия состоит в том, что виноват snoop-фильтр в чипсете. Нюанс в том, что в он есть только в версии i5000X (если верить Интелу), а в i5000P (или i5000V) его НЕТ.
Тем не менее, проблема у них точно так же есть.

Молодец. Именно это вторую часть и производит модуль AMB. По каналу таки поступают запросы вида: "подай мне ячейку номер такой-то, и запиши данные такие-то в ячейку номер такой-то", а все остальное делает микросхема AMB
Илья, я нисколько не спорю, что в подходе FB DIMM есть здравый смысл, и здравое зерно.
Но практическая реализация показала, что никаких особых преимуществ в достигнутой производительности НЕТ, латентность ВЫШЕ, а греется оно больше.
За что боремся?
matik

Не наводит. 6А АМВ кушает в момент recharge банка, момент которого в G3MX вовсе не должен совпадать у четырех модулей (и лучше, чтобы НЕ совпадал — быстрее будет). Согласись, это меняет дело
Ни разу не меняет. :no: Все равно, надо рефрешить все модули. Даже если не совпадает — интегральнео потребление все равно будет ровно тем же самым (ну, без учета тонкостей). Один пик в 24А или четыре по 6 — имеют одинаковую площать под кривой. :-p

А практика показывает, что из 23GB\sec, которые теоретически доступны для четырех каналов FB DIMM на платформе i5000P, реально доступно меньше половины (!).
Прости, а что, кто-то предлагает больше? :spy: Реально достижимая скорость равна теоретическому максимуму других технологий.. :oops: По-моему неплохо... И это при, помнится, одном модуле на канал... Если же модулей будет больше одного — КПД канала подрастет..

Кто виноват? Что делать?
Сырость технологии. Доводить до ума, а не шарахаться в поисках чуда.

Но практическая реализация показала, что никаких особых преимуществ в достигнутой производительности НЕТ, латентность ВЫШЕ, а греется оно больше.
Вроде есть некоторый толк... :oops: :D Латентность же и прочие проблемы — надо решать, доводя идею до ума. Поскольку ПРИНЦИПИАЛЬНЫХ проблем нет. ;)

Вообще, утомляет шараханье индустрии в поисках ЧУДА. Вместо работы — сплошные "гениальные озарения", которые на поверку оборачиваются офонарениями. Если идея не дала моментального эффекта — её отбрасывают. Но это путь в тупик. :oops: Сдается мне, что напоровшись на некоторые проблемы G3MX — и эту идею тоже "умножат на ноль" и будут насиловать традиционные варианты, выдавая на-гора два канала на сокет вских там DDR IV, V и так далее.....:oops:
Stranger_NN
Один пик в 24А или четыре по 6 — имеют одинаковую площать под кривой.
Только вот микросхема должна при этом иметь совсем другой запас прочности :)

Реально достижимая скорость равна теоретическому максимуму других технологий.. По-моему неплохо...
Где же "максимуму", когда платформа i5000 по реально достижимой ПСП проигрывает даже стареньким Оптеронам 22хх? А с появлением 23хх проиграет еще больше?

И это при, помнится, одном модуле на канал... Если же модулей будет больше одного — КПД канала подрастет..
И латентность подрастет ;) Чудес по-прежнему не бывает :)

Сдается мне, что напоровшись на некоторые проблемы G3MX — и эту идею тоже "умножат на ноль" и будут насиловать традиционные варианты, выдавая на-гора два канала на сокет вских там DDR IV, V и так далее.....
Эээээ.... :) Собственно, вне зависимости от судьбы G3MX все равно будут DDR4, DDR5, и так далее :) Кушать захочется и завтра тоже :)
AMD в К10 сделала 2 канала по 64 bit, а что мешает потом сделать 4 канала по 64, ведь контроллер обслуживает до 8 планок на процессор в серверном варианте?

AMD в К10 сделала 2 канала по 64 bit, а что мешает потом сделать 4 канала по 64, ведь контроллер обслуживает до 8 планок на процессор в серверном варианте?

Себестоимость корпусировки чипа и разводки материнской платы превысят разумные пределы.
Это в лучшем случае. В худшем --- уменьшится надежность и/или частота памяти, да и самого процессора.

Высокочастотные последовательные шины гораздо эффективнее в этом смысле.

Прости, а что, кто-то предлагает больше?

Вообще говоря, выпуская этот чипсет, Intel AFAIK ни словом не обмолвилась о возможных проблемах с отличием достижимой ПСП от теоретической.
Потому как бы по умолчанию "предполагалось больше", гораздо больше.

В результате что получилось --- ожидания и прогнозы от практической пользы FB-DIMM существенно разошлись с действительностью, на рынке явно наблюдается ее перепроизводство, что в дальнейшем приведет к дефициту, тем более что Intel обещает выпустить версию чипсета для DDR2 без FB. Зачем AMD связываться с этой запятнавшей себя технологией с рыночной перспективой, полностью зависящей от действий конкурента?
IMHO, G3MX в этом смысле очень хорошая идея -- взято все лучшее от FB-DIMM, а недостатки и провалы списаны на конкурента ;).
matik

Только вот микросхема должна при этом иметь совсем другой запас прочности
Пиковый? Безусловно. Но отводить все равно придется всю мощность, в предельном случае (все модули на канале установлены) — в четыре раза больше, чем с AMB. И заложить это в конструкцию как самой м/с, так и в ее охлаждение.. 24 ватта — это уже заметно, малогабаритная гладкая микросхема без, хотя бы, радиатора этого может и не пережить.. :oops:

Где же "максимуму", когда платформа i5000 по реально достижимой ПСП проигрывает даже стареньким Оптеронам 22хх? А с появлением 23хх проиграет еще больше?
Это тем, где четыре канала DDR работают? Прости а тебе не кажется, что это немного не очень корректно? Если даже начать с количества разъемов для модулей памяти..

У меня получалось, что при установке памяти на все каналы и некоторых игрищах в BIOS — доступная ПСП была заметно выше, чем у двухсокетного Opteron, латентность, правда, "чипсетная", ну так и у G3MX будет то же самое..

И латентность подрастет Чудес по-прежнему не бывает
Это исключительно технологическая проблема, связанная с непонятной мне схемой задержки в буфере АMB. Это совершенно необязательная задержка, с ней можно было побороться.

Собственно, вне зависимости от судьбы G3MX все равно будут DDR4, DDR5, и так далее
Да, но вот только был шанс не сопровождать все это тотальной заменой железа. :oops:

VLev

В результате что получилось --- ожидания и прогнозы от практической пользы FB-DIMM существенно разошлись с действительностью, на рынке явно наблюдается ее перепроизводство, что в дальнейшем приведет к дефициту, тем более что Intel обещает выпустить версию чипсета для DDR2 без FB. Зачем AMD связываться с этой запятнавшей себя технологией с рыночной перспективой, полностью зависящей от действий конкурента?
А теперь покажите мне тут хотя бы одну технологическую причину... :oops: С т.з. маркетинга завязываться на FB-DIMM, понятное дело, что не стоит, а с т.з. технологичской — так это еще один пример зарубленной перспективной технологии...

IMHO, G3MX в этом смысле очень хорошая идея -- взято все лучшее от FB-DIMM, а недостатки и провалы списаны на конкурента
Если бы... Все равно, для четырех каналов — нужно развести безумное количество ног, насчет латентности еще ничего неизвестно, а предельное потребление G3MX — уже сейчас внушаИт... :oops: Я бы не торопился говорить, что G3MX лучше FB-DIMM, слишком много неприятных узких мест..
Stranger_NN
Пиковый? Безусловно. Но отводить все равно придется всю мощность
Погоди, что-то ты мешаешь все в одну кучу. Если G3MX делает рефреш поочередно, то отводить от нее надо 6Вт, а не 24Вт. Второе без радиатора действительно не отвести.
Более того, есть прямой смысл делать рефреш именно поочередно: это банальный, давно известный интерливинг, снижающий реальную латентность.
Что есть хорошо во всех смыслах.

Это тем, где четыре канала DDR работают? Прости а тебе не кажется, что это немного не очень корректно? Если даже начать с количества разъемов для модулей памяти..
Не, ты перепутал. Нынешняя серия 23хх — это Барселона, которая ставится в тот же Сокет 1207, что и текущие Оптероны.
Я уже писал, что в 23хх серии АМД обещает значительный прирост реальной производительности — при тех же материнских платах и той же памяти. Никаких четырех каналов нет.

Если же говорить о технологии G3MX, то это дело более отдаленного будущего.

У меня получалось, что при установке памяти на все каналы и некоторых игрищах в BIOS — доступная ПСП была заметно выше, чем у двухсокетного Opteron, латентность, правда, "чипсетная", ну так и у G3MX будет то же самое..
Ты про i5000? Тебе действительно удалось добиться более высокой производительности по памяти, нежели у Оптеронов под Сокет 1207? :spy: Поделись способом, тот же VLev будет тебе КРАЙНЕ благодарен :)

Это исключительно технологическая проблема, связанная с непонятной мне схемой задержки в буфере АMB. Это совершенно необязательная задержка, с ней можно было побороться.
Для этого придется изобретать какой-нибудь FB DIMM version II. То есть, по факту, ЭТА технология все равно не подходит.
Да и вполне понятно, почему латентность растет: чем больше модулей висит на канале, тем больше времени нужно сигналу, чтобы пробежаться по всем.

Да, но вот только был шанс не сопровождать все это тотальной заменой железа
Да не было такого шанса, ну что ты как маленький? Речь о G3MX идет в районе 2008 — 2009 года, когда все равно Оптероны переползут на 45нм, выйдет НТ 3.0, PCI-E 2.0 — все это каким чудом на старой мамке заработает?
АМД и так совершила несколько рискованный поступок, сделав Барселону обратно совместимой со старыми платформами: в результате пришлось отказаться от НТ 3.0, который в 4-ах и 8-ах был бы совсем не лишним. Кроме того, из-за отсутствия split plane и ganged mode производительность Барселоны на старых платах будет ниже, чем на обновленных.
Учитывая, что сейчас производительность для АМД важна как никогда — поступок достаточно рискованный.

А ты хочешь продержать их на той же платформе еще пару лет, чтобы все работало?
Они тогда станут совсем неконкурентными.

А теперь покажите мне тут хотя бы одну технологическую причину...
Причина как раз самая что ни на есть технологическая: НЕ ПОЛУЧАЕТСЯ добыть больше ПСП. Хотя теория говорит о "более 20 гигабайтах в секунду". Реально доступна примерно половина (!).
Кроме как проблем со снуп-фильтром, трудно придумать разумное объяснение этому — но это наблюдаемый факт. Уж не знаю, что там Интел нахомутала, но теория и практика в случае i5000 сильно отличаются.

Если бы... Все равно, для четырех каналов — нужно развести безумное количество ног
Не нужно: тебе нужно развести по четыре модуля возле каждой микросхемы G3MX. Коротких каналов между микросхемой и разъемом памяти.
И так — возле каждой микросхемы.
Несколько локальных участков вместо мешанины ножек, подходящих к процессору.
А вот к процессору подойдут несколько узких высокоскоростных НТ-подобных шин.

Имхо, гораздо более изящная конструкция. Не говоря уже о том, что каждую G3MX можно будет сажать на отдельную плату для памяти (!), это позволит поддерживать намного больше памяти, чем сейчас, когда все ограничено электрической нагрузкой на интегрированный в процессор контроллер.

насчет латентности еще ничего неизвестно
Известно: интерливинг ее обычно снижает :) Так что все хорошо :)

а предельное потребление G3MX — уже сейчас внушаИт...
:eek: Извини, а откуда ты его взял, это предельное потребление?! Пока про G3MX совершенно ничего не известно.

Я бы не торопился говорить, что G3MX лучше FB-DIMM, слишком много неприятных узких мест..
Да она не то чтобы сильно лучше, так вопрос не стоит. Просто это попытка воспользоваться преимуществами FB DIMM, не перенимая при этом их недостатков.
Имхо, вполне разумная попытка.
Новая тема    Ответить  [ Сообщений: 255 ]  На страницу Пред.  1, 2, 3, 4, 5, 6, 7  След.


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 0


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  

Удалить cookies конференции

Пишите нам | Radeon.ru