Конференция работает на сервере Netberg

Radeon.ru

Конференция Radeon.ru

Страница 1 из 13 [ Сообщений: 507 ]  На страницу 1, 2, 3, 4, 5 ... 13  След.
Ну что, похоже, что страшные предположения оказываются правдой...

Длина конвейера — 32 стадии... Латентность кэша первого уровня, по-видимому, 3 такта...

На одинаковой частоте обычно слегка медленнее Northwood-а...
Правда, думаю, частоту он будет набирать получше...

Жаль... Но чудес по-прежнему не бывает.

>Латентность кэша первого уровня, по-видимому, 3 такта...\


имеется ввиду дата-кэш? с ним ваапще что-то странное:
http://www.overclockers.ru/images/news/2004/01/20/lga28_06.gif

Сэмпл не светит разыскать вскорости?
GReY
Сэмпл не светит разыскать вскорости?
Наша работает над этим Изображение
Ну и %^$ с ним тогда, с этим Прескоттом.

matik, все-таки NetBurst масштабируется плохо, если приходится переходить на 32 стадии.
Как там не отделяй "мух от котлет"...
Скоро уже и котлеты не останется. Это уже почти чисто сетевой контроллер, а не ЦПУ.

По-моему, Интелу как производителю десктопных чипов будет худо пока он не похоронит гребаную NetBurst.
BEKTOP

>все-таки NetBurst масштабируется плохо, если приходится переходить на 32 стадии. \


Какая вам разница, сколько там стадий? работает и ладно. а вот КАК работает, нам очень интересно разузнать, так что не надо

>Ну и %^$ с ним тогда, с этим Прескоттом.\

Изображение

matik

>Наша работает над этим \


Пора свистать наверх команду Изображение
BEKTOP
все-таки NetBurst масштабируется плохо, если приходится переходить на 32 стадии.
Мне все же кажется, что это сделано с неким прицелом на будущее — чтобы он не только сейчас, но и позже нормально масштабировался...

По-моему, Интелу как производителю десктопных чипов будет худо пока он не похоронит гребаную NetBurst.
Ну-ну Изображение Весь вопрос в том, чем он ее будет "обклеивать" для нарядности Изображение В принципе, как бы ни был слаб какой-либо блок, но с ростом частоты растет производительность ВСЕГО процессора... А, к примеру, быстрый кэш П4 не раз вытягивал его из беды...

GReY
Какая вам разница, сколько там стадий? работает и ладно. а вот КАК работает, нам очень интересно разузнать, так что не надо
Ну, как-то очень категорично... В любом случае, интересно, как же все-таки оно устроето Изображение Тут соглашусь Изображение
GReY
Пора свистать наверх команду
Угу! Изображение Жду решения технических вопросов... Вроде в ближайшее время все должно определиться...
Ещё интересный момент:
http://www.pconline.com.cn/pchardware/tpylab/cpu/0401/pic/0118_test_4_s.gif
Max Phys/Virt Addr : 40/32
L2 Cache : 16 way
GReY
Max Phys/Virt Addr : 40/32
Однако... Другими словами, готовьте очередные патчи к операционкам.... Наша чудесная РАЕ2 сможет адресовать 1ТВ...

L2 Cache : 16 way
Интересно...
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>matik:
Длина конвейера — 32 стадии... Латентность кэша первого уровня, по-видимому, 3 такта...</SPAN><HR size=22></SPAN></BLOCKQUOTE>
Ok. Будем исходить пока из этого. Осталось понять зачем это сделано?
1. Обычный вариант --- Потенциал увеличения частоты как-то явно не проходит. Northwood и так разгонялся до 5GHz (и уж не конвейер виноват что эти 5GHz версии не дошли до прилавков). Соответственно, потенцал 32 стадийного конвейера на 90нм д.б. где-то за 10GHz, хотя по роадмап-ам Prescott вряд ли и до 5 дотянет.
2. Новые команды Prescott (PNI), cобственно говоря, не являются настолько новыми, чтобы потребовать удлинения конвейера.
3. Двукратное увеличение кэшей при одновременном утоньшении норм техпроцесса на sqrt(2) IMHO не должно требовать дополнительных тактов даже в латентности, тем более в конвейере.
4. Какие-то существенные изменения в HT в принципе могут потребовать такого. Вопрос: есть ли эти существенные изменения на самом деле, или все ограничивается парой команд из пункта 2.
5. Конечно, главной причиной могут быть "скрытые возможности Prescott". Например, 64-битность. Это да. Более того, Prescott выглядит пока каким-то "гадким утенком", который со временем может стать прекрасным лебедем Изображение

Теперь о минусах:
1. При прочих равных, длинный конвейер усложняет сам чип и его разработку. Однако Prescott и так сложен (если сложность оценивать по числу "нерегулярных" транзисторов) с избытком. Длинный конвейер тут видимо o-малое.
2. При малом количестве архитектурных регистров x86, латентность кэша L1 очень важна. 2 такта было огромным достижением Intel в этом плане. Жаль, что от этого вроде пришлось отказаться.
3. Штрафы, приводящие к сбросу конвейера (например, непредсказанный условный переход). Редкое явление в Spec (и совсем невозможное в stream и проч.), однако всякие сложные ветвистые алгоритмы, да еще на ООП реализованные явно в пролете.

Вместо резюме:
Почему-то считается (почему --- для меня загадка), что длинный конвейер должен компенсироваться большим кэшем L2. И как бы для если для 512K оптимум 20 тактов, то для 1M кэша как раз 30 тактов (это из древней презентации Intel).
http://zdnet.com.com/2100-1103_2-5144907.html
Вот опять про 30 стадий.. Осталось понять, что именно они считают Изображение

VLev
1. Почему не подходит? Более того, продолжаются слухи, что даже в этом (!) виде варианта 3.4ГГц 2 февраля анонсировано не будет... Видимо, есть некая проблема с ростом частоты...
2. Я не думаю, что это из-за команд...
3. не знаю... надо разбираться...
4. Какие? Пара команд есть, некие буферы для сохранения понадобятся... Но насколько это способно удлинить конвейер? Странно, это скорее в декодере преобразования...
5. Да, тут может быть... Особенно, если они устроили какое-нибудь "торжество разума" вроде 64 битной операции путем 4-х последовательных сдвигов по 16 битовым маскам... Изображение

Теперь о минусах:
1. Не знаю... Лишние стадии могут быть сугубо для передачи данных и выравнивания времен.... правда, 10 штук — перебор...
2. Согласен. Но надо ждать пояснений...
3. Согласен.

Почему-то считается (почему --- для меня загадка), что длинный конвейер должен компенсироваться большим кэшем L2.
Думаю, что речь о том, что чем длиннее конвейер, тем больше нужно кэша, чтобы на всякий случай хранить варианты ветвлений... Чтобы при промахе можно было быстро подтащить данные...
ИМХО...
Каждая свежая новость про Prescott "убивает" все больше и больше Изображение
А не ждет ли нас "мутант" из HT и CMP? C некоторой т.з. такой рост длины может быть оправдан... Например, меньше вероятность конфликта из-за ресурсов.
matik

>Однако... Другими словами, готовьте очередные патчи к операционкам.... Наша чудесная РАЕ2 сможет адресовать 1ТВ...\

Вот и понятно КАК потомак сможет адресовать в сервере у ИБМ с 64 процами больше 64 г памяти.

Stranger_NN

>А не ждет ли нас "мутант" из HT и CMP? C\

Или сразу два конвейера на случай неверного предсказания перехода. Причем сейчас это типа выключено — тайное оружие фюрераИзображение???
ISA_user, ну да, примерно так. Потому что просто отказаться от НТ вряд ли возможно при такой длине конвейера, слишком большие штрафы, а с другой стороны — ахиллесова пята HT в виде конфликта из-за ресурсов. Вот и идет проработка решения этой коллизии. Скорее всего именно за счет дублирования наиболее конфликтных ресурсов.
ISA_user

>Или сразу два конвейера на случай неверного предсказания перехода. Причем сейчас это типа выключено — тайное оружие фюрераИзображение???\

Ну это уже больше на Итаниум смахивает....
Shurik_ant, да нет, почему? Исполнение альтернативной ветки к EPIC никакого отношения не имеет.
Shurik_ant

>Ну это уже больше на Итаниум смахивает....\

в том то и дело, что там это уже отработано и в серию пущено самим интелом. Причем действительно, как сказал
Stranger_NN, использование еще одного конвейера не имеет к EPIC как технологии большого отношения.


Stranger_NN

>отказаться от НТ вряд ли возможно при такой длине конвейера\

полностью согласен и тут выход или вешать дополнительные ФУ или сделать вообще паралельную часть конвейера с соответсвующими ФУ.

Кстати, раньше НТ — 2 ветки, теперь 4. Тоесть если тупо смотреть на цифры, так и получается.

>ISA_user:Кстати, раньше НТ — 2 ветки, теперь 4\

Откуда данные?
Кстати, да. Это бы объяснило нафик нужны все эти транзисторы.

Да и тепловыделение — тоже ясно почему такое большое. Хотя.. почему тогда производительность (в предварительных тестах) всё равно отстой? Хотя возможно обвязка слишком сырая.
Stranger_NN

>, да нет, почему? Исполнение альтернативной ветки к EPIC никакого отношения не имеет.\

Возможно, но насколько я помню это называлось, как одно из достоинств EPIC.
http://www.overclockers.ru/news/newsitem.shtml?category=1&id=1074752005

Архитектурные изменения ядра Tejas в его 0.09 мкм варианте описываются следующим перечнем:

<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>Площадь ядра 120-140 кв.мм (в 0.065 мкм версии будет уменьшена до 80-100 кв.мм);
Расширенная версия Hyper-Threading;
Еще более эффективный механизм предсказания ветвлений;
8 новых команд (TNI);
1 Мб кэша второго уровня, 24 Кб кэша первого уровня, 16 К mOps Trace Cache;
Частота шины 800/1066 МГц;
Упаковка LGA 775. </SPAN><HR size=22></SPAN></BLOCKQUOTE>

Ага.. типа у Tejas вырос Л1 данных а Trace — 16 uOps. Так что похоже в Prescott будет всё же без имзенений — 12 uOps и утилиты не врут. Или они кэши увеличивают поочерёдно?

Я почему то думал что у Tejas будет 2 мб Л2. И ещё TNI какой то припахался.. дурдом ромашка.


>Кроме того, важным гарантом расширения частотного диапазона 0.09 мкм ядер станет использование новой разновидности технологии SOI при производстве Tejas\

Опаньки.. так всё же на 0.09 уже будут SOI внедрять?? Типа сначала будет обычный 0.09 а потом SOI 0.09. Интересно..
VLev

>Откуда данные?\

Если честно, то на словах мне сказали. Но только не помню к прескоту или к тильжесуИзображение И где то на форумах читал.

Shurik_ant

>Возможно, но насколько я помню это называлось, как одно из достоинств EPIC.\

это называлось как одно из достоинств итаникаИзображение

Мне кажеться кто-то из классических рисков что-то такое же имеет (то что мы тут выдумалиИзображение)
ISA_user
Мне кажеться кто-то из классических рисков что-то такое же имеет (то что мы тут выдумали
IBM RS64?
matik

>IBM RS64?\

честно не помню.

судя по названию данного форума и того факта, что инициализировал данную тему матик, думаю что этот подлец все таки выкрал из секретных лабораторий интела экземпляр пресотаИзображение
ISA_user
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>Возможно, но насколько я помню это называлось, как одно из достоинств EPIC.
это называлось как одно из достоинств итаникаИзображение</SPAN><HR size=22></SPAN></BLOCKQUOTE>
Насколько я помню, это свойство именно архитектуры, а не реализаии оной в виде Итаниум(кстати, напрасно Вы его Итаником зовёте, не дай бог беду накликаете).
<font class="off">Shurik_ant
напрасно Вы его Итаником зовёте, не дай бог беду накликаете
Гм? это с чего еще?</font>
Shurik_ant

>Насколько я помню, это свойство именно архитектуры\

http://osp.admin.tomsk.ru/os/1999/11-12/008.htm
Shurik_ant

>Возможно, но насколько я помню это называлось, как одно из достоинств EPIC.\


Это ВОЗМОЖНОСТЬ, но не неотъемлемое свойство. Скажем так, EPIC процессор можно загрузить одновременным рассчетом вариантов, но почему этого не сделать имеющим параллельные ФУ классическим процессорам я не вижу. Причем, можно менее вероятную ветку исполнять, например, с меньшим приоритетом в рамках HTТ. Без проблем. Изображение Это дело программирования только.

SUN же например, имеет другой механизм — быстрые переход на первые команды альтернативной ветки, что сокращает простои процессора. В общем, все крутятся как умеют.
matik

>Странно, это скорее в декодере преобразования...\


Насколько я помню суть команд, это изменение в шедьюлере.

ISA_user

>Или сразу два конвейера на случай неверного предсказания перехода. Причем сейчас это типа выключено \


>сделать вообще паралельную часть конвейера с соответсвующими ФУ.\


Напоминаю, что чип-архитекты обнаружили дублирующийся блок целочисленных вычислений.


>Кстати, раньше НТ — 2 ветки, теперь 4. Тоесть если тупо смотреть на цифры, так и получается.\


Не, в Прескотте этого не замечаю. По косвенным признакам Изображение


>судя по названию данного форума и того факта, что инициализировал данную тему матик, думаю что этот подлец все таки выкрал из секретных лабораторий интела экземпляр пресота\


Не, это он в преддверии. Скоро будет.
<font class="off">ISA_user
думаю что этот подлец все таки выкрал из секретных лабораторий интела экземпляр пресота
Теджаса Изображение

На самом деле без комментариев Изображение
</font>
Господа, у меня есть пренеприятнейшее известие! Латентность L1-D кэша 4 такта, L2 — 28! Слава богу хоть не 6, как мне приснилось сегодня ночью.
GReY
Насколько я помню суть команд, это изменение в шедьюлере
Сорри, попутал Изображение

Напоминаю, что чип-архитекты обнаружили дублирующийся блок целочисленных вычислений
А вот с этим непонятно... Чип-архитекты делали несколько статей.. В первой они нафантазировали про Прескотт много... Потом вроде стало скромнее, но все равно было весьма наворочено... Не очень понятная ситуация...
GReY

>Латентность L1-D кэша 4 такта, L2 — 28! Слава богу хоть не 6, как мне приснилось сегодня ночью.\

СЕРЬЕЗНО? Изображение Откуда дровишки?

>Напоминаю, что чип-архитекты обнаружили дублирующийся блок целочисленных вычислений.\

ХМ. Тогда все больше и больше становится понятна длина конвейера... Похоже, там все-же обе ветки хором запускать будут. Или уменьшение пробем с HTТ, что тоже очень вероятно.
Stranger_NN

>Откуда дровишки?\


Сорока на хвосте принесла Изображение
GReY
Сорока на хвосте прин
Споймаю "сороку", убью! Изображение Изображение

Латентность L1-D кэша 4 такта, L2 — 28!
.... мать...мать... мать — привычно отозвалось эхо... © Что ж, надеюсь, Прескотт будет быстро набирать частоту... Это ему теперь НЕОБХОДИМО.

Stranger_NN
Похоже, там все-же обе ветки хором запускать будут
хм... Как ты себе это представляешь?
GReY

>Напоминаю, что чип-архитекты обнаружили дублирующийся блок целочисленных вычислений\

дай ссылку плиз.


>Не, в Прескотте этого не замечаю. По косвенным признакам \

так могут включиить не в прескоте (или не в первых поставках), а вот обкатать его в массовых партиях смогут запросто — они же скорее всего включают и выключают его с помощью команд флешки.
GReY, а нельзя ли попросить сороку поподробнее? Изображение


matik

>хм... Как ты себе это представляешь?\

Да запросто. Если на программном уровне — то вообще просто, в рамках HTT новой, ввести описание на уровне компилятора о параллельном исполнении. Если на аппаратном... Тоже можно, если есть параллельные ФУ — то почему бы и не. Штраф за промах в обоих случаях становится минимален.
Stranger_NN
Тоже можно, если есть параллельные ФУ — то почему бы и не
да нерационально их так использовать... ИМХО...
Достаточно большую часть времени (когда нет ветвлений) чем они будут заниматься?
Stranger_NN
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>Возможно, но насколько я помню это называлось, как одно из достоинств EPIC.
Это ВОЗМОЖНОСТЬ, но не неотъемлемое свойство. Скажем так, EPIC процессор можно загрузить одновременным рассчетом вариантов, но почему этого не сделать имеющим параллельные ФУ классическим процессорам я не вижу. Причем, можно менее вероятную ветку исполнять, например, с меньшим приоритетом в рамках HTТ. Без проблем. Изображение Это дело программирования только. </SPAN><HR size=22></SPAN></BLOCKQUOTE>
А я и не говорил, что кроме как в EPIC это нельзя реализовать...

>SUN же например, имеет другой механизм — быстрые переход на первые команды альтернативной ветки, что сокращает простои процессора. В общем, все крутятся как умеют.\

Но они не стали делать для альтернативной ветки полноценный конвейер(который подразумевает ещё один полный набор ФУ) видимо из соображений экономии(площади, кол-ва транзисторов)...
 [ Сообщений: 507 ]  На страницу 1, 2, 3, 4, 5 ... 13  След.


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 0


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Перейти:  
Пишите нам | Radeon.ru