Страница 1 из 13 [ Сообщений: 507 ] | На страницу 1, 2, 3, 4, 5 ... 13 След. |
Ну что, похоже, что страшные предположения оказываются правдой...
Длина конвейера — 32 стадии... Латентность кэша первого уровня, по-видимому, 3 такта... На одинаковой частоте обычно слегка медленнее Northwood-а... Правда, думаю, частоту он будет набирать получше... Жаль... Но чудес по-прежнему не бывает. |
имеется ввиду дата-кэш? с ним ваапще что-то странное: http://www.overclockers.ru/images/news/2004/01/20/lga28_06.gif Сэмпл не светит разыскать вскорости? |
GReY
Сэмпл не светит разыскать вскорости? Наша работает над этим ![]() |
Ну и %^$ с ним тогда, с этим Прескоттом.
matik, все-таки NetBurst масштабируется плохо, если приходится переходить на 32 стадии. Как там не отделяй "мух от котлет"... Скоро уже и котлеты не останется. Это уже почти чисто сетевой контроллер, а не ЦПУ. По-моему, Интелу как производителю десктопных чипов будет худо пока он не похоронит гребаную NetBurst. |
BEKTOP
Какая вам разница, сколько там стадий? работает и ладно. а вот КАК работает, нам очень интересно разузнать, так что не надо
![]() matik
Пора свистать наверх команду ![]() |
BEKTOP
все-таки NetBurst масштабируется плохо, если приходится переходить на 32 стадии. Мне все же кажется, что это сделано с неким прицелом на будущее — чтобы он не только сейчас, но и позже нормально масштабировался... По-моему, Интелу как производителю десктопных чипов будет худо пока он не похоронит гребаную NetBurst. Ну-ну ![]() ![]() GReY Какая вам разница, сколько там стадий? работает и ладно. а вот КАК работает, нам очень интересно разузнать, так что не надо Ну, как-то очень категорично... В любом случае, интересно, как же все-таки оно устроето ![]() ![]() |
GReY
Пора свистать наверх команду Угу! ![]() |
Ещё интересный момент:
http://www.pconline.com.cn/pchardware/tpylab/cpu/0401/pic/0118_test_4_s.gif Max Phys/Virt Addr : 40/32 L2 Cache : 16 way |
GReY
Max Phys/Virt Addr : 40/32 Однако... Другими словами, готовьте очередные патчи к операционкам.... Наша чудесная РАЕ2 сможет адресовать 1ТВ... L2 Cache : 16 way Интересно... |
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>matik:
Длина конвейера — 32 стадии... Латентность кэша первого уровня, по-видимому, 3 такта...</SPAN><HR size=22></SPAN></BLOCKQUOTE> Ok. Будем исходить пока из этого. Осталось понять зачем это сделано? 1. Обычный вариант --- Потенциал увеличения частоты как-то явно не проходит. Northwood и так разгонялся до 5GHz (и уж не конвейер виноват что эти 5GHz версии не дошли до прилавков). Соответственно, потенцал 32 стадийного конвейера на 90нм д.б. где-то за 10GHz, хотя по роадмап-ам Prescott вряд ли и до 5 дотянет. 2. Новые команды Prescott (PNI), cобственно говоря, не являются настолько новыми, чтобы потребовать удлинения конвейера. 3. Двукратное увеличение кэшей при одновременном утоньшении норм техпроцесса на sqrt(2) IMHO не должно требовать дополнительных тактов даже в латентности, тем более в конвейере. 4. Какие-то существенные изменения в HT в принципе могут потребовать такого. Вопрос: есть ли эти существенные изменения на самом деле, или все ограничивается парой команд из пункта 2. 5. Конечно, главной причиной могут быть "скрытые возможности Prescott". Например, 64-битность. Это да. Более того, Prescott выглядит пока каким-то "гадким утенком", который со временем может стать прекрасным лебедем ![]() Теперь о минусах: 1. При прочих равных, длинный конвейер усложняет сам чип и его разработку. Однако Prescott и так сложен (если сложность оценивать по числу "нерегулярных" транзисторов) с избытком. Длинный конвейер тут видимо o-малое. 2. При малом количестве архитектурных регистров x86, латентность кэша L1 очень важна. 2 такта было огромным достижением Intel в этом плане. Жаль, что от этого вроде пришлось отказаться. 3. Штрафы, приводящие к сбросу конвейера (например, непредсказанный условный переход). Редкое явление в Spec (и совсем невозможное в stream и проч.), однако всякие сложные ветвистые алгоритмы, да еще на ООП реализованные явно в пролете. Вместо резюме: Почему-то считается (почему --- для меня загадка), что длинный конвейер должен компенсироваться большим кэшем L2. И как бы для если для 512K оптимум 20 тактов, то для 1M кэша как раз 30 тактов (это из древней презентации Intel). |
http://zdnet.com.com/2100-1103_2-5144907.html
Вот опять про 30 стадий.. Осталось понять, что именно они считают ![]() VLev 1. Почему не подходит? Более того, продолжаются слухи, что даже в этом (!) виде варианта 3.4ГГц 2 февраля анонсировано не будет... Видимо, есть некая проблема с ростом частоты... 2. Я не думаю, что это из-за команд... 3. не знаю... надо разбираться... 4. Какие? Пара команд есть, некие буферы для сохранения понадобятся... Но насколько это способно удлинить конвейер? Странно, это скорее в декодере преобразования... 5. Да, тут может быть... Особенно, если они устроили какое-нибудь "торжество разума" вроде 64 битной операции путем 4-х последовательных сдвигов по 16 битовым маскам... ![]() Теперь о минусах: 1. Не знаю... Лишние стадии могут быть сугубо для передачи данных и выравнивания времен.... правда, 10 штук — перебор... 2. Согласен. Но надо ждать пояснений... 3. Согласен. Почему-то считается (почему --- для меня загадка), что длинный конвейер должен компенсироваться большим кэшем L2. Думаю, что речь о том, что чем длиннее конвейер, тем больше нужно кэша, чтобы на всякий случай хранить варианты ветвлений... Чтобы при промахе можно было быстро подтащить данные... ИМХО... |
Каждая свежая новость про Prescott "убивает" все больше и больше
![]() |
А не ждет ли нас "мутант" из HT и CMP? C некоторой т.з. такой рост длины может быть оправдан... Например, меньше вероятность конфликта из-за ресурсов.
|
matik
Вот и понятно КАК потомак сможет адресовать в сервере у ИБМ с 64 процами больше 64 г памяти. Stranger_NN
Или сразу два конвейера на случай неверного предсказания перехода. Причем сейчас это типа выключено — тайное оружие фюрера ![]() |
ISA_user, ну да, примерно так. Потому что просто отказаться от НТ вряд ли возможно при такой длине конвейера, слишком большие штрафы, а с другой стороны — ахиллесова пята HT в виде конфликта из-за ресурсов. Вот и идет проработка решения этой коллизии. Скорее всего именно за счет дублирования наиболее конфликтных ресурсов.
|
ISA_user
Ну это уже больше на Итаниум смахивает.... |
Shurik_ant, да нет, почему? Исполнение альтернативной ветки к EPIC никакого отношения не имеет.
|
Shurik_ant
в том то и дело, что там это уже отработано и в серию пущено самим интелом. Причем действительно, как сказал Stranger_NN, использование еще одного конвейера не имеет к EPIC как технологии большого отношения. Stranger_NN
полностью согласен и тут выход или вешать дополнительные ФУ или сделать вообще паралельную часть конвейера с соответсвующими ФУ. Кстати, раньше НТ — 2 ветки, теперь 4. Тоесть если тупо смотреть на цифры, так и получается. |
Откуда данные? |
Кстати, да. Это бы объяснило нафик нужны все эти транзисторы.
Да и тепловыделение — тоже ясно почему такое большое. Хотя.. почему тогда производительность (в предварительных тестах) всё равно отстой? Хотя возможно обвязка слишком сырая. |
Stranger_NN
Возможно, но насколько я помню это называлось, как одно из достоинств EPIC. |
http://www.overclockers.ru/news/newsitem.shtml?category=1&id=1074752005
Архитектурные изменения ядра Tejas в его 0.09 мкм варианте описываются следующим перечнем: <BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>Площадь ядра 120-140 кв.мм (в 0.065 мкм версии будет уменьшена до 80-100 кв.мм); Расширенная версия Hyper-Threading; Еще более эффективный механизм предсказания ветвлений; 8 новых команд (TNI); 1 Мб кэша второго уровня, 24 Кб кэша первого уровня, 16 К mOps Trace Cache; Частота шины 800/1066 МГц; Упаковка LGA 775. </SPAN><HR size=22></SPAN></BLOCKQUOTE> Ага.. типа у Tejas вырос Л1 данных а Trace — 16 uOps. Так что похоже в Prescott будет всё же без имзенений — 12 uOps и утилиты не врут. Или они кэши увеличивают поочерёдно? Я почему то думал что у Tejas будет 2 мб Л2. И ещё TNI какой то припахался.. дурдом ромашка.
Опаньки.. так всё же на 0.09 уже будут SOI внедрять?? Типа сначала будет обычный 0.09 а потом SOI 0.09. Интересно.. |
VLev
Если честно, то на словах мне сказали. Но только не помню к прескоту или к тильжесу ![]() Shurik_ant
это называлось как одно из достоинств итаника ![]() Мне кажеться кто-то из классических рисков что-то такое же имеет (то что мы тут выдумали ![]() |
ISA_user
Мне кажеться кто-то из классических рисков что-то такое же имеет (то что мы тут выдумали IBM RS64? |
matik
честно не помню. судя по названию данного форума и того факта, что инициализировал данную тему матик, думаю что этот подлец все таки выкрал из секретных лабораторий интела экземпляр пресота ![]() |
ISA_user
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>Возможно, но насколько я помню это называлось, как одно из достоинств EPIC. это называлось как одно из достоинств итаника ![]() Насколько я помню, это свойство именно архитектуры, а не реализаии оной в виде Итаниум(кстати, напрасно Вы его Итаником зовёте, не дай бог беду накликаете). |
<font class="off">Shurik_ant
напрасно Вы его Итаником зовёте, не дай бог беду накликаете Гм? это с чего еще?</font> |
Shurik_ant
http://osp.admin.tomsk.ru/os/1999/11-12/008.htm |
Shurik_ant
Это ВОЗМОЖНОСТЬ, но не неотъемлемое свойство. Скажем так, EPIC процессор можно загрузить одновременным рассчетом вариантов, но почему этого не сделать имеющим параллельные ФУ классическим процессорам я не вижу. Причем, можно менее вероятную ветку исполнять, например, с меньшим приоритетом в рамках HTТ. Без проблем. ![]() SUN же например, имеет другой механизм — быстрые переход на первые команды альтернативной ветки, что сокращает простои процессора. В общем, все крутятся как умеют. |
matik
Насколько я помню суть команд, это изменение в шедьюлере. ISA_user
Напоминаю, что чип-архитекты обнаружили дублирующийся блок целочисленных вычислений.
Не, в Прескотте этого не замечаю. По косвенным признакам ![]()
Не, это он в преддверии. Скоро будет. |
<font class="off">ISA_user
думаю что этот подлец все таки выкрал из секретных лабораторий интела экземпляр пресота Теджаса ![]() На самом деле без комментариев ![]() </font> |
Господа, у меня есть пренеприятнейшее известие! Латентность L1-D кэша 4 такта, L2 — 28! Слава богу хоть не 6, как мне приснилось сегодня ночью.
|
GReY
Насколько я помню суть команд, это изменение в шедьюлере Сорри, попутал ![]() Напоминаю, что чип-архитекты обнаружили дублирующийся блок целочисленных вычислений А вот с этим непонятно... Чип-архитекты делали несколько статей.. В первой они нафантазировали про Прескотт много... Потом вроде стало скромнее, но все равно было весьма наворочено... Не очень понятная ситуация... |
GReY
СЕРЬЕЗНО? ![]()
ХМ. Тогда все больше и больше становится понятна длина конвейера... Похоже, там все-же обе ветки хором запускать будут. Или уменьшение пробем с HTТ, что тоже очень вероятно. |
Stranger_NN
Сорока на хвосте принесла ![]() |
GReY
Сорока на хвосте прин Споймаю "сороку", убью! ![]() ![]() Латентность L1-D кэша 4 такта, L2 — 28! .... мать...мать... мать — привычно отозвалось эхо... © Что ж, надеюсь, Прескотт будет быстро набирать частоту... Это ему теперь НЕОБХОДИМО. Stranger_NN Похоже, там все-же обе ветки хором запускать будут хм... Как ты себе это представляешь? |
GReY
дай ссылку плиз.
так могут включиить не в прескоте (или не в первых поставках), а вот обкатать его в массовых партиях смогут запросто — они же скорее всего включают и выключают его с помощью команд флешки. |
GReY, а нельзя ли попросить сороку поподробнее?
![]() matik
Да запросто. Если на программном уровне — то вообще просто, в рамках HTT новой, ввести описание на уровне компилятора о параллельном исполнении. Если на аппаратном... Тоже можно, если есть параллельные ФУ — то почему бы и не. Штраф за промах в обоих случаях становится минимален. |
Stranger_NN
Тоже можно, если есть параллельные ФУ — то почему бы и не да нерационально их так использовать... ИМХО... Достаточно большую часть времени (когда нет ветвлений) чем они будут заниматься? |
Stranger_NN
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>Возможно, но насколько я помню это называлось, как одно из достоинств EPIC. Это ВОЗМОЖНОСТЬ, но не неотъемлемое свойство. Скажем так, EPIC процессор можно загрузить одновременным рассчетом вариантов, но почему этого не сделать имеющим параллельные ФУ классическим процессорам я не вижу. Причем, можно менее вероятную ветку исполнять, например, с меньшим приоритетом в рамках HTТ. Без проблем. ![]() А я и не говорил, что кроме как в EPIC это нельзя реализовать...
Но они не стали делать для альтернативной ветки полноценный конвейер(который подразумевает ещё один полный набор ФУ) видимо из соображений экономии(площади, кол-ва транзисторов)... |
Страница 1 из 13 |
[ Сообщений: 507 ] | На страницу 1, 2, 3, 4, 5 ... 13 След. |
Кто сейчас на конференции |
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 0 |
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения |