Radeon.ru
https://forum.radeon.ru/

Обсуждаем Intel Next Generation Mult-core Platforms
https://forum.radeon.ru/viewtopic.php?f=17&t=14427
Страница 1 из 14

Автор:  Ivan Andreevich [ 23:17 24.08.2005 ]
Заголовок сообщения:  Обсуждаем Intel Next Generation Mult-core Platforms

Итак, подолью керосинчика в огонь. Дофига новостей: http://news.google.com/nwshp?hl=en&tab= ... EBIHA1.DTL


Intel’s Next Generation Micro-architecture**

• Higher Performance OOO (out of order) Engine**
–Wider (4 issue); Deeper Buffers; 14 Stage Efficient Pipeline

• Advanced Power Capability**
–Architected for Power Efficiency

• MultiMulti-core Enhanced Cache System**
–Shared & scalable L2 Cache
–Direct L1 to L1 cache transfer; Higher relative L2-core BW;

• Improved Memory Access**
–Improved Pre-fetch, Memory Disambiguation

**Micro-Architecture and Features Names TBD


1) Trace-cache: есть или нет
2) Как в pentium m прикрутили AMD64?
3) Что сулит 4-issue OOO (обошли АМД в этом плане)
4) Общий Л2 vs Отдельный как в К8
5) Частотный потенциал (без Replay, конечно)?
6) Direct L1 to L1 cache transfer — насколько быстрая \ широкая шина? Ядра на подложке отдельные..

И так далее :yes:

Автор:  BorisU [ 00:04 25.08.2005 ]
Заголовок сообщения: 

2) Почему вы решили, что "прикручивали к Pentium M"?

Автор:  Ivan Andreevich [ 00:17 25.08.2005 ]
Заголовок сообщения: 

BorisU
Есть альтернативные идеи — излагай :)

ЗЫ у нас тут лучше чем на ixbt, добро пожаловать :D

Автор:  BorisU [ 00:29 25.08.2005 ]
Заголовок сообщения: 

например с нуля делали новую архитектуру, используя опыт предыдущих.

Автор:  VLev [ 00:31 25.08.2005 ]
Заголовок сообщения: 


1) Trace-cache: есть или нет

IMHO, не нужен
2) Как в pentium m прикрутили AMD64?
особых проблем быть не должно
3) Что сулит 4-issue OOO (обошли АМД в этом плане)
давно пора, тем более, что у AMD макро-операции, они часто "весомее" микроопераций P6.
4) Общий Л2 vs Отдельный как в К8
Это несомненно лучше. Вообще, L2 кэш и сейчас лучше.
5) Частотный потенциал (без Replay, конечно)?
выше K8
6) Direct L1 to L1 cache transfer — насколько быстрая \ широкая шина?
Скорость и ширина, вероятно, сравнимы с доступом в L2. Не совсем понятно, зачем делать лучше.

Автор:  VLev [ 00:42 25.08.2005 ]
Заголовок сообщения: 


например с нуля делали новую архитектуру, используя опыт предыдущих.

P4 (NetBurst) с нуля не делали, за основу была взята микроархитектура P6, к которой был заменен front-end (TraceCacheи т.д. с целью упростить декодер) и исполнительная часть, (RapidExecEngine, с целью повысить рабочую частоту). Именно эти части в настоящий момент как раз неактуальны.

Впрочем, обратные "заимствования" (из P4 в P-M) тоже были, но носили фрагментарный характер.

Автор:  Walter S. Farrell [ 01:36 25.08.2005 ]
Заголовок сообщения: 

>–Wider (4 issue); Deeper Buffers; 14 Stage Efficient Pipeline

Да, похоже на доработку Pentium-M.

>3) Что сулит 4-issue OOO (обошли АМД в этом плане)

Не знаю, хорошо это или плохо... Декодеры будут ещё более извращёнными, что ограничит частотный потенциал ядра. Эффективность загрузки ФУ тоже под вопросом. Подождём подробностей...

>4) Общий Л2 vs Отдельный как в К8

Идея, кстати, неплоха. Если бы D-cache был со сквозной записью, то это бы упростило до максимума обеспечение когерентности. Но вряд ли Интел на это пойдёт.

>6) Direct L1 to L1 cache transfer — насколько быстрая \ широкая шина? Ядра на подложке отдельные..

Не меньше 256 бит, скорее всего. Задержки на доступ к чужому D-cache будут на пару тактов выше, но интересно, какова будет политика доступа: последовательная или параллельная.

>5) Частотный потенциал (без Replay, конечно)?

Кстати, не факт. В некоторой упрощённой форме риплэй может сохраниться. Как у EV6, например.

Автор:  Ivan Andreevich [ 08:07 25.08.2005 ]
Заголовок сообщения: 

Walter S. Farrell
Не знаю, хорошо это или плохо
Ага. АМД думает что больше уже не лучше. Они много раз говорили что больше чем в К7 уже не будет..
последовательная или параллельная.
http://theinquirer.net/?article=25674
Тут говорится о последовательном доступе в Л2. Посему, можно предположить последовательный доступ в Л1.
В некоторой упрощённой форме риплэй может сохраниться
Я, конечно, имел ввиду жуть которая в П4 — её не будет :beer:
BorisU
С нуля ни АМД ни Интел не делают :-p
VLev
выше K8
Это ясно. А если цифрами? Я думаю что почти 4 ГГц.

Автор:  chavv [ 08:47 25.08.2005 ]
Заголовок сообщения: 


Walter S. Farrell
VLev
выше K8
Это ясно. А если цифрами? Я думаю что почти 4 ГГц.

А зачем?

Автор:  Ivan Andreevich [ 09:39 25.08.2005 ]
Заголовок сообщения: 

chavv
Чего зачем? :)

Автор:  VLev [ 10:06 25.08.2005 ]
Заголовок сообщения: 


Это ясно. А если цифрами? Я думаю что почти 4 ГГц.

Я не возьмусь назвать конкретную цифру. За основу прогноза конечно можно взять современные P-M. В плюс идет "десктопный" редизайн и 65нм техпроцесс, в минус --- 64бит 1-тактовый сумматор и 4-issue планировщики/отставка. Ну и в полном тумане --- новый декодер (сейчас это самая сложная часть P6).

Автор:  BorisU [ 10:18 25.08.2005 ]
Заголовок сообщения: 

Может они соберутся выкинуть всякое неиспользуемое старье из системы команд, наконец?

Автор:  VLev [ 10:21 25.08.2005 ]
Заголовок сообщения: 


Может они соберутся выкинуть всякое неиспользуемое старье из системы команд, наконец?

нет. Изменений в программной модели быть не должно никаких IMHO.

Автор:  chavv [ 16:11 25.08.2005 ]
Заголовок сообщения: 

засчет чего "5) Частотный потенциал (без Replay, конечно)?" будет выше ?
14 стадий против 12 у К8
14 против 31 у Прескот.....
+ 4-issue vs 3 vs 2 ...

Автор:  Walter S. Farrell [ 16:44 25.08.2005 ]
Заголовок сообщения: 

Ivan Andreevich

>Тут говорится о последовательном доступе в Л2. Посему, можно предположить последовательный доступ в Л1.

Так с S-cache оно и понятно, незачем его перегружать лишними запросами. А вот с D-cache возможны варианты. Либо параллельно лезть в оба D-cache, либо в чужой D-cache параллельно с доступом в свой S-cache.

Ещё вот что интересно: неужели Интел изменила политику подключения D-cache на невключающую (exclusive)? Ведь если она бы осталась включающей, то есть содержимое обоих D-caches дублировалось бы в едином S-cache, то зачем усложнять дизайн и разводить лишнюю широкую шину между D-caches? Достаточно просто пройтись по тэгам S-cache...

BorisU

>Может они соберутся выкинуть всякое неиспользуемое старье из системы команд, наконец?

Очень маловероятно. Возможность выполнения даже самого древнего кода -- предмет особой гордости Интела. К тому же, всякое старьё в виде BCD-команд, ASCII-коррекции и прочего уже давно отдыхает в микрокоде, куда уж дальше...

Автор:  lefty [ 17:25 25.08.2005 ]
Заголовок сообщения: 

Кстати, интересно, получится ли у АМД к концу 2006 года разогнать свои двуядерники до 3Ггц?
Насколько я понимаю, Conroe/Merom будут близки к нынешним А64 Х2 по IPC и удельная производительность тоже будет близкой. Отсюда-то для АМД и встанет необходимость подгонять свои двуядерники до близких/больших частот.

Автор:  Ivan Andreevich [ 22:03 25.08.2005 ]
Заголовок сообщения: 

Sossoman & Yonah @ Cinebench:
http://www.computerbase.de/news/hardwar ... man_yonah/

Гм.. 1 x Dual Sossoman 1.5 GHz это 2 ядра. Примерно равен X2 3800+. Сinebench некритичен к ПСП (кстати, какая подсистема памяти у dual sossoman — 128-bit DDR666?) Можно сравнить числодробительный IPC — у Х2 он немного лучше. В двухпроцессорных системах Оптероны ещё оторвутся т.к. ПСП выше... В общем бояЦЦа только если Интел выпустить что-нить типа 2.5 ГГц DC.

Cкриншот CPU-Z показывает бред. 1) FSB 600 x 4 :eek:, множитель 2.5 и отсутствие поддержки AMD64.
lefty
ИМХО АМД реально может выпустить 2 x 2.8 GHz до конца года без смены техпроцесса, или даже 3 ГГц в первом квартале след. года. Хотя, наверное, 2.8 выйдет в Q106 вместе с FX-59.

Автор:  Arie [ 05:17 26.08.2005 ]
Заголовок сообщения: 

Ivan Andreevich

1 x Dual Sossoman 1.5 GHz это 2 ядра.

Это где вы там такое увидели ?

Автор:  Ivan Andreevich [ 05:18 26.08.2005 ]
Заголовок сообщения: 

Arie
Прошу прощения, я имел ввиду экстраполяцию производительности 2 ГГц "соски" :gigi:

Автор:  Ivan Andreevich [ 05:23 26.08.2005 ]
Заголовок сообщения: 

Всмысле чего увидел?

Автор:  BorisU [ 09:27 26.08.2005 ]
Заголовок сообщения: 

Про Sossaman

Being all about Enterprise, Pat talked about Sossaman — an Intel Xeon processor based on the 65nm Yonah core.

Sossaman will be made available at two separate power envelopes: 15W and 30W, both of which are extremely low for what will essentially be a high performance dual core server.

Intel will be making Sossaman available in 1U racks as well as other small form factor enterprise offerings.



У Yonah нет 64 бит, так что тут наверно их тоже нет.

Автор:  Ivan Andreevich [ 09:36 26.08.2005 ]
Заголовок сообщения: 

BorisU
У Yonah нет 64 бит, так что тут наверно их тоже нет.
А к чему тогда в слайдах написано 64-бита были взяты у П4? Не.. скорее в ноутах они искуственно отключены.

Автор:  BorisU [ 09:44 26.08.2005 ]
Заголовок сообщения: 

Ivan Andreevich

А к чему тогда в слайдах написано 64-бита были взяты у П4

Так Sossaman это не "next generation".

Автор:  Warrax [ 10:49 26.08.2005 ]
Заголовок сообщения: 

Ivan Andreevich
Sossoman & Yonah @ Cinebench:
http://www.computerbase.de/news/hardwar ... man_yonah/


То есть, еще не существующий dual yonah, после своего появления, вероятно, не сможет в топовой версии догнать даже Athlon 64 X2 3800+...
Близится ценовая война? :gigi:

Автор:  BorisU [ 11:41 26.08.2005 ]
Заголовок сообщения: 

Какая война? Кто в здравом уме поставит Athlon 64 X2 с TDP 89W в ноутбук, для которых, собственно Yonah и сделан?

Автор:  VLev [ 13:17 26.08.2005 ]
Заголовок сообщения: 


Какая война? Кто в здравом уме поставит Athlon 64 X2 с TDP 89W в ноутбук...

Уже сейчас есть 2xCore 1.8GHz OpteronX65HE с TDP 55W, что вполне соответствует термопакету буков класса "замена настольного ПК". У меня Mobile A64 с TDP 62W, а сам бук и вовсе поддерживает и процессоры с термопакетом 81.5W.
Но вообще, выход мобильных 2xCore A64 вряд ли состоится раньше 2Q06, так что у AMD еще есть достаточно времени уменьшить TDP при одновременном ускорении. IMHO, 2.2-2.4GHz Mobile A64x2 с TDP <~50W вполне возможен.

Автор:  skolSamara [ 13:29 26.08.2005 ]
Заголовок сообщения: 

BorisU
Дык вроде речь про Sossaman? :spy:

Автор:  VLev [ 13:31 26.08.2005 ]
Заголовок сообщения: 

Кстати, по поводу 4xIssue Pentium-ов "Next Generation" (P-NG):
Я о uops fusion забыл, что на самом деле сближает P-M и K7/8.
Кстати, интересно узнать, сколько у ядра P-NG портов запуска, и какие именно.
У P-M вроде 5 (по крайней мере 5 reservation stations):
0: IU1; FPU/SSE/MMX (скалярные видимо); MMX1 (первая половинка вектора?)
1: IU2; SSE (вектор?); MMX2
2: Load
3: STA
4: STD
По сравнению с K8:
меньше IntUnits (2vs3), меньше Load-ов (1vs2), меньше (?) FP (1vs2), зато более продвинутый (асинхронный) Store

Автор:  BorisU [ 13:47 26.08.2005 ]
Заголовок сообщения: 


Дык вроде речь про Sossaman?

Что-то мне кажется, что он от Yonah отличается в основном названием :)

Автор:  Ivan Andreevich [ 20:14 26.08.2005 ]
Заголовок сообщения: 

BorisU
Так Sossaman это не "next generation".
Не понял? :confused: А где и когда тогда будет это "следующее поколение"? В таком случае, что из себя представляют Sossoman / Yonah?

Автор:  BorisU [ 20:47 26.08.2005 ]
Заголовок сообщения: 

Next Generation Microarchitecture это Merom, Conroe, Woodcrest и т д.

А Yonah (И судя по всему Sossoman) это слегка подрихтованное ядро Pentium M + dual core на техпроцессе 65nm.

Автор:  matik [ 21:16 28.08.2005 ]
Заголовок сообщения: 

BorisU
А Yonah (И судя по всему Sossoman) это слегка подрихтованное ядро Pentium M + dual core на техпроцессе 65nm.
Согласен.

Автор:  Ivan Andreevich [ 21:30 28.08.2005 ]
Заголовок сообщения: 

Гм.. а в чём конретно состоит "лёгкая подрихтация" кроме перехода на новый техпроцесс?

Автор:  matik [ 21:36 28.08.2005 ]
Заголовок сообщения: 

Ivan Andreevich
а в чём конретно состоит "лёгкая подрихтация" кроме перехода на новый техпроцесс?
Ну, вариантов может быть много. Начиная от улучшения управления энергопотреблением, и заканчивая переделыванием каких-то блоков.
Впрочем, не думаю, что будет что-то существенное: нарастят емкость буферов, улучшат управление энергопотреблением, да и оптимизируют расположение блоков.

Автор:  BorisU [ 21:43 28.08.2005 ]
Заголовок сообщения: 

Вроде обещали FPU ускорить. Ну и dualcore + общий кэш.

Автор:  Ivan Andreevich [ 21:49 28.08.2005 ]
Заголовок сообщения: 

BorisU
Как? Это, помоему, самое слабое место pentium m.

Автор:  matik [ 21:51 28.08.2005 ]
Заголовок сообщения: 

BorisU
Вроде обещали FPU ускорить
Хм... Хорошо бы, но малореально. Потому что потребует, как мне кажется, заметного редизайна процессора.

Автор:  BorisU [ 21:52 28.08.2005 ]
Заголовок сообщения: 

Ivan Andreevich
Как?
Если бы я знал как — я бы давно уже на большой зарплате в интеле сидел :)

Автор:  matik [ 22:03 28.08.2005 ]
Заголовок сообщения: 

BorisU
Если бы я знал как — я бы давно уже на большой зарплате в интеле сидел
Ну, как бы способы известны. Другое дело, что на голом месте не прилепишь еще один блок FPU, просто чтобы "стало быстрее"...

Автор:  Ivan Andreevich [ 22:19 28.08.2005 ]
Заголовок сообщения: 

matik
Другое дело, что на голом месте не прилепишь еще один блок FPU, просто чтобы "стало быстрее"...
В next-generation они, похоже, так и сделают?

Страница 1 из 14 Часовой пояс: UTC + 3 часа
Copyright © 2001 - 2012, Radeon.ru Team
Powered by phpBB® Forum Software © phpBB Group
http://www.phpbb.com/