Обсуждаем будущее Pentium M: возможная поддержка x86-64 и т.д.

Страница 1 из 4 [ Сообщений: 142 ] Версия для печати [+]

На страницу 1, 2, 3, 4 След.

Показать сообщения за Поле сортировки

zurzic

Активный участник

Сообщения: 1630
Откуда: Марс

Репутация: 0

Добавлено: 10:48 14.05.2004

• Инфо • Цитировать

Предлагается всем присоединится к обсуждению возможностей будующих Pentium M и возможно К9. Для затравки привожу начало моего разговора с matik-ом

Fury 13.05.20 12:50 Привет
Как думаешь. если Прескотт будет последним
NetBurst , а будущие десктопы будут на ядре
PentiumM, означает ли это что в PentiumM будет (а
возможно уже? ) внедрён x86-64?

matador 13.05.20 12:53 думаю, да.... в П-М гораздо проще встроить х86-64

Fury 13.05.20 12:54 Ага как в К7. Ну что ж. Это хорошо, что мы опять
вернёмся к баллансу микропроцессоров, без ярко
выраженного преимущества того или другого в
конкретном приложении

matador 13.05.20 12:56

Согласен

)

matador 13.05.20 12:56 Впрочем, все же П-М чуток слабоват с К8
сражаться... Думаю, его будут усиливать...

Fury 13.05.20 12:57 Да, наверное 800 Мгц FSB дадут.

matador 13.05.20 12:57 не только...

matador 13.05.20 12:57 думаю, блоков доклеят...

matador 13.05.20 12:57 например, SSE2...

Fury 13.05.20 13:00 М.. А разве в Pentium M не было SSE2? Чес слово
не знаю, как то до него руки не доходили

matador 13.05.20 13:01 было

Но, учитывая малую (по сравнению с П4
частоту), придется делать этот блок шире, чтобы
перегнать НетБерст

Логично?

Fury 13.05.20 13:01 Второй FPU ? Согласен

matador 13.05.20 13:02 думаю, сделают... И, возможно, улучшат ситуацию с
АЛУ (хотя она вроде и так неплоха)...

matador 13.05.20 13:02 Ассоциативность кэша второго уровня стоит
поднять...

Fury 13.05.20 13:03 Интересно, а в К9 второй FPU делать не
собирались?

matador 13.05.20 13:03 не знаю

Честно

Fury 13.05.20 13:05 Вот я смотрел как-то на Спеки. Итаниум 2 у
Оптерона в плавучке выиигрывает в основном потому
что у него 2 FPU. Думаю, что если Оптерону второй
FPU дать, он на своей более высокой частоте
Itanium забить должен

matador 13.05.20 13:07 весь вопрос в том, сумеет ли он тогда достичь
своей высокой частоты

) Согласен?

Два ФПУ —
это более сложный декодер, и так далее...

Fury 13.05.20 13:07 Декодер, нет, планировщик — да. Вообще согласен
конечно

matador 13.05.20 13:08 Почему декодер нет?

А кормить ты чем будешь
два ФПУ? Тебе, значит, надо не 3МОПа за такт
делать, а хотя бы 4...

Fury 13.05.20 13:10 Я так не думаю. Чтобы кормить 2 FPU каждый такт,
достаточно каждый такт декодировать 1 SSE[2]
команду (сейчас же 2 половинки исполняются со
сдигом в такт). А у нас полторы, так что запас

matador 13.05.20 13:11 а весь остальной процессор пойдет рыбу удить?

)
Адреса обрабатывать, условные переходы, данных
дожидаться...

)

matador 13.05.20 13:11 Не-е-е-е, был бы четкий стимул расширять до 4
МОПов... Конечно, и три тоже ничего — но, ИМХО, в
данном случае есть прямой смысл уширять весь
тракт...

Fury 13.05.20 13:14 >а весь остальной процессор пойдет рыбу удить?

)
:—) хорошо сказал. И да и нет. "Нет" потому что в
плотных циклах, FPU команды преобладают. Но если
расшить до 4-х без потери в тактовой частоте
смогли, было бы великолепно

matador 13.05.20 13:15 именно:
1. Было бы место для 2ССЕ за такт
2. Можно было бы обрабатывать достаточно
продвинутую целочисленную логику...

Не-е-е-е, если уж связываться с увеличением
количества ФПУ, то попутно расширяя конвейер

Тем паче, что именно ФПУ, думаю, один из самых
греющихся блоков...

Fury 13.05.20 13:16 Да, уж.

ISA_user

Активный участник

Сообщения: 1925
Откуда: Москва, Россия

Репутация: 0

Добавлено: 11:26 14.05.2004

• Инфо • Цитировать

Не, им МС надо тоже интегрировать

matik

Штатный мерзавец

Сообщения: 7188
Откуда: Москва\Одесса

Репутация: 5

Добавлено: 11:28 14.05.2004

• Инфо • Цитировать

ISA_user
Думаю, это они оставят на крайний случай... Потому что одна из сильных сторон Интеловских чипсетов — контроллер памяти. Если его интегрировать в процессор, сильно снизится привлекательность Интеловских чипсетов — они и дороже конкурентов, и, как правило, функционально беднее...

Зачем себе бизнес подрезать?

zurzic

Активный участник

Сообщения: 1630
Откуда: Марс

Репутация: 0

Добавлено: 11:36 14.05.2004

• Инфо • Цитировать

ISA_user
К тому же котнролер памяти IMO не даст того преимущества, котое дал бы, например, второй FPU.

ISA_user

Активный участник

Сообщения: 1925
Откуда: Москва, Россия

Репутация: 0

Добавлено: 11:37 14.05.2004

• Инфо • Цитировать

matik
Потому что одна из сильных сторон Интеловских чипсетов — контроллер памяти.
но шина! она в раз имеет большую латентность, т.к и сама она и буфера на стороне ЦПУ и МС работают на "малых" частотах.
Зачем себе бизнес подрезать?
ну только из-за этого? хотя они ведь могут и кривую построить чт выгоднее — уж свою маржу они знают

Yury_Malich
К тому же котнролер памяти IMO не даст того преимущества, котое дал бы, например, второй FPU.
зато это можно сделать быстрее, т.к. это вопрос технологии а не разработки...

zurzic

Активный участник

Сообщения: 1630
Откуда: Марс

Репутация: 0

Добавлено: 11:41 14.05.2004

• Инфо • Цитировать

<BLOCKQUOTE>цитата:<HR size=22>ISA_user:
зато это можно сделать быстрее, т.к. это вопрос технологии а не разработки...<HR size=22></BLOCKQUOTE>
Не думаю что интегрировать котроллер памяти намного проще чем второй FPU. Хотя утвержать или опровергать что-то здесь не рискну.

KSP

Активный участник

Сообщения: 367

Репутация: 0

Добавлено: 11:54 14.05.2004

• Инфо • Цитировать

matik
сильно снизится привлекательность Интеловских чипсетов — они и дороже конкурентов, и, как правило, функционально беднее...

Зачем себе бизнес подрезать?

Напротив, они весь бизнес контроллеров памяти себе забирают, попутно забирая эти деньги у конкурентов. Плюс если ставить вопрос "проигрывать по производительности и делать много денег на чипсетах" против "делать на чипсетах меньше, но иметь топовую производительность", то ответ очевиден.

ISA_user

Активный участник

Сообщения: 1925
Откуда: Москва, Россия

Репутация: 0

Добавлено: 12:01 14.05.2004

• Инфо • Цитировать

Yury_Malich
Не думаю что интегрировать котроллер памяти намного проще чем второй FPU.
намного

VLev

Активный участник

Сообщения: 1982
Откуда: Moscow

Репутация: 0

Добавлено: 12:28 14.05.2004

• Инфо • Цитировать

Yury_Malich, matik: По поводу "второго" FPU в K8+ (да и P-M, видимо, тоже):
речь идет в основном об ускорении векторных SSE2 операций (а не скалярных или x87), так что ни декодер, ни планировщик это существенно не затронет. То есть, конечно, видимо, надо некоторые новые mop-ы, будет ввести, но и только.
Более того, собственно, речь не об "удвоении" блоков, а об уширении одного блока с 80бит до 128 (ну или для мантиссы с 64 до ~100), то есть сложность блока FPU возрастает "всего лишь" в ~1.5 раза.

Много хуже (точнее, лучше, но сложнее) то, что это автоматически потребует расширения всех внутренних шин данных с 64 до 128битов.

По поводу P-M надо у C@t спросить. Он вроде считает, что там "удвоение" просто сделать не получится.

Я еще раз посмотрел OptManual на Pentium's. Вроде бы по простым FPU операциям K8 и P-M потактово-идентичны, по сложным K8 много лучше. Однако в низкоуровневых внутрикэшевых тестах P-M проигрывает даже на простых операциях. Вероятно, дело еще в доступе в L1 кэш.
В общем, с FPU в P-M делать что-то в любом случае надо. А в K8+ (всвязи с отменой Tejas), может, и не обязательно --- он и так конкурентноспособный (а жаль).

matik

Штатный мерзавец

Сообщения: 7188
Откуда: Москва\Одесса

Репутация: 5

Добавлено: 12:36 14.05.2004

• Инфо • Цитировать

KSP
Напротив, они весь бизнес контроллеров памяти себе забирают
Сомневаюсь, что есть некий отдельный "бизнес контроллеров памяти"... Есть рынок чипсетов. Привлекательность чипсетов именно от Интел — в их производительности, поскольку функциональность у конкурентов шире. Соответственно, убрав производительность — подрежем привлекательность. Зачем?

Плюс если ставить вопрос "проигрывать по производительности и делать много денег на чипсетах" против "делать на чипсетах меньше, но иметь топовую производительность", то ответ очевиден.

А вот это действительно сложный выбор. Только я бы его чуток по-другому рассмотрел...

1. Если процессоры будут безусловно и сильно проигрывать по производительности, то это будет вынужденный шаг — тогда не до жиру.
2. Если будут примерно равны (или не сильно проигрывать), тогда можно и не делать. И, соответственно, не снижать свои прибыли...

VLev
он и так конкурентноспособный (а жаль).
Я понял идею, но КАК это звучит!

matik

Штатный мерзавец

Сообщения: 7188
Откуда: Москва\Одесса

Репутация: 5

Добавлено: 13:06 14.05.2004

• Инфо • Цитировать

VLev
речь идет в основном об ускорении векторных SSE2 операций
Кстати, подумалось вот чего — а почему бы не сделать второй блок? Тогда вырастет скорость ВСЕХ операций, а не только векторных.
Явно выгоднее. Правда, может оказаться заметно более сложным.

KSP

Активный участник

Сообщения: 367

Репутация: 0

Добавлено: 13:08 14.05.2004

• Инфо • Цитировать

matik
убрав производительность
Убрав отличие/преимущество в производительности
подрежем привлекательность. Зачем?
Но при этом себестоимость/прибыль контроллера памяти они будут забирать себе с каждого проца, а не с каждого чипсета.

Если будут примерно равны (или не сильно проигрывать), тогда можно и не делать.
Согласен. Хотя тенденция к интеграции всего в проц налицо.

VLev
А в K8+
Вряд-ли все недавние новости столь фундаментально повлияют на разработку К8+. Кстати, когда он намечается к выходу?

matik

Штатный мерзавец

Сообщения: 7188
Откуда: Москва\Одесса

Репутация: 5

Добавлено: 13:19 14.05.2004

• Инфо • Цитировать

KSP
Но при этом себестоимость/прибыль контроллера памяти они будут забирать себе с каждого проца, а не с каждого чипсета.
Дык как бы и так процентов 80% рынка чипсетов у ИНтел... Так что принципиально разница невелика. И еще одно... Брать деньги за встроенный в процессор контроллер сложно. Как Вы себе это представляете?

Вы же за ФПУ не доплачиваете, не так ли? Соответственно, напрямую денег не снять — разве что косвенно, за увеличенную скорость системы.

KSP

Активный участник

Сообщения: 367

Репутация: 0

Добавлено: 14:16 14.05.2004

• Инфо • Цитировать

matik
разве что косвенно, за увеличенную скорость системы.
Примерно так. При этом снизив цену и себестоимость чипсета, на что будут вынуждены пойти и конкуренты.
И сколько вообще составляет чипсетный бизнес против ЦПУшного в деньгах?

VLev

Активный участник

Сообщения: 1982
Откуда: Moscow

Репутация: 0

Добавлено: 14:29 14.05.2004

• Инфо • Цитировать

<BLOCKQUOTE>цитата:<HR size=22>matik:
Явно выгоднее. Правда, может оказаться заметно более сложным.<HR size=22></BLOCKQUOTE>
Сложнее --- несоизмеримо.
Что выгоднее --- спорно, т.к. пропадет сбалансированность потоков кода, данных и "мощности" FPU.
Кстати, не факт что будет даже просто быстрее.
В смысле будет примерно одинаково на неоптимизированном коде и на оптимизированном векторном.
Так что остается только оптимизированный чисто скалярный... IMHO, "убиваться" за это бессмысленно.

VLev

Активный участник

Сообщения: 1982
Откуда: Moscow

Репутация: 0

Добавлено: 14:32 14.05.2004

• Инфо • Цитировать

<BLOCKQUOTE>цитата:<HR size=22>KSP:
Вряд-ли все недавние новости столь фундаментально повлияют на разработку К8+. Кстати, когда он намечается к выходу?<HR size=22></BLOCKQUOTE>
Не знаю...
Хотя лично я бы многие шины данных до 128бит расширил бы уже в 90nm K8. Ну и FPU за одно...

Активный участник

Сообщения: 1148
Откуда: Faraway So Close

Репутация: 0

Добавлено: 15:11 14.05.2004

• Инфо • Цитировать

Yury_Malich
а будущие десктопы будут на ядре PentiumM
В ближайшие годы Прескотт будет в десктопах. Интел подтвердил это вчера.

KSP
И сколько вообще составляет чипсетный бизнес против ЦПУшного в деньгах?
За 1 кв 2004: Microprocessor = $5,980 (In millions), Chipset + mb = $1,045 (In millions)
Зачем ломать то, что приносит неслабый доход?

VLev

Активный участник

Сообщения: 1982
Откуда: Moscow

Репутация: 0

Добавлено: 15:41 14.05.2004

• Инфо • Цитировать

<BLOCKQUOTE>цитата:<HR size=22>U2:
Зачем ломать то, что приносит неслабый доход?
<HR size=22></BLOCKQUOTE>
Да, я тоже думаю, что это и есть основной аргумент почему не будет встроенного MC у Intel в ближайшее время.
Но еще есть и технический:
Надо разрабатывать шину общения процессора с внешним миром. Так как она д.б. стандартизирована (я тут надеюсь, что совсем закрытых архитектур Intel делать не будет), то, насколько я понимаю, о ее параметрах сообщают задолго до выпуска.
Но но о чем подобном Intel вроде бы пока не сообщала.
Или же это будет HyperTransport ™ Technology

0serg

Новичок

Сообщения: 88
Откуда: г. Химки, М.О., Россия

Репутация: 0

Добавлено: 16:05 14.05.2004

• Инфо • Цитировать

VLev
Или PCI Express 16-32x. Why not? Её вполне достаточно для десктопов. Правда что делать в многопроцессорных архитектурах — неясно. На худой конец можно ту же QPB немного переделать.

zurzic

Активный участник

Сообщения: 1630
Откуда: Марс

Репутация: 0

Добавлено: 16:26 14.05.2004

• Инфо • Цитировать

U2
<BLOCKQUOTE>цитата:<HR size=22>
В ближайшие годы Прескотт будет в десктопах. Интел подтвердил это вчера.
<HR size=22></BLOCKQUOTE>
Я бы уточнил "в ближайшие год ". До второго квартала 2005 не намного больше года

. Но это не мешает нам сейчас обсуждать. Не так ли?

matik

Штатный мерзавец

Сообщения: 7188
Откуда: Москва\Одесса

Репутация: 5

Добавлено: 16:32 14.05.2004

• Инфо • Цитировать

VLev
Что выгоднее --- спорно, т.к. пропадет сбалансированность потоков кода, данных и "мощности" FPU.
Если делать второй FPU, то делать и 4МОПа за такт, это понятно...

лично я бы многие шины данных до 128бит расширил бы уже в 90nm K8. Ну и FPU за одно...
Очень может быть, что этим сейчас инженеры АМД и заняты — в конце концов, сдерживающая сила явно технологи, а не разработчики...

VLev

Активный участник

Сообщения: 1982
Откуда: Moscow

Репутация: 0

Добавлено: 17:47 14.05.2004

• Инфо • Цитировать

<BLOCKQUOTE>цитата:<HR size=22>matik:
Если делать второй FPU, то делать и 4МОПа за такт, это понятно...<HR size=22></BLOCKQUOTE>
Только 4х MOP-ов IMHO, не достаточно. Если мы за такт в FPU будем получать 2 независимых результата из 4х аргументов систематически (4 из 8 в пике), то существующее LSU (2load+1store за такт) просто не справится с такой нагрузкой.

Короче, я просто не понимаю как с существующему ядру прикрутить второй FPU.

BEKTOP

Новичок

Сообщения: 95
Откуда: San Francisco Москва

Репутация: 0

Добавлено: 20:01 14.05.2004

• Инфо • Цитировать

Мои 2 копейки:

1. EM64T в P-M будет. Отеллини подтвердил (см, например, http://www.theinquirer.net/?article=15915 в конце заметки)

2. Насчет 2-го FPU. В раннем tape-out Willamette было 2 полноценных FP execution units. Потом для экономии площади, 2-й unit урезали (что сыграло одну из роковых ролей в судьбе P-4). Сейчас Intel, скорей всего, не повторит ту же ошибку.

3. НТ и memory controller будут — по слухам — в Conroe

[Исправлено: BEKTOP : 15-05-2004 02:06]

matik

Штатный мерзавец

Сообщения: 7188
Откуда: Москва\Одесса

Репутация: 5

Добавлено: 03:04 15.05.2004

• Инфо • Цитировать

BEKTOP
В раннем tape-out Willamette было 2 полноценных FP execution units
Я тоже читал это в давней iXBT-шной статье про П4, но так и не понял, а откуда взялась эта идея? Очень как-то странно выглядит...

Ivan Andreevich

Активный участник

Сообщения: 1256
Откуда: Ванкувер

Репутация: 0

Добавлено: 04:05 15.05.2004

• Инфо • Цитировать

Давайте попробуем составить список фич Post-P6 (aka Pentium M c двумя ядрами) который позволит ему догнать и обогнать очень быстрый Оптерон? Причём чтобы это было с заделом на несколько лет вперёд

BEKTOP

Новичок

Сообщения: 95
Откуда: San Francisco Москва

Репутация: 0

Добавлено: 05:12 15.05.2004

• Инфо • Цитировать

<BLOCKQUOTE>цитата:<HR size=22>matik:
BEKTOP
В раннем tape-out Willamette было 2 полноценных FP execution units
Я тоже читал это в давней iXBT-шной статье про П4, но так и не понял, а откуда взялась эта идея? Очень как-то странно выглядит...<HR size=22></BLOCKQUOTE>

Идея добавить или убрать? Вообще-то 2 execution units там есть и сейчас. В первоначальном дизайне они оба были полноценными, но потом 2-й юнит урезали, оставив только функции move(load)/store.

zurzic

Активный участник

Сообщения: 1630
Откуда: Марс

Репутация: 0

Добавлено: 12:54 15.05.2004

• Инфо • Цитировать

VLev
<BLOCKQUOTE>цитата:<HR size=22>По поводу "второго" FPU в K8+ (да и P-M, видимо, тоже):
речь идет в основном об ускорении векторных SSE2 операций (а не скалярных или x87), так что ни декодер, ни планировщик это существенно не затронет. То есть, конечно, видимо, надо некоторые новые mop-ы, будет ввести, но и только.
Более того, собственно, речь не об "удвоении" блоков, а об уширении одного блока с 80бит до 128 (ну или для мантиссы с 64 до ~100), то есть сложность блока FPU возрастает "всего лишь" в ~1.5 раза.<HR size=22></BLOCKQUOTE>
Не согласен. Я так полагаю, что как раз в случае уширения придёться переделывать и декодер и планирощик. Декодер:, потому что во всех случаях для каждой команды вместо двух мопов SSE[2] придётся делать новый один МОП, а для планировщика появятся новые типы данных (128 -разрядные), который тоже нужно учитывать. А в случае добавления второго FPU декодер переделывать в принципе не надо вообще: два SSE[2] МОПа будут уходить на два независимых FPU , может немного доделать декодер.

Цитата:
>Что выгоднее --- спорно, т.к. пропадет сбалансированность потоков кода, данных и "мощности" FPU. \

Ну внутренние шины данных естественно придётся расширить в любом случае: ущирения FPU или удвоения. Что мы будем иметь: декодеры выдают не менее трёх МОПов за такт, 2 FPU смогут за такт проглатывать 2 из трёх МОПов, данные для которых смогут поступать по шинам удвоенный ширины. Где же дизбалланс?

Цитата:
>Кстати, не факт что будет даже просто быстрее. В смысле будет примерно одинаково на неоптимизированном коде и на оптимизированном векторном.\

А какая нам в принципе разница скалярный или векторый? Нам шашечки или ехать? Главное чтобы с конвейеров могли сходить 2 FPU МОПа за такт а из каких x86 команд эти МОПы добывать скалярных x87, SSE или векторных SSE по-моему для планировщика и 2-х FPU не важно. У векторных преимущество: надо меньше x86 команд на то же количество МОПов.

Цитата:
>Так что остается только оптимизированный чисто скалярный... IMHO, "убиваться" за это бессмысленно.\

Не понял, что значит "остается ", почему он вдруг сам по себе?

BEKTOP

Цитата:
> EM64T в P-M будет. Отеллини подтвердил (см, например, http://www.theinquirer.net/?article=15915 в конце заметки)\

Имеется ввиду He said the EM64T technology will also be put into dual core systems. ?
Ой как не скоро это. Прескотт получается в ближайшее время единственный x86-64 процессор Интел.

Цитата:
> НТ и memory controller будут — по слухам — в Conroe\

Не верю я что в Pentium M будет HT. Не к селу он там IMO

zurzic

Активный участник

Сообщения: 1630
Откуда: Марс

Репутация: 0

Добавлено: 13:08 15.05.2004

• Инфо • Цитировать

Ещё у меня есть одна мысль: интересно появится ли когда нибудь в системе команд SSE команда muladd (умножение с накоплением) которая есть в PowerPC и Itanium. Правда её придётся делать 3-х операндной, что для синтаксиса x86 может представить трудность, но не преодолимую , если отказатся от ссылок в память в синтаксисе команды.

matik

Штатный мерзавец

Сообщения: 7188
Откуда: Москва\Одесса

Репутация: 5

Добавлено: 13:56 15.05.2004

• Инфо • Цитировать

BEKTOP
Вообще-то 2 execution units там есть и сейчас. В первоначальном дизайне они оба были полноценными, но потом 2-й юнит урезали, оставив только функции move(load)/store.
Да, слышал. Только вот непонятно, откуда же все-таки растут ноги у этой идеи...

Yury_Malich
Не согласен

Ты сумел оформить то, что я хотел промычать

Ещё у меня есть одна мысль
Когда-нибудь — может быть. Вот как раз в АМД64 ее бы ввести, все равно расширяли систему команд... А теперь разве что на SSE4 какое-нибудь придется надеяться...

VLev

Активный участник

Сообщения: 1982
Откуда: Moscow

Репутация: 0

Добавлено: 15:06 15.05.2004

• Инфо • Цитировать

Yury_Malich:
... во всех случаях для каждой команды вместо двух мопов SSE[2] придётся делать новый один МОП,
С этим я согласен. Я и писал:
> То есть, конечно, видимо, надо некоторые новые mop-ы, будет ввести, но и только.
Но это IMHO будет даже некоторым упрощением настоящей ситуации при одновременном общем улучшении, так как несколько разгружает весь тракт от декодера до буферов команд FPU, позволяя другим mop-ам "двигаться" по нему свободнее.
В общем, эти mop-ы становятся еще более макро-, что лежит в русле идеологии конвейера K7/8.
а для планировщика появятся новые типы данных (128 -разрядные), который тоже нужно учитывать.
Ну и слава Богу. Я тут вообще никакого усложнения не вижу (именно для планировщика). Шины данных и физ. регистры --- да, должны измениться.

А в случае добавления второго FPU декодер переделывать в принципе не надо вообще: два SSE[2] МОПа будут уходить на два независимых FPU ,
"В принципе", действительно не надо.
Но что тогда, со старым декодером, нам дает-то второй FPU?
Максимальная скорость наполнения декодером очередей: 1.5 SSE2 инстр/такт, а скорость разгрузки у "существенной части" двойного FPU --- 2 (add+mul).
Соотношение наполнение/разгрузка д.б. минимум обратное, т.к. на каждую FPU операцию приходится еще сколько-то вспомогательных (скажем, 1.1: одна операция загрузки и еще кусочек операций сохранения и изменения базового адреса.
может немного доделать декодер.
Тут даже 4 mop/такт мало. Так что IMHO, лучше изменить сами mop-ы
Ну внутренние шины данных естественно придётся расширить в любом случае: ущирения FPU или удвоения.
Но --- совершенно по-разному.
В случае уширения просто увеличить разрядность с 64бит до 128, а в случае удвоения --- делать вторую независимую 64бит шину и как-то решать проблемы разделения ими доступа в L1 кэш и к регистрам.
Что мы будем иметь: декодеры выдают не менее трёх МОПов за такт, 2 FPU смогут за такт проглатывать 2 из трёх МОПов,
4 (add+mul) не считая load/store (сейчас +2).
Итого минимум 6 из 3 возможных.
данные для которых смогут поступать по шинам удвоенный ширины.
По удвоенному количесту шин той же ширины.

А какая нам в принципе разница скалярный или векторый? Нам шашечки или ехать? Главное чтобы с конвейеров могли сходить 2 FPU МОПа за такт
Они и так сходят, и даже 3 (1add+1mul+1ld/store).
Лично я борюсь за [содержательных] 6 "rop"-ов, а не за 3 mop-а (как сейчас).
Именно потому, что мне "ехать", а не шашечки.
А так мне конечно все равно как это будет называться и из чего они будут набираться.

Не понял, что значит "остается ", почему он вдруг сам по себе?
Потому что, раз уж оптимизация под SSE2 делается, то можно и векторизовать заодно. Мне вообще кажется использование SSE2 в чисто скалярном режиме (как реально сейчас в оптимизации под AMD64) чем-то искусственным.

VLev

Активный участник

Сообщения: 1982
Откуда: Moscow

Репутация: 0

Добавлено: 15:15 15.05.2004

• Инфо • Цитировать

<BLOCKQUOTE>цитата:<HR size=22>Yury_Malich:
Ещё у меня есть одна мысль: интересно появится ли когда нибудь в системе команд SSE команда muladd (умножение с накоплением) которая есть в PowerPC и Itanium.<HR size=22></BLOCKQUOTE>
IMHO, не нужна.

zurzic

Активный участник

Сообщения: 1630
Откуда: Марс

Репутация: 0

Добавлено: 16:17 15.05.2004

• Инфо • Цитировать

VLev
Ок, мысль понятна, я ещё обдумаю. Интересно ещё C@t-а послушать

Цитата:
>IMHO, не нужна\

Почему? Зависимое сложение после умножение это 4+4=8 тактов. muladd Выпоняет эту же пару за 4 такта. Очень мощная команда.

VLev

Активный участник

Сообщения: 1982
Откуда: Moscow

Репутация: 0

Добавлено: 16:50 15.05.2004

• Инфо • Цитировать

<BLOCKQUOTE>цитата:<HR size=22>Yury_Malich:
Почему? Зависимое сложение после умножение это 4+4=8 тактов. muladd Выпоняет эту же пару за 4 такта. Очень мощная команда.<HR size=22></BLOCKQUOTE>
Ну, это как реализовать...
Вообще, самым простым улучшением FPU я считаю добавку функции fadd умножителю. Тогда FPU сможет выполнять не только 1add+1mul, но и 2add за такт --- более универсально, и не требует никаких других изменений.
Ну и соответственно, тогда можно подумать и о muladd.
Но пока сумматор и умножитель отдельные блоки --- muladd IMHO не нужен.

zurzic

Активный участник

Сообщения: 1630
Откуда: Марс

Репутация: 0

Добавлено: 20:22 15.05.2004

• Инфо • Цитировать

VLev

Цитата:
>Но пока сумматор и умножитель отдельные блоки --- muladd IMHO не нужен.\

О да, совершенно согласен, для muladd нужен Fmuladd. Я кстати и подразумевал, что так должно быть, когда писал о muladd. Кстати и два FPU , о которых я рассуждал представляются мне как два устройства Fmuladd и два Fload, a не как 6: Fmul, Fadd, Fload, Fmul, Fadd, Fload

[Исправлено: Yury_Malich : 16-05-2004 00:57]

Ivan Andreevich

Активный участник

Сообщения: 1256
Откуда: Ванкувер

Репутация: 0

Добавлено: 20:25 15.05.2004

• Инфо • Цитировать

Tejas отменили — а что будет c TNI (SSE4)? Дебютирует с Post-P6 или на него забили вместе с NetBurst?

zurzic

Активный участник

Сообщения: 1630
Откуда: Марс

Репутация: 0

Добавлено: 23:48 15.05.2004

• Инфо • Цитировать

Ivan Andreevich
Скорее всего сделают когда-нибудь.
Кстати насколько я понимаю в Dothan пока даже SSE3 нет.

BEKTOP

Новичок

Сообщения: 95
Откуда: San Francisco Москва

Репутация: 0

Добавлено: 04:41 16.05.2004

• Инфо • Цитировать

<BLOCKQUOTE>цитата:<HR size=22>matik:
BEKTOP
Вообще-то 2 execution units там есть и сейчас. В первоначальном дизайне они оба были полноценными, но потом 2-й юнит урезали, оставив только функции move(load)/store.
Да, слышал. Только вот непонятно, откуда же все-таки растут ноги у этой идеи...
<HR size=22></BLOCKQUOTE>

Скорей всего, идеологи NetBurst предполагали скомпенсировать длинный конвейер.
Отсюда и идея 2 ALU и 2 FPU.
Согласен, что производительность П(2 FPU) <= П(FPU) + П(FPU). Но все же прирост был бы.

Ivan Andreevich

Активный участник

Сообщения: 1256
Откуда: Ванкувер

Репутация: 0

Добавлено: 20:51 16.05.2004

• Инфо • Цитировать

Yury_Malich
Насколько я понимаю, из-за смены архитектуры набор SIMD комманд нужно перерабатывать. Всё же там многие комманды были ориентированы на NetBurst и её слабые места.

zurzic

Активный участник

Сообщения: 1630
Откуда: Марс

Репутация: 0

Добавлено: 23:16 16.05.2004

• Инфо • Цитировать

Ivan Andreevich

Цитата:
>Насколько я понимаю, из-за смены архитектуры набор SIMD комманд нужно перерабатывать. Всё же там многие комманды были ориентированы на NetBurst и её слабые места.\

Да нет, с набором команд всё в порядке. Он логичен и строен и вполне универсален, если не считать команд для HT (это наверное единственные команды ориентированные на NetBurst). Под NetBurst ориентирована оптимизация потока команд. А вот что касается самой оптимизации, это да, доработать под Pentium M придётся.

GReY

Участник

Сообщения: 381
Откуда: Салават

Репутация: 0

Добавлено: 00:16 17.05.2004

• Инфо • Цитировать

matik

Цитата:
>Если делать второй FPU, то делать и 4МОПа за такт, это понятно...\

Почему, скажем, не 5? Или 6, как подсчитал VLev?

VLev

Цитата:
>В общем, эти mop-ы становятся еще более макро-, что лежит в русле идеологии конвейера K7/8.\

Микро WLIV?

BEKTOP

Цитата:
>В раннем tape-out Willamette было 2 полноценных FP execution units. Потом для экономии площади, 2-й unit урезали (что сыграло одну из роковых ролей в судьбе P-4). Сейчас Intel, скорей всего, не повторит ту же ошибку.\

1) откуда эти данные? меня тоже давно интересует их источник
2) даже если и хотели, то просто передумали, потому что ни в Норсвуде, ни в прескотте ничего не изменилось — а ведь могли запросто.

Yury_Malich

Цитата:
>Не верю я что в Pentium M будет HT. Не к селу он там IMO\

IMHO HT везде "к селу", если ядро способно переваривать много операций одновременно.

Цитата:
>Правда её придётся делать 3-х операндной, что для синтаксиса x86 может представить трудность\

Есть же уже трёхоперандные.

Новая тема Ответить

Страница 1 из 4

[ Сообщений: 142 ]

На страницу 1, 2, 3, 4 След.

Кто сейчас на конференции