Конференция работает на сервере Netberg

Radeon.ru

Конференция Radeon.ru

Страница 16 из 18 [ Сообщений: 689 ]  Версия для печати [+] На страницу Пред.  1 ... 13, 14, 15, 16, 17, 18  След.
Показать сообщения за  Поле сортировки  
matik
Несогласным с перспективностью Бульдозера ;) посвящается: FX оказались коммерчески очень успешными продуктами для AMD
Именно поэтому я себе сейчас взял делловский ноут Vostro 3550 c i5. :D Я подозреваю, что народ, закупившийся матерями АМ3+ с прицелом на бульдозеры, понял, что ловить нечего и поплелся в магазин за оными. Не менять же теперь всю систему? Если это конечно не байка... :gigi:

Пока предлагаю почитать AMD отвечает на вопросы
Ты знаешь, я не поверил своим глазам, решил что не проснулся и загнал в два разных переводчика. :eek: Но, увы — господа из АМД полностью подтвердили все то, о чем я говорил. Особенно хорош ответ на вопрос №7 — "патамушта это инновации"!!! :lol:

Я подозреваю, что народ, закупившийся матерями АМ3+ с прицелом на бульдозеры, понял, что ловить нечего и поплелся в магазин за оными.
Очень даже не исключено.... Одного такого деятеля и я знаю, точно.
Бульдозеры могли раскупаться для серверов. Дёшево и сердито.
Merlin

Именно поэтому я себе сейчас взял делловский ноут Vostro 3550 c i5.

А собирались с бульдозером? Хм... ноут с бульдозером-это не слишком ммм.... жирно?
matik
FPU в х86 всегда имел несколько обособленную структуру (еще в виде х87).
:no: Пример.

П4 внутри вполне себе риск со своими uops (как и все другие х86, начиная с К5 и Р6)
Тогда уж начинай с Nx586 (1994 год), который был RISC-процессором с прикрученным x86 декодером. Потом и все другие x86 внутри стали RISC-подобными. Но П4 — это не-RISC, т.к. он поддерживает x86 ISA, в которой есть инструкции с комплексным адресованием (т.е. арифметические инструкции, которые ещё и выполняют доступ к памяти).

Я бы сказал, что х86 внутри устроены уже значительно сложнее и навороченнее (в хорошем смысле этого слова).
См. ниже про деньги Интел.

Плюс х86 — действительно куча софта, и, главное, лидирующая производительность (в массовом секторе). Деньги здесь фактор второго порядка. А то и третьего.
Именно вложением огромных сумм денег (несравнимых с конкурентами) в разработку, Интел добился высокой производительности от x86 (начиная с P5 обгонять всех). Если бы x86 не успела занять прочной позиции на рынке до появления нормального RISC железа, то о ней бы уже давно забыли.

Есть впечатление, что производители х86 еще всерьез не брались за рынок мобильных девайсов. Он по объему сильно меньше, чем традиционных процессоров, и прибыли там мало. Поэтому что Интел, что АМД вяло отмахнулись своими Атомами и Бобкэтами.
Совсем другие архитектуры оба x86 производителя сделали — куда уж ещё серьёзнее браться? Объем рынка — у меня дома только один традиционный x86 процессор сейчас используется, а кроме него десятки других (нетбук [Atom], три телефона[ARM], принтер, модем, маршрутизатор, ВК, всякие контроллеры в НЖМД и т.п., ~10(!) RISC процов [POWER, ARM] в каждом автомобиле, прочая бытовая электроника).

Walter S. Farrell
Длинными они были по меркам 1980-х, когда до x86 конвейеризация вообще ещё не добралась. По современным меркам они вполне короткие.
2011 год, прямо сейчас: MIPS32 1074K — 1.5 ГГц, TSMC 40 nm, и 15 стадий конвейера; AMD E-350 — 1.6 ГГц, TSMC 40 nm, и 15 стадий конвейера, включая три стадии на x86 декодер.

matik
Нет. Это просто кэш, что бы он ни хранил. Он может помочь сэкономить электроэнергию (если уже есть декодированный кусок), позволяя не включать декодер, но участком декодера он не является.
Он не просто энергию экономит — он ещё и конвейер на две стадии укорачивает (в случае попадания).

Зачем его дальше "расширять", собственно? Проблема декодера не в ширине. Проблема в нерегулярной длине х86 инструкций.
Я имел ввиду "расширять" количеством транзисторов, не в ширину. Проблема нерегулярной длины х86 инструкций — это проблема Интела, а не x86, т.к. на AMD такой проблемы нет. Интелы ещё и только до 16 байт кода за такт могут. Вот и придумывают они всякие uop cache вместо другого увеличения декодера. Если даже декодер не является узким местом, то он всё-равно растёт и будет расти по причине постоянного добавления новых инструкций в x86. Хотя, Илье тут в Бульдозере именно ширины не хватает.

Тем не менее, каждый их двух потоков имеет отметку о том, какому ядру он принадлежит.
Иначе бы это всё не работало.
Walter S. Farrell
Скажем так, разницу в IPC между Conroe и Sandy Bridge мы можем прикинуть. Речь о том, что несмотря на десятки лет эволюции в жёсткой конкурентной борьбе, новые техпроцессы и огромные финансовые ресурсы, x86 всё равно не может избавиться от присущих ей недостатков
Дык все как всегда — ее недостатки есть продолжение ее достоинств ;)

Проблемно на ней сейчас делать быстрые процессоры
Так ведь делают же! :)

Смена техпроцессов уже не приводит к росту тактовой частоты вдвое, как когда-то в прошлом.
И не будет приводить, причем дело не в х86: чем меньше нормы, тем сильнее квантовые эффекты. Они чем дальше, тем больше усложняют работу технологов. Поэтому смена техпроцессов уже никогда не будет приводить к росту вдвое.
Вне зависимости от архитектуры процессоров: у остальных такая же ситуация.

Кэши уже выросли до практического максимума. Больше 4 ядер на десктоп ставить нет смысла (обычно 2 вполне достаточно). Тупик всё больше очевиден.
Тут бы вам с Ильей договориться, что ли? Он на десктопах и ноутбуках хочет 16 ядер...

Не совсем стояла на месте, просто темп роста значительно замедлился. В 2001-м K7 был у 1,5ГГц (1800+) при 180нм, а сейчас Athlon II X2 275 уже на 3,5ГГц при 65нм. 133% прироста для одной базовой архитектуры, пройдено 3 техпроцесса. С P4 и Бульдозером не будем сравнивать, архитектуры слишком отличаются.
А с другой стороны у Интела вообще частота не росла: П4 добрался до 3+ ГГц, а дальше рос как раз средний IPC, при неизменной частоте.

Прогресс должен быть не только экстенсивным, но и интенсивным. Эффективность использования ФУ тоже должна повышаться.
Я как бы согласен, но тут интересная вещь: чем больше мы пытаемся повысить эффективность использования уже имеющихся ФУ, тем больше дополнительной обвязки нам нужно: кэши, предзагрузчики, кэши циклов, и прочая вспомогательная хрень, которая сама по себе ничего не вычисляет, но помогает нагрузить ФУ.
На сегодняшний момент количество транзисторов в этой вспомогательной шняге больше, чем в ФУ. Но иначе эффективность загрузки не повысить, хороший пример как раз видеокарты. В которых ФУ вроде как много, а вот добиться от них удается мало.

При переходе с 21164 на 21264 добились почти удвоения производительности на том же техпроцессе. Если бы тенденция продолжилась, то было бы очень и очень хорошо
Да в том-то и дело, что НЕ продолжилась бы тенденция. Когда-то и на х86 тенденция была такой же: каждое новое ядро чуть ли не вдвое быстрее предыдущего. А потом прирост стал все меньше и меньше.
Последний действительно крупный рывок — переход от П4 к Core 2, давал порядка 40% прироста на той же частоте.

Хотя надо сказать, что х86 процессоры с подачи Интела выбрали тактику мелких шагов: например, тот же П4, начинаясь с процессора 1.7ГГц, к концу жизненного пути вырос до 3.76ГГц, при этом имел НТ, х64, и большой кэш — другими словами, суммарная производительность выросла втрое.
Согласись, не такой уж плохой прирост, если сравнивать с жизненными циклами других процессоров.

Конвейеры короткие, но и команды очень простые. У MIPS похожий расклад.
Тем не менее, все высокочастотные архитектуры имеют длинные конвейеры, иначе не успевают за один цикл отработать даже короткие RISC команды.
Stranger_NN
Ты знаешь, я не поверил своим глазам
Ужас какой. Очень надо доверять своим глазам!

увы — господа из АМД полностью подтвердили все то, о чем я говорил. Особенно хорош ответ на вопрос №7 — "патамушта это инновации"!!! :lol:
А с моей точки зрения, они подтвердили ровно то, что я тебе писал: К10 уже НЕКУДА улучшать, микроархитектура себя исчерпала.
Поэтому они переходят на новую, несмотря на неизбежные нюансы вначале.
Все куски про их анализ workload-ов ты удачно пропустил мимо глаз, похоже?
А зря.

Merlin
Именно поэтому я себе сейчас взял делловский ноут Vostro 3550 c i5
Камрад, и что изменилось бы, если бы АМД сделала не так? :gigi: Ты бы все равно купил бы ноут с i5, потому что он быстрее ;)
Так о чем базар-вокзал? :)

Buntar
:no: Пример.
Если это должно было стать контрпримером для утверждения "FPU всегда был в х86 обособлен", то это неудачный контрпример. Потому что, вне зависимости от физического расположения FPU, это именно отдельный модуль, вызываемый отдельными командами. И так было со времен появления сопроцессора х87.

Тогда уж начинай с Nx586 (1994 год), который был RISC-процессором с прикрученным x86 декодером
Зачем начинать с NexGen-а, когда у AMD есть более ранняя разработка, К5, в которой инструкции превращались в RISC86 инструкции? ;)

Потом и все другие x86 внутри стали RISC-подобными. Но П4 — это не-RISC, т.к. он поддерживает x86 ISA, в которой есть инструкции с комплексным адресованием (т.е. арифметические инструкции, которые ещё и выполняют доступ к памяти).
Тут нужно решительно определиться: все другие х86 © поддерживают х86 ISA? :) Вообще-то да, именно так их и разрабатывали.
Тем не менее, все они внутри RISC-подобные.
Так что П4 тоже внутри RISC-подобный, потому что делает то же самое: превращает х86 инструкции (в том числе с комплексным адресованием) в uop-s, которые затем и исполняются.

Именно вложением огромных сумм денег (несравнимых с конкурентами) в разработку, Интел добился высокой производительности от x86
Тут есть некоторое лукавство, честно говоря. Во-первых, во времена господства RISC-ов денег у Интела было намного меньше, чем сейчас. И меньше, чем у производителей RISCов.
Во-вторых, они тратили на разработки ничуть не меньшие деньги.
В-третьих, вот есть IBM, которая тратила и тратит очень немалые деньги на разработки. И, более того, ее процессоры до сих пор лидируют (!) в абсолютной производительности. Но массовый продукт — на процессорах интел (в том числе и от самой IBM), потому что у продуктов Интел разумное соотношение цены и производительности. В отличие от RISC-ов, которые ВСЕГДА были ОЧЕНЬ дорогими.
Потому-то х86 и победила у RISC-ов, что позволяля 90% процентов их возможностей и практически такую же производительность получать на порядок дешевле.

Если бы x86 не успела занять прочной позиции на рынке до появления нормального RISC железа, то о ней бы уже давно забыли.
С точностью до наоборот: х86, появившись, была гадким утенком на рынке "нормального RISC железа", но сумела в конкурентной борьбе загрызть всех RISC-ов. Так что прочная позиция у х86 — целиком и полностью ее заслуга. А RISC-и не выдержали гонки производительности.

Совсем другие архитектуры оба x86 производителя сделали — куда уж ещё серьёзнее браться? Объем рынка — у меня дома только один традиционный x86 процессор сейчас используется, а кроме него десятки других (нетбук [Atom], три телефона[ARM], принтер, модем, маршрутизатор, ВК, всякие контроллеры в НЖМД и т.п., ~10(!) RISC процов [POWER, ARM] в каждом автомобиле, прочая бытовая электроника).
Все указанные RISC-и НЕ являются производительными процессорами. Бытовая электроника — это, конечно, круто, но это жалкие копейки по сравнению с тем рынком, который был у RISC-ов раньше.

Он не просто энергию экономит — он ещё и конвейер на две стадии укорачивает (в случае попадания).
Именно так он энергию и экономит: просто не включает декодер ;)

Я имел ввиду "расширять" количеством транзисторов, не в ширину. Проблема нерегулярной длины х86 инструкций — это проблема Интела, а не x86, т.к. на AMD такой проблемы нет
На АМД есть ровно та же проблема: декодер содержит место (разметка инструкций для будущего преобразования в RISC подобные микро- или макро- инструкции), которое никак принципиально не распараллелить.
Это — проблема х86 (и в какой-то степени проблема Power-а, кстати), а никак не конкретных компаний.

Интелы ещё и только до 16 байт кода за такт могут
Sandy Bridge — до 32 байт, но это ничего не меняет: что АМД, что Интел стадию разметки содержимого I-кэша ведут в один поток, одним длинномером. Без вариантов, к сожалению.

Иначе бы это всё не работало.
Именно поэтому по факту там ДВА логических регистровых файла, вне зависимости от того, где все это физически расположено.

Все куски про их анализ workload-ов ты удачно пропустил мимо глаз, похоже?А зря.
Отчего же. Я еще и посмотрел на результаты, которые говорят о том, что либо АМДшники что-то свое анализировали, в нашем бренном мире крайне редко встречающееся, :gigi: либо — что нам попросту врут, делая хорошую мину при плохой игре. :oops:
frontier
А собирались с бульдозером? Хм... ноут с бульдозером-это не слишком ммм.... жирно?
Не обязательно с бульдозером, но там мог быть и АМДшный проц. Купили же для жены компактный ноут с С-50, очень даже довольны машинкой под ее задачи. Прекрасная альтернатива атомным поделкам. :up:

matik
Камрад, и что изменилось бы, если бы АМД сделала не так? :gigi: Ты бы все равно купил бы ноут с i5, потому что он быстрее
Не факт. Мы, кулаки, всегда перед покупкой оцениваем ее с точки зрения цена/производительность/возможности. ;) Ценовая политика АМД в отношении их А4-А6-А8 мне также не совсем понятна. Ну а ноуты на бульдозерах, это да, это будет за гранью добра и зла. :D

Именно поэтому по факту там ДВА логических регистровых файла, вне зависимости от того, где все это физически расположено.
А можно некий линк, чтобы подробнее на это посмотреть?
Buntar

>2011 год, прямо сейчас: MIPS32 1074K

Я как бы не в восторге от того, какие 32-битные ядра MIPS сейчас делает. Последнее их десктопно-серверное 64-битное ядро было R10K, которое послужило основой для R12K/R14K/R16K. Оно умело IMUL за 6 тактов (int) и 10 тактов (long int), но при этом в single и double precision могло ADD/MUL за 2 такта и MADD за 4 такта (не FMA, но записи в регистры не было, результат MUL сразу же перенаправлялся на конвейер для ADD). IDIV, DIV и SQRT не конвейеризировались. В общем, там были 5-стадийные целочисленные конвейеры и 7-стадийные вещественные. Фактически, классика. Эти ядра при весьма скромных тактовых частотах очень хорошо конкурировали на вещественной математике, но с целочисленкой было как-то не очень. Впрочем, SGI целочисленка мало интересовала.
matik

>Потому что, вне зависимости от физического расположения FPU, это именно отдельный модуль, вызываемый отдельными командами. И так было со времен появления сопроцессора х87.

У него даже отдельная 13-я "ирка" имеется...


>Зачем начинать с NexGen-а, когда у AMD есть более ранняя разработка, К5, в которой инструкции превращались в RISC86 инструкции?

Нет, там не RISC86 команды были. АМДшные инженеры долго и настойчиво прикручивали x86 декодер к своему RISC ядру 29K. Поначалу было совсем плохо (SSA/5), затем получшело (5k86), но всё равно затея провалилась. Intel тогда PPro-200 предлагала, а K5-133 ему был ни разу не конкурент. Поэтому пришлось спешно покупать за немалые 800 мегабаксов NexGen, у которой был работоспособный Nx686, который через год допиливаний вышел в виде K6. RISC86 впервые реализовала именно NexGen.
matik
А с другой стороны у Интела вообще частота не росла: П4 добрался до 3+ ГГц, а дальше рос как раз средний IPC, при неизменной частоте.
У П4 после 3+ ГГц уже ничего толком не росло. Лучше на P6 смотреть. В 1995-м Pentium Pro был 200 МГц при 350 нм, в 2000-м Pentium III 1133 МГц при 130 нм, в 2006-м Core 2 Extreme X6800 2.93 ГГц при 65 нм, в 2011-м Core i7 Extreme 990X 3.46 ГГц при 32 нм.

На другое сообщение вечером отвечу, но я несогласен по всем пунктам. ;)


Последний раз редактировалось Buntar 13:35 05.12.2011, всего редактировалось 1 раз.

Core i7 Extreme 990X 3.46 ГГц при 45 нм.

990X — 32 нм

Я еще и посмотрел на результаты, которые говорят о том, что либо АМДшники что-то свое анализировали, в нашем бренном мире крайне редко встречающееся, :gigi: либо — что нам попросту врут, делая хорошую мину при плохой игре.

http://www.spec.org/virt_sc2010/results ... -perf.html
http://images.tecchannel.de/images/tecc ... 00x600.jpg
http://images.tecchannel.de/images/tecc ... 00x600.jpg
Ant_izh, и что из представленного должно меня переубедить? :spy: Увеличение количества ядер в четыре раза (относительно четырехядерных Opteron серии 4000) увеличило показатели почти идеально масштабирующихся по потокам/ядрам тестов _rate всего в два раза. Я, собственно, в курсе, что новые ядра в пересчета на индивидуальную производительность — примерно вдвое хуже старых на равной частоте.

Это результат хорошего анализа? :lol:

В свое время все недоумевали, нафига нужно процессорам SUN серии T? шестнадцать хилых ядрышек — так теперь такой же вопрос можно задать и АМД. В пересчете на равную частоту у них ядрышки еще слабее, только что техпроцесс позволил частоту поднять.

Я, собственно, в курсе, что новые ядра в пересчета на индивидуальную производительность — примерно вдвое хуже старых на равной частоте.


1. архитектуры разные, с чего вдруг их сравнивать на одной частоте ? :

Mike Butler, Senior Fellow Design Engineer, AMD — The latest architectural advancements from both AMD and our competitors have incorporated advancements from deeper pipelines. The pipeline within our latest "Bulldozer" microarchitecture is approximately 25 percent deeper than that of the previous generation architectures. That deeper pipeline is a key technology advancement, providing record breaking frequencies and performance improvements.

2. по SpecInt ("ядра" по целочисленным кластерам AMD считает), "примерно вдвое хуже старых" вообще не наблюдается — Opteron 6182SE vs 6174.
Вот так вот ссылка

1. архитектуры разные, с чего вдруг их сравнивать на одной частоте ?
А для чего затевать-то все было с "новой архитектурой", если частотный потенциал, судя по достижениям разгонщиков, примерно одинаковый?

2. по SpecInt ("ядра" по целочисленным кластерам AMD считает), "примерно вдвое хуже старых" вообще не наблюдается — Opteron 6182SE vs 6174.
Да? А ничего так, что частота 6174 несколько меньше? Фактически, если бы новые ядра были хотя бы "не хуже", то показатель должен был быть где-то на уровне 300-310. "Дефицит" очень заметный. И, как я уже говорил, было бы интересно посмотреть на аналогичные 8 (для десктопов) или 16 ядер K10 — технологически, по количеству транзисторов и площадям, — это было бы вполне реально, и частота вполне достижимая. Но — "дядя Вова, скрипач не нужен" ©. :(


Вот так вот ссылка
Да, я в курсе. Даже с этими уточнениями мои расчеты полностью сохраняют свою правильность (подкорректировали и число транзисторов в старых процессорах тоже, как я смотрю). Но смешно, конечно, — они сами-то в курсе чего у них и сколько? :gigi:

Впрочем, предположу, что два миллиарда было в некотором исходном дизайне, который потом пришлось срочно кастрировать. :gigi:

А для чего затевать-то все было с "новой архитектурой", если частотный потенциал, судя по достижениям разгонщиков, примерно одинаковый?


ну-ну... 4.0ГГц и 4.7ГГц, как-то совсем не одинаковые.

А ничего так, что частота 6174 несколько меньше?

ничего. покупатель берет конечный продукт, а не ядра и частоту "на развес" :-p
Opteron 6282 SE дешевле + лучше быстродействие.
единственное, что пока с TDP дела не очень — тут есть над чем поработать AMD совместно с GloFo.

ну-ну... 4.0ГГц и 4.7ГГц, как-то совсем не одинаковые.
Самый высокочастотный процессор на сегодня — именно К10. :D И не забывайте, что проектная норма у новых процессоров поменьше.... :oops:

ничего. покупатель берет конечный продукт, а не ядра и частоту "на развес"
См. выше. К10 просто убили, за то что старое ядро имело наглость показывать результаты лучше нового. "Непокобелилебимость", потому что. Нельзя признавать ошибки и отступать. Только вперед и любой ценой. :(

Только вперед и любой ценой.

Мы за ценой не постоим!

Самый высокочастотный процессор на сегодня — именно К10.


это именно K10 не давно разогнали до ~ 8.5 ГГц ? :eek:

И не забывайте, что проектная норма у новых процессоров поменьше....


не забываю... а так же я не забываю, что тех. процесс 45 нм на >2.5 года более "зрелый" чем 32нм у GloFo


См. выше. К10 просто убили, за то что старое ядро имело наглость показывать результаты лучше нового. "Непокобелилебимость", потому что. Нельзя признавать ошибки и отступать. Только вперед и любой ценой.

спрос — рождает предложение. FXы сметают, видимо та же ситуация с новыми Opteron-ами — никого особо не волнуют результаты отдельных ядер, видимо люди все же оценивают процессор "в сборе" ;)

это именно K10 не давно разогнали до ~ 8.5 ГГц ?
:yes: :-p

не забываю... а так же я не забываю, что тех. процесс 45 нм на >2.5 года более "зрелый" чем 32нм у GloFo
A8 нормально и штатно работают на 2.9. Без каких либо проблем. При том, что транзисторов в нем, как бы не больше, чем в Булях, из-за встроенного видеоадаптера.

спрос — рождает предложение. FXы сметают, видимо та же ситуация с новыми Opteron-ами — никого особо не волнуют результаты отдельных ядер, видимо люди все же оценивают процессор "в сборе"
Как уже было сказано в параллельной ветке — это "фанатские продажи", и покупившие материнки АМ3+ в надежде на апгрейды. Вот и покупают. :oops:

A8 нормально и штатно работают на 2.9. Без каких либо проблем. При том, что транзисторов в нем, как бы не больше, чем в Булях, из-за встроенного видеоадаптера.


2.9 GHz vs 4.2 GHz — вот Вам и толк от новой архитектуры, дальше — больше :-p
наличие GPU с частотой 600Mhz, "компенсируется" наличием L3 с частотой 2200MHz

Как уже было сказано в параллельной ветке — это "фанатские продажи", и покупившие материнки АМ3+ в надежде на апгрейды. Вот и покупают.

это домыслы. набравших заранее AM3+ плат не так много, к тому же не факт, что все кто их взял — побегут сейчас за FX-ами, есть много людей судя по тем же оверам, которые спокойно на AM3 CPU ждут появление на B3 степпинге FXый процессор.
Да. Такие люди есть (которые ждут). Я тоже вон мамку обновил (правда новый биос с поддержкой еще не шил) в надежде на новый FX, но теперь передумал покупать. Жду обновленной архитектуры :) Хотя мамку брал я также из-за новой памяти, которую купил я подешевле. Т.к. на старой AM2+ мамке было 2Гб DDR2 (и стоила она дорого)...


Последний раз редактировалось ScorpionR 13:11 05.12.2011, всего редактировалось 1 раз.

это домыслы. набравших заранее AM3+ плат не так много, к тому же не факт, что все кто их взял — побегут сейчас за FX-ами, есть много людей судя по тем же оверам, которые спокойно на AM3 CPU ждут появление на B3 степпинге FXый процессор.

Вот,вот-аналогично. Сам собираюсь брать мать АМ3+ и пока сидеть на своём Фене II. Заодно им же потом и бивис обновлю.
matik
Если это должно было стать контрпримером для утверждения "FPU всегда был в х86 обособлен", то это неудачный контрпример. Потому что, вне зависимости от физического расположения FPU, это именно отдельный модуль, вызываемый отдельными командами. И так было со времен появления сопроцессора х87.
Так было со времён появления сопроцессора 8087 (x87 инструкции, свой доступ к памяти).
Примерно так есть в Бульдозере — отдельный блок со своим планировщиком и PRF, выполняющий арифметические x87 и все векторные (MMX, SSE, AVX) операции (операции с памятью выполняются целочисленными ядрами). Т.е., например, x87 арифметическая инструкция с доступом в память декодируется в uopы для FPU (арифметика) и для целочисленного ядра (доступ в память).
В приведённом примере FPU модуля нет вообще. Есть одно 128 битное FDIV/FMUL ФУ на порте 0, и одно 128 битное FADD ФУ на порте 1. Целочисленные векторные операции могут выполнятся на ФУ любого из портов 0, 1, или 5. Операции с памятью выполняются на ФУ портов 2, 3, и 4. Один планировщик и ROB на весь процессор. Функционал "FPU" в понимании 8087 разложен по всем портам процессора.
В SB ещё интереснее — там арифметическая 256 битная операция (AVX) задействует одновременно 128 битное FP ФУ и 128 битное INT ФУ ("SSE ALU").

Зачем начинать с NexGen-а, когда у AMD есть более ранняя разработка, К5, в которой инструкции превращались в RISC86 инструкции? ;)
K5 — 1996 год. RISC86 был как раз у NexGen'а, а не у AMD.

Тут нужно решительно определиться: все другие х86 © поддерживают х86 ISA? :) Вообще-то да, именно так их и разрабатывали.
Любые х86 © поддерживают х86 ISA, как говорится, по определению. Я не понял — ты теперь согласен? На всякий случай: x86 процессоры "внутри" сейчас все RISC-подобны; x86 процессор не может быть RISC процессором — понятия взаимоисключающие, т.к. в x86 ISA есть инструкции с комплексным адресованием.

Во-первых, во времена господства RISC-ов денег у Интела было намного меньше, чем сейчас.
Времена господства RISC-ов и сейчас — это разные понятия? Тогда когда было "господство?" Я не заметил... :shuffle: Я посидел за системами на SPARK'ах и POWER'ах, но эти системы были исключениями из общей массы железа на x86.

Во-вторых, они тратили на разработки ничуть не меньшие деньги.
Разве? Сколько полупроводниковых техпроцессов Sun, например, разработала?

В-третьих, вот есть IBM, которая тратила и тратит очень немалые деньги на разработки. И, более того, ее процессоры до сих пор лидируют (!) в абсолютной производительности.
В очень специфических нишах. К лидерству в абсолютной производительности прилагается 250 Вт TDP — на настольном компьютере такое не прокатит.

Но массовый продукт — на процессорах интел (в том числе и от самой IBM), потому что у продуктов Интел разумное соотношение цены и производительности. В отличие от RISC-ов, которые ВСЕГДА были ОЧЕНЬ дорогими.
Дорогими были скорее системы и их закрытость от конкуренции, чем их процессоры в отдельности. Нынешние игровые приставки тому подтверждение — везде POWER, и стоят копейки. Интел на x86 приходилось всегда конкурировать (AMD, Cyrix, NexGen).

С точностью до наоборот: х86, появившись, была гадким утенком на рынке "нормального RISC железа", но сумела в конкурентной борьбе загрызть всех RISC-ов.
Процессор 8086 — 1978 год, IBM PC — 1981 год. Первый нормальный RISC процессор, RISC-I — 1982 год. Первые коммерческие системы на RISC — SPARC, Ardent — 1987 год, конкурировали уже с 80386, когда IBM PC уже стал де факто стандартом. С 80386 я общаюсь на работе до сих пор, кстати. А всякие SPARC'и давно списаны. RISC архитектура появилась как улучшенная альтернатива уже существовавшему железу, а не наоборот. Я ещё помню, как собирал свой первый IBM PC совместимый комп на 80386.

На АМД есть ровно та же проблема: декодер содержит место (разметка инструкций для будущего преобразования в RISC подобные микро- или макро- инструкции), которое никак принципиально не распараллелить.
На АМД до использования декодером кеш кода уже содержит дополнительную информацию об этом коде, в том числе о границах инструкций. Пре-декодирование происходит при (пре-)загрузке кода из L2 в L1I.

Sandy Bridge — до 32 байт, но это ничего не меняет: что АМД, что Интел стадию разметки содержимого I-кэша ведут в один поток, одним длинномером. Без вариантов, к сожалению.
SB — тоже 16 байт. Много меняет, т.к. несколько инструкций, иначе как бы возможных, в 16 байт легко не влезают.

Walter S. Farrell
Это аргументу о "длинноконвейерных х86" не поможет, но интересно. Супер-длинноконвейерный Бульдозер с нынешней штатной частотой в 14.4 раза выше: IMUL за 4 такта (int) и 6 тактов (long int); в single и double precision ADD/MUL/MADD за 5 тактов.

Ant_izh
Спасибо. Сейчас исправлю.

2.9 GHz vs 4.2 GHz — вот Вам и толк от новой архитектуры, дальше — больше
Я уже говорил, что при норме 45nm — штатная частота ядер К10 достигала 3.6 гигагерц. Как надо было постараться, чтобы при уменьшении проектной нормы на четверть — урезать частоту до 2.9?? Мне говорят, что "новый техпроцесс сырой" — хорошо, а как же були, которые частоту, хотя бы, не потеряли? :oops: Нет, сударь мой. Частоту и количество ядер у Llano резали искусственно, чтобы шести-восьмиядерные К10 — в то же число транзисторов и площадь кристалла, что и буль — не опережали флагмана.

это домыслы. набравших заранее AM3+ плат не так много, к тому же не факт, что все кто их взял — побегут сейчас за FX-ами, есть много людей судя по тем же оверам, которые спокойно на AM3 CPU ждут появление на B3 степпинге FXый процессор.
Ну, тогда остаются странные люди, готовые переплачивать за меньшую скорость. Фанаты.. ;)
А вот уже и первые звоночки ,говорящие,что продолжению и развитию серии FX и AM3+ быть
AMD уточняет количество транзисторов на ядре Bulldozer
Ну надо же, досчитали. :gigi:
Buntar

>Супер-длинноконвейерный Бульдозер с нынешней штатной частотой в 14.4 раза выше: IMUL за 4 такта (int) и 6 тактов (long int); в single и double precision ADD/MUL/MADD за 5 тактов.

У K7 было 6 базовых стадий от Fetch до IDec, далее 4 стадии на целочисленку или 9 на вещественку, IMUL за 4 такта (int), single и double precision ADD/MUL тоже за 4 такта. У K8/K10 количество базовых стадий было увеличено до 8, IMUL за 3 такта (int) и 5 тактов (long int). AMD очень неохотно распространяется о количестве стадий в конвейерах Бульдозера, но поскольку всего там явно 18 стадий на целочисленке, а K8/K10 могли считать IMUL на 1 такт быстрее, то становится интересно, на какую радость ушли дополнительные 5 стадий базового конвейера?

Мне говорят, что "новый техпроцесс сырой" — хорошо, а как же були, которые частоту, хотя бы, не потеряли?


читаем полностью цитату главного инженера проекта Bulldozer.


Ну, тогда остаются странные люди, готовые переплачивать за меньшую скорость. Фанаты..

скорость выше, ибо люди покупают процессор, а не отдельное ядро :-p

читаем полностью цитату главного инженера проекта Bulldozer.
Я читал все это вдоль и поперек — и вот теперь очень хорошо понимаю эмоции г. Станиславского, когда он произносил свое знаменитое "не верю!" :D

скорость выше, ибо люди покупают процессор, а не отдельное ядро
Э... Т.е., результаты практических тестов, где новые бульдозеры практически везде, кроме абсолютно неинтересной никому, за исключением фанатов, синтетики — уступают старым шестиядерникам, а местами и четырехядерникам вы, как бы, не заметили? :eek:

Я читал все это вдоль и поперек — и вот теперь очень хорошо понимаю эмоции г. Станиславского, когда он произносил свое знаменитое "не верю!"


не верить фактам от первоисточника — это конечно Ваше право :oops:

Э... Т.е., результаты практических тестов, где новые бульдозеры практически везде, кроме абсолютно неинтересной никому, за исключением фанатов, синтетики — уступают старым шестиядерникам, а местами и четырехядерникам вы, как бы, не заметили?

неа не заметил, во большинстве практических задач(обработка видео, фотошоп, распознавание текста, архиваторы и т.д.)
FXы быстрее. в синтетики как раз X6 местами по-лучше смотрятся.

не верить фактам от первоисточника — это конечно Ваше право
Словам. Факты, — в виде тестирований, говорят о другом. :-p

неа не заметил, во большинстве практических задач(обработка видео, фотошоп, распознавание текста, архиваторы и т.д.) FXы быстрее. в синтетики как раз X6 местами по-лучше смотрятся.
Это заслуга нового и гораздо более удачного контроллера памяти. В задачах, нагружающих именно расчетные блоки и малочувствительных к памяти — ситуация прямо противоположная.

Словам. Факты, — в виде тестирований, говорят о другом.


речь шла о частотах. специалист который курирует разработку Bulldozer-а очевидно в курсе особенностей архитектуры. или это все тот же "заговор против K10" ? :eek: :lol:


Это заслуга нового и гораздо более удачного контроллера памяти. В задачах, нагружающих именно расчетные блоки и малочувствительных к памяти — ситуация прямо противоположная.

http://www.legitreviews.com/images/revi ... dbrake.jpg
http://www.legitreviews.com/images/revi ... povray.jpg

это задачи не нагружают "расчетные блоки" ? :spy:

речь шла о частотах. специалист который курирует разработку Bulldozer-а очевидно в курсе особенностей архитектуры. или это все тот же "заговор против K10" ?
А ничего так, что все известные мне Llano спокойно взяли 3.5 при неиспользовании видеопроцессора? :shuffle: В чем дело? Процессорам забыли довести до сведения мнение куратора? :lol:

это задачи не нагружают "расчетные блоки" ?
Простите, но там прирост относительно имеющего на 9% меньшую частоту шестиядерника у нового восьмиядерного процессора — на уровне 5-18%. Несмотря на сильно улучшившийся контроллер памяти.

Возьму на себя смелость утверждать (опираясь на показатели масштабирования процессоров К10 в этих тестах по ядрам и частотам), что гипотетический Llano без видео, но с восемью ядрами и частотой, хотя бы 3.3 (взята 100% известных процессоров даже с видео, с относительно недорогими кулерами), а еще бы и с новым контроллером памяти — сделал бы бульдозера "как стоячего", процентов на 20-30...

Но кому это надо?! :oops:
Walter S. Farrell
то становится интересно, на какую радость ушли дополнительные 5 стадий базового конвейера?
Вопрос этот меня тоже интересует, но с точки зрения пенальти за неправильное предсказание без разницы, куда они ушли. Мне кажется, что т.к. в результате SB и Бульдозер архитектуры в этом плане получились очень схожие (предположительно ~18 стадий и FO4 задержки ~17), то оба производителя эти детали ещё пока продолжат скрывать.

А ничего так, что все известные мне Llano спокойно взяли 3.5 при неиспользовании видеопроцессора?

FXы так же спокойно взяли 4.5 при том же напряжении, что и Llano "спокойно взявшие 3.5" .

FXы так же спокойно взяли 4.5 при том же напряжении, что и Llano "спокойно взявшие 3.5"
Они это делали при сугубой водянке. Ну так они в пределе показали 4.9, а 45-нм процессоры предыдущего поколения 4.5 — показав, к слову, гораздо больший прирост производительности. 4.5-гигагерцовый шестиядерный K10 — уверенно обгоняет разогнанного до предела буля (если без использования новых инструкций, конечно).

А при хорошем (жидким азотом, да) охлаждении — именно Llano, отнюдь не бульдозеры, — напомню, стали самыми высокочастотными процессорами на планете. Так что дело не в принципиальной неработоспособности ядра К10 на высоких частотах, а в тепловыделении, — которое при переходе на норму 32-нм неминуемо должно сократиться. Так что да, частоты Llano и количество ядер в них зарезали в угоду "р-р-революционной архитектуре".

Если бы четверть усилий и денег, вбуханных в булей — потратили на новый контроллер памяти и адаптированные к новому техпроцессу ядра К10 (ну, пускай с новыми командами и их обработкой в декодере они стали бы назваться К11) и восьмиядерный процессор на 3.5 — то результат был бы куда как лучше. Но это невозможно по корпоративным нормам и правилам игры — никто не будет отвечать за отказ от разработки, на которую уже потрачены деньги — лучше удавят конкурирующую "устаревшую" систему.
Новая тема    Ответить  [ Сообщений: 689 ]  На страницу Пред.  1 ... 13, 14, 15, 16, 17, 18  След.


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 3


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  

Удалить cookies конференции

Пишите нам | Radeon.ru