Архитектура процессоров

Страница 2 из 5 [ Сообщений: 191 ]

На страницу Пред. 1, 2, 3, 4, 5 След.

Stranger_NN

Администратор

Сообщения: 3997
Откуда: Нижний Новгород

Репутация: 45

Добавлено: 12:07 01.10.2004

Warrax

Цитата:
>Сами же говорили, что VLIW потребует большей ПСП, а у Итаниума всего 400МГц, и то в QP\

Я полагаю, что разделяемая (да на четверых) шина с большей шириной/частотой вряд ли возможна. Но разводка платы гораздо проще.
<BLOCKQUOTE>цитата:<HR size=22>А вот с хорошими компиляторами сейчас туго явно не только в IA-64
Смещение приоритетов в сторону ЯВУ (вполне логичное) явно этому способствует.<HR size=22></BLOCKQUOTE>
Проблема не в компиляторах, а в алгоритмах. Подавляющее большинство алгоритмов последовательны по своей сути.

Warrax

Активный участник

Сообщения: 672
Откуда: Киев

Репутация: 0

Добавлено: 12:19 01.10.2004

<BLOCKQUOTE>цитата:<HR size=22>Stranger_NN:
Я полагаю, что разделяемая (да на четверых) шина с большей шириной/частотой вряд ли возможна.<HR size=22></BLOCKQUOTE>
Но от этого вряд-ли менее востребована.

VLev

Активный участник

Сообщения: 1982
Откуда: Moscow

Репутация: 0

Добавлено: 12:19 01.10.2004

Цитата:
>Stranger_NN:Подавляющее большинство алгоритмов последовательны по своей сути.\

Вообще-то это не так.
По сути они как раз параллельны, более того параллельны заведомо избыточно.
Основная проблема IMHO в языках программирования, неявно предполагающих последовательное выполнение любого алгоритма. Или, если копать вглубь истории, в последовательной сущности машины Тьюринга, которая исторически является основной моделью вычислителя.

VLev

Активный участник

Сообщения: 1982
Откуда: Moscow

Репутация: 0

Добавлено: 12:21 01.10.2004

<BLOCKQUOTE>цитата:<HR size=22>Warrax:
Но от этого вряд-ли менее востребована.<HR size=22></BLOCKQUOTE>
Повсеместно идет замена общих шин конфигурацией точка-точка.

Warrax

Активный участник

Сообщения: 672
Откуда: Киев

Репутация: 0

Добавлено: 12:36 01.10.2004

<BLOCKQUOTE>цитата:<HR size=22>VLev:
Повсеместно идет замена общих шин конфигурацией точка-точка.<HR size=22></BLOCKQUOTE>

Не соглашусь со словом повсеместно.
Да и Интел в этом плане стоит как-то особняком, предпочитая "лечить" SMP-системы увеличением кэша.

matik

Штатный мерзавец

Сообщения: 7188
Откуда: Москва\Одесса

Репутация: 5

Добавлено: 12:41 01.10.2004

Warrax
Да и Интел в этом плане стоит как-то особняком, предпочитая "лечить" SMP-системы увеличением кэша.
Это проще. Поскольку предполагает только работу технологов.
Но и PCI-E, и другие современные шины, все точка-точка.

ISA_user

Активный участник

Сообщения: 1925
Откуда: Москва, Россия

Репутация: 0

Добавлено: 12:46 01.10.2004

Warrax
а у Итаниума всего 400МГц, и то в QP.
да, но одна шириной 128 бит. Другое дело, что на данную шину наровят повесить большое количество процессоров. Но думаю незря появились слухи о ребятах из интела, которые что-то там делают с внешним интерфейсом, т.к. для 2, а тем более 8 ядер существующее решение, пусть и на 800 ( и то непонятно когда) мегагерц маловато будет.
Stranger_NN
разделяемая (да на четверых) шина
именно поэтому в серьезных системах не больше 2.
Warrax
Не соглашусь со словом повсеместно.
а зря, у интела это только 4 проца в максимуме. Все остальные давно идут к точка точка.
Да и Интел в этом плане стоит как-то особняком, предпочитая "лечить" SMP-системы увеличением кэша.
зря вы про интел так. Вообщето ИБМ тоже кэшим наращивает. По мне как раз и кэши нужны и неразделяемые шины. Вопос только в том для какой задачи мы систему делем.

Warrax

Активный участник

Сообщения: 672
Откуда: Киев

Репутация: 0

Добавлено: 13:27 01.10.2004

<BLOCKQUOTE>цитата:<HR size=22>ISA_user:
зря вы про интел так. Вообщето ИБМ тоже кэшим наращивает.
<HR size=22></BLOCKQUOTE>
Но уже по другой причине

<BLOCKQUOTE>цитата:<HR size=22>ISA_user:
По мне как раз и кэши нужны и неразделяемые шины.<HR size=22></BLOCKQUOTE>
Кто же с этим спорит?

Stranger_NN

Администратор

Сообщения: 3997
Откуда: Нижний Новгород

Репутация: 45

Добавлено: 13:42 01.10.2004

VLev, мы об одном и том же?

Я о внутреннем паралеллизме на уровне потока команд. На уровне потоков паралеллизм очевиден.

Внутри же потоков параллельность на уровне "пользовательских" алгоритмов (нe HPC), попадается, увы не так часто как хотелось бы. Хотя... Может и ЯВУ виноваты, LISP, помнится, давал параллельность... Но как факт.

Warrax

Активный участник

Сообщения: 672
Откуда: Киев

Репутация: 0

Добавлено: 13:51 01.10.2004

<BLOCKQUOTE>цитата:<HR size=22>matik:
Warrax
Да и Интел в этом плане стоит как-то особняком, предпочитая "лечить" SMP-системы увеличением кэша.
Это проще. Поскольку предполагает только работу технологов.
<HR size=22></BLOCKQUOTE>
А что в итоге получает конечный потребитель?
Для 1-way у AMD и Intel паритет по стоимости и производительности.
А для 4-way процессоры Intel уже серьезно проигрывают и по цене и по производительности.
И не факт,что новые Xeon MP исправят ситуацию. Тем более что появятся они нескоро — АМД к этому моменту обещает Оптероны 0,09 , в том числе двухядерные...

ISA_user

Активный участник

Сообщения: 1925
Откуда: Москва, Россия

Репутация: 0

Добавлено: 14:12 01.10.2004

Warrax
Но уже по другой причине
вообще-то причина таже — увеличение производительности всей системы

Warrax
А для 4-way процессоры Intel уже серьезно проигрывают и по цене и по производительности.
хде? Да и давно ли появились реально серьезные предложения 4хк8?

Stranger_NN

Администратор

Сообщения: 3997
Откуда: Нижний Новгород

Репутация: 45

Добавлено: 14:49 01.10.2004

[moderator mode on]
ISA_user, Warrax.... А давайте-ка в другую веточку, АМД/Intel где сравнивают..
[moderator mode off]

VLev

Активный участник

Сообщения: 1982
Откуда: Moscow

Репутация: 0

Добавлено: 16:08 01.10.2004

Цитата:
>Stranger_NN: мы об одном и том же? Я о внутреннем паралеллизме на уровне потока команд.\

Я тоже о нем, о внутреннем (логическом) параллелизме алгоритма (его еще мелкозернистым называют). Правда, до формирования потока команд, и даже до реализации алгоритма на каком-либо языке.
Так вот, избыточен именно он.
Чтобы не быть голословным, я могу конкретный пример привести: алгоритмы сортировок.

Задача: требуется отсортировать N чисел f_i, i=0,...N-1 в порядке возрастания.

Есть много разных последовательных алгоритмов с числом операций от O(N log N) /например, основанные на построении деревьев/ до O(N^2) /пузырьковый/.
Таким образом, последовательному процессору на решение этой задачи требуется (a,b --- некие константы) минимум: a N log N тактов, максимум: b N^2 тактов.

Однако можно показать, что все эти последовательные алгоритмы являются разновидностью одного параллельного, который выполняется всего за 3 (три) шага:
шаг 1: параллельно сравниваем все возможные пары чисел (их N^2 штук):
r_{ij}=f_i ? f_j, где r_{ij}=1, если f_i > f_j или 0 в противном случае.
шаг 2: для каждого i вычисляем параллельную сумму I_i=parsum_j r_{ij}
шаг 3: формируем уже отсортированную последовательность (тоже параллельно) f_i —> f_{I_i}
Таким образом, если у нас есть гипотетический процессор с достаточным уровнем параллелизма, то сортировка всего массива может быть произведена за три его такта.

Warrax

Активный участник

Сообщения: 672
Откуда: Киев

Репутация: 0

Добавлено: 16:53 01.10.2004

<BLOCKQUOTE>цитата:<HR size=22>Stranger_NN:
[moderator mode on]
ISA_user, Warrax.... А давайте-ка в другую веточку, АМД/Intel где сравнивают..
[moderator mode off]<HR size=22></BLOCKQUOTE>

А мы уже ругались там с ним по этому поводу

А вообще всем присутствующим не кажется занимательным тот факт, что обсуждение во многих здешних ветках сводится к АМД/Intel хотя я здесь пока не видел "красноглазых"?

Не считаете ли вы, что противостояние данных компаний перестало быть сугубо номинальным?

matik

Штатный мерзавец

Сообщения: 7188
Откуда: Москва\Одесса

Репутация: 5

Добавлено: 17:30 01.10.2004

Warrax
Не считаете ли вы, что противостояние данных компаний перестало быть сугубо номинальным?
А оно никогда и не было номинальным

Или я неправильно понял термин...

Stranger_NN

Администратор

Сообщения: 3997
Откуда: Нижний Новгород

Репутация: 45

Добавлено: 11:50 04.10.2004

VLev, я что, говорил что параллельных алгоритмов нет? Есть, и их очень даже много. Но в процентном отношении (не в виде к-ва случаев), а в виде количества применений — их относительно мало. Скорее имеет резон искать параллельность на уровне независимости исполняемых команд. Нет, конечно, существующие параллельные алгоритмы надо использовать, и тут широкое командное слово рулит..

Warrax

Цитата:
>А вообще всем присутствующим не кажется занимательным тот факт, что обсуждение во многих здешних ветках сводится к АМД/Intel\

Нет, т.к. 99% присутствующих в глаза не видали никаких других (я уж молчу про не-х86) процессоров. Что же обсуждать?

VLev

Активный участник

Сообщения: 1982
Откуда: Moscow

Репутация: 0

Добавлено: 12:58 04.10.2004

Цитата:
>Stranger_NN: параллельных алгоритмов ... в виде количества применений — их относительно мало.\

В том-то и состоит парадокс.
У применяемых алгоритмов параллелизм относительно мал Хотя, на самом деле, для всяких EPIC и его вполне достаточно --- C@t как-то приводил статистику по SPEC тестам, но практически для любого из этих последовательных алгоритмов существует базовый параллельный аналог, который обладает огромным запасом параллелизма --- только захоти...

Особенно занятен в этой связи механизм превращения исходного параллельного алгоритма в применяемый последовательный. Вот тут-то как раз IMHO, и "виноваты" языки программирования, которые "заставляют" программистов мыслить последовательно.

ISA_user

Активный участник

Сообщения: 1925
Откуда: Москва, Россия

Репутация: 0

Добавлено: 13:33 04.10.2004

Warrax
А мы уже ругались там с ним по этому поводу
и это он называет ругательством. ха

Saigon

Новичок

Сообщения: 20
Откуда: Moscow

Репутация: 0

Добавлено: 09:22 05.10.2004

MIPS adds SIMD instructions in DSP extension

<BLOCKQUOTE>цитата:<HR size=22>
SAN JOSE, Calif. — MIPS Technologies Inc. has launched DSP ASE, digital signal processing extension to the MIPS architecture.

The DSP ASE includes 8-, 16- and 32-bit SIMD instructions for saturated and fractional math and is supported by a GNU-based software development tools, as well as pre-written software in the MIPS DSP library.

The DSP ASE is available for licensing by MIPS32 and MIPS64 ISA customers. Additionally, this technology will appear in future 32- and 64-bit cores developed by MIPS Technologies, the company said.

The DSP ASE improves signal-processing performance up to 300 percent over a range of embedded applications, the company claimed.

The new DSP extension comprises a set of new instructions and states in the integer pipeline of MIPS Technologies cores and requires less than six percent additional silicon area to implement in a 24K-class core, said MIPS.
<HR size=22></BLOCKQUOTE>

http://www.siliconstrategies.com/article/showArticle.jhtml;jsessionid=ZUFXXTPERDUIOQSNDBCSKH0CJUMEKJVN?articleId=49400420

Stranger_NN

Администратор

Сообщения: 3997
Откуда: Нижний Новгород

Репутация: 45

Добавлено: 09:41 05.10.2004

VLev

Цитата:
> Хотя, на самом деле, для всяких EPIC и его вполне достаточно\

Там всего-навсего три команды в связке... Для 512-разрядного процессора это будет 16*32 или 8*64.. Не зна-аю даже, достижимо ли столько практически.

Цитата:
> но практически для любого из этих последовательных алгоритмов существует базовый параллельный аналог, который обладает огромным запасом параллелизма --- только захоти...\

Даже так? Тогда все еще приятнее.

Вот только нет у меня пока такой уверенности. Буду думать.

Цитата:
>Особенно занятен в этой связи механизм превращения исходного параллельного алгоритма в применяемый последовательный. Вот тут-то как раз IMHO, и "виноваты" языки программирования, которые "заставляют" программистов мыслить последовательно.\

Или наоборот, последовательная человеческая логика не воспринимает параллельные концепции и языки программирования? Впрочем, это вопрос отдельный.

saigon, ну, MIPS известная своей гибкостью архитектура... Но идея приятная, ядра эти широко распространены, это много где поможет.

VLev

Активный участник

Сообщения: 1982
Откуда: Moscow

Репутация: 0

Добавлено: 11:44 05.10.2004

<BLOCKQUOTE>цитата:<HR size=22>Stranger_NN:
Даже так? Тогда все еще приятнее.

Вот только нет у меня пока такой уверенности. Буду думать. <HR size=22></BLOCKQUOTE>
Да, именно так.
Копать в сторону тонкой информационной структуры зависимостей данных (информационный граф зависимостей).

Обычно граф зависимостей в разных алгоритмах один и тот же, и в нем содержится огромный запас паралелльности. Но конкретный последовательный алгоритм обходит узлы этого графа (элементарные операции) в разной последовательности. Идея состоит в том, чтобы вообще отказаться от спецификации в программе порядка его обхода --- это избыточная (и часто вредная для производительности) информация.

VLev

Активный участник

Сообщения: 1982
Откуда: Moscow

Репутация: 0

Добавлено: 11:48 05.10.2004

<BLOCKQUOTE>цитата:<HR size=22>Stranger_NN:
Или наоборот, последовательная человеческая логика не воспринимает параллельные концепции и языки программирования?<HR size=22></BLOCKQUOTE>
Существуют методы адаптации.
Например, объектно-ориентированный подход.
Еще ближе --- модели конечных автоматов.

Кстати говоря, на уровне архитектуры сам процессор является конечным гиперавтоматом с огромным уровнем параллелизма.
Но при этом эмулирует из себя последовательную машину Тьюринга.

Stranger_NN

Администратор

Сообщения: 3997
Откуда: Нижний Новгород

Репутация: 45

Добавлено: 14:43 05.10.2004

VLev, думаю...

Цитата:
> Идея состоит в том, чтобы вообще отказаться от спецификации в программе порядка его обхода --- это избыточная (и часто вредная для производительности) информация.\

Мнэ... А как это реализовать в транзисторах и системной архитектуре?

Что-то у меня никак не получается..

Цитата:
>Кстати говоря, на уровне архитектуры сам процессор является конечным гиперавтоматом с огромным уровнем параллелизма.\

Только параллелизм у него какой-то неполноценный, по-моему.

Shurik_ant

Участник

Сообщения: 173
Откуда: Россия, г.Рязань

Репутация: 0

Добавлено: 08:12 06.10.2004

Warrax
Да не... Процессор хороший, а вот то, что вокруг него... "Я его слепила из того что было..."

Сами же говорили, что VLIW потребует большей ПСП, а у Итаниума всего 400МГц, и то в QP.
Вы почему-то упускаете из виду то, что кеш L2 у Итаниум непропорционально большой и практически благодаря ему Итаниум показывает столь высокие результаты в спеках. А ведь если его поставить в равные условия с другими процессорами(хотя бы с P4XE), то он сольёт по полной программе. И где тут совершенство? Совершенно непонятно. И не надо ссылаться на низкочастотную шину, ПСП у неё такое же как у топового P4.
Да и "Вообще, быстродействие VLIW-процессора в большей степени зависит от компилятора, нежели от аппаратуры, поскольку здесь эффект от оптимизации последовательности операций превышает результат, возникающий от повышения частоты."
А вот с хорошими компиляторами сейчас туго явно не только в IA-64

Смещение приоритетов в сторону ЯВУ (вполне логичное) явно этому способствует.
А вот про компиляторы Вы, пожалуй, не правы. Сколько уже лет Интел оттачивает свои компиляторы. Они, я думаю, уже довольно давно подошли к пределу качества оптимизации...

Warrax

Активный участник

Сообщения: 672
Откуда: Киев

Репутация: 0

Добавлено: 16:18 07.10.2004

<BLOCKQUOTE>цитата:<HR size=22>Stranger_NN:
99% присутствующих в глаза не видали никаких других (я уж молчу про не-х86) процессоров.
<HR size=22></BLOCKQUOTE>
Таких как я всего 1%?

<BLOCKQUOTE>цитата:<HR size=22>VLev:на уровне архитектуры сам процессор является конечным гиперавтоматом с огромным уровнем параллелизма.
Но при этом эмулирует из себя последовательную машину Тьюринга.
<HR size=22></BLOCKQUOTE>

Цитата:
>Shurik_ant:Вы почему-то упускаете из виду то, что кеш L2 у Итаниум непропорционально большой\

Он как раз пропорционально большой дефициту ПСП

Цитата:
>Shurik_ant:И не надо ссылаться на низкочастотную шину, ПСП у неё такое же как у топового P4.\

Вы разницу между выделенной шиной и общей понимаете? Поделить это все на четверых, да еще арбитраж...

Цитата:
>Shurik_ant:А вот про компиляторы Вы, пожалуй, не правы. Сколько уже лет Интел оттачивает свои компиляторы. Они, я думаю, уже довольно давно подошли к пределу качества оптимизации...\

Она их не "оттачивает", она делает елементарную оптимизацию кода согласно собственным же открытым рекомендация. Другое дело что все прочие явно брезгуют подобными рекомендациями

Свои компиляторы, свои серверные комплекты, ... Интел так может стать скоро вторым SUNом — осталось написать только собственную ОС

ISA_user

Активный участник

Сообщения: 1925
Откуда: Москва, Россия

Репутация: 0

Добавлено: 17:19 07.10.2004

Warrax
Вы разницу между выделенной шиной и общей понимаете? Поделить это все на четверых, да еще арбитраж...
вообщето Саша понимает. Он также понимает то что мы например сравниваем одиночные процы в спеке

Shurik_ant

Участник

Сообщения: 173
Откуда: Россия, г.Рязань

Репутация: 0

Добавлено: 17:37 07.10.2004

Warrax

Цитата:
>И не надо ссылаться на низкочастотную шину, ПСП у неё такое же как у топового P4.Вы разницу между выделенной шиной и общей понимаете? Поделить это все на четверых, да еще арбитраж... \

То что шина делится на четверых влияет на specrate, но никак не на specint и specfp. А вот в них у Итаниум приличные показатели только благодаря огромному кешу. Достаточно выбросить 179.art и сразу будет понятно, каковы вычислительные способности собственно ядра Итаниум.Тут видно, что именно засчет 179.art=6324 specfp у 6-ти мегабайтного Итаниум вылезает до 1875. А у полуторамегабайтного Итаниума specfp получается уже 1444. И ничего особо выдающегося уже не видно...

matik

Штатный мерзавец

Сообщения: 7188
Откуда: Москва\Одесса

Репутация: 5

Добавлено: 19:10 07.10.2004

Более того, уже даже и 1875 ничем особым не кажутся..]

Shurik_ant

Участник

Сообщения: 173
Откуда: Россия, г.Рязань

Репутация: 0

Добавлено: 08:11 08.10.2004

matik
Я специально взял такие старые результаты, потому, что там почти одновременно выложены и 1,5 Мб кешевый и 6 Мб кешевый результаты и можно сравнить...

ISA_user

Активный участник

Сообщения: 1925
Откуда: Москва, Россия

Репутация: 0

Добавлено: 09:26 08.10.2004

matik
Более того, уже даже и 1875 ничем особым не кажутся..]
ага, вот только основное слово тут уже

VLev

Активный участник

Сообщения: 1982
Откуда: Moscow

Репутация: 0

Добавлено: 12:52 11.10.2004

Цитата:
>Shurik_ant:... у Итаниум приличные показатели только благодаря огромному кешу. Достаточно выбросить 179.art и сразу будет понятно, каковы вычислительные способности собственно ядра Итаниум... И ничего особо выдающегося уже не видно...\

Более новые результаты по Itanium 1500@6M=2148, 1300@3M=1854 и 1400@1.5M=1684 до сих пор остаются весьма неплохими, даже если удалить результаты art (1973/1711/1684).

Кроме того, сейчас ход за Itanium. Ждемс.
Кстати говоря, IMHO, по себестоимости в больших партиях 90nm Itanium2 [email]1400@1.5M[/email] вполне можно считать "десктопным".

matik

Штатный мерзавец

Сообщения: 7188
Откуда: Москва\Одесса

Репутация: 5

Добавлено: 18:34 11.10.2004

VLev
Кстати говоря, IMHO, по себестоимости в больших партиях 90nm Itanium2 [email]1400@1.5M[/email] вполне можно считать "десктопным".
Уж, по крайней мере, точно дешевле Gallatin 2M, который идет на П4 ХЕ

Активный участник

Сообщения: 1148
Откуда: Faraway So Close

Репутация: 0

Добавлено: 00:23 03.02.2005

The 37th Annual IEEE/ACM International Symposium on Microarchitecture, 2004

Интересующимся доступны ряд презентаций
http://www.microarch.org/micro37/program.html

C@t

Активный участник

Сообщения: 1257
Откуда: Москва

Репутация: 0

Добавлено: 22:43 19.07.2005

ох, настроение хорошее

http://www.aceshardware.com/forums/read ... &forumid=1

оно того стоит чтобы процитировать отдельно
(речь про Transmeta, TM)

Цитата:
> TM had a good idea.

That is extremely debatable. Some would argue that they had a very immature and incorrect idea. In fact, a lot of people did argure just that. And as history has proven, they were correct.

> They realised that OoO execution was a dead end and tried to make a nice VLIW for x86.

They didn't so much realise anything about OoO. More realistically, they didn't really understand OoO.

> They failed because they couldn't posibly keep up with the pace of the massive development race between Intel and AMD.

Couldn't keep up? You're joking right? That implies that Transmeta was ever competitive or even had a stable market they were targetting. Their first production CPU ended up targetting the laptop market because they were completely uncompetitive in the desktop market.

> Having a consept that is 20% better than the competition is no good if you are one process step behind.

20% better? At what? Hype?

> Not having the resources to optimise at th same level s the competition at the same process node doesn't help. What I'm saying is that TM's product could have been cussesfull if someone like Intel/AMD/IBM prouced it.

I doubt if the concepts used by TM could have been successfull regardless of funding or resources against any reasonable competition. The basic concept is quite flawed.

Transmeta as a concept has been quite flawed ever since the day at Micro when their founder got up and gave a presentation of how he'd managed to figure out the future and that everything else are an evolutionary dead end. The concepts behind TM were as flawed as the concepts behind hardware lisp engines, which funny enough, came out of a lot of the same people.

Aaron Spink
speaking for myself inc.

matik

Штатный мерзавец

Сообщения: 7188
Откуда: Москва\Одесса

Репутация: 5

Добавлено: 23:24 19.07.2005

C@t
А на русском, для бестолковых?

GNUS inc

Активный участник

Сообщения: 637
Откуда: Москва

Репутация: 0

Добавлено: 13:52 20.07.2005

C@t

chavv

Новичок

Сообщения: 76
Откуда: София, България

Репутация: 0

Добавлено: 15:27 20.07.2005

http://www.theinquirer.net/?article=24756

Цитата:
That one is easy, you integrate PCIe onto the chip. Latency for just about everything takes another huge whack, and everything from video to 10 GigE gets faster. For the home, you get more frames and better graphics responsiveness. For the business world, you get latency reduction on I/O, latency reduction on I/O, and latency reduction on I/O as the three most important things.

If you were wondering what all those pins on S1207 were for, wonder no more. If you need I/O that scales with the number of CPUs, look no farther. If you want this from AMD, it will happen. If you want it from Intel, it will happen too, just 18-24 months later, *COUGH* Nehalem *COUGH*.