Конференция работает на сервере Netberg

Radeon.ru

Конференция Radeon.ru

Страница 2 из 5 [ Сообщений: 191 ]  На страницу Пред.  1, 2, 3, 4, 5  След.
Warrax

>Сами же говорили, что VLIW потребует большей ПСП, а у Итаниума всего 400МГц, и то в QP\

Я полагаю, что разделяемая (да на четверых) шина с большей шириной/частотой вряд ли возможна. Но разводка платы гораздо проще.
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>А вот с хорошими компиляторами сейчас туго явно не только в IA-64
Смещение приоритетов в сторону ЯВУ (вполне логичное) явно этому способствует.</SPAN><HR size=22></SPAN></BLOCKQUOTE>
Проблема не в компиляторах, а в алгоритмах. Подавляющее большинство алгоритмов последовательны по своей сути.
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>Stranger_NN:
Я полагаю, что разделяемая (да на четверых) шина с большей шириной/частотой вряд ли возможна.</SPAN><HR size=22></SPAN></BLOCKQUOTE>
Но от этого вряд-ли менее востребована.

>Stranger_NN:Подавляющее большинство алгоритмов последовательны по своей сути.\

Вообще-то это не так.
По сути они как раз параллельны, более того параллельны заведомо избыточно.
Основная проблема IMHO в языках программирования, неявно предполагающих последовательное выполнение любого алгоритма. Или, если копать вглубь истории, в последовательной сущности машины Тьюринга, которая исторически является основной моделью вычислителя.
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>Warrax:
Но от этого вряд-ли менее востребована.</SPAN><HR size=22></SPAN></BLOCKQUOTE>
Повсеместно идет замена общих шин конфигурацией точка-точка.
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>VLev:
Повсеместно идет замена общих шин конфигурацией точка-точка.</SPAN><HR size=22></SPAN></BLOCKQUOTE>

Не соглашусь со словом повсеместно.
Да и Интел в этом плане стоит как-то особняком, предпочитая "лечить" SMP-системы увеличением кэша.
Warrax
Да и Интел в этом плане стоит как-то особняком, предпочитая "лечить" SMP-системы увеличением кэша.
Это проще. Поскольку предполагает только работу технологов.
Но и PCI-E, и другие современные шины, все точка-точка.
Warrax
а у Итаниума всего 400МГц, и то в QP.
да, но одна шириной 128 бит. Другое дело, что на данную шину наровят повесить большое количество процессоров. Но думаю незря появились слухи о ребятах из интела, которые что-то там делают с внешним интерфейсом, т.к. для 2, а тем более 8 ядер существующее решение, пусть и на 800 ( и то непонятно когда) мегагерц маловато будет.
Stranger_NN
разделяемая (да на четверых) шина
именно поэтому в серьезных системах не больше 2.
Warrax
Не соглашусь со словом повсеместно.
а зря, у интела это только 4 проца в максимуме. Все остальные давно идут к точка точка.
Да и Интел в этом плане стоит как-то особняком, предпочитая "лечить" SMP-системы увеличением кэша.
зря вы про интел так. Вообщето ИБМ тоже кэшим наращивает. По мне как раз и кэши нужны и неразделяемые шины. Вопос только в том для какой задачи мы систему делем.
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>ISA_user:
зря вы про интел так. Вообщето ИБМ тоже кэшим наращивает.
</SPAN><HR size=22></SPAN></BLOCKQUOTE>
Но уже по другой причине Изображение
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>ISA_user:
По мне как раз и кэши нужны и неразделяемые шины.</SPAN><HR size=22></SPAN></BLOCKQUOTE>
Кто же с этим спорит?
VLev, мы об одном и том же? Изображение Я о внутреннем паралеллизме на уровне потока команд. На уровне потоков паралеллизм очевиден.

Внутри же потоков параллельность на уровне "пользовательских" алгоритмов (нe HPC), попадается, увы не так часто как хотелось бы. Хотя... Может и ЯВУ виноваты, LISP, помнится, давал параллельность... Но как факт.
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>matik:
Warrax
Да и Интел в этом плане стоит как-то особняком, предпочитая "лечить" SMP-системы увеличением кэша.
Это проще. Поскольку предполагает только работу технологов.
</SPAN><HR size=22></SPAN></BLOCKQUOTE>
А что в итоге получает конечный потребитель?
Для 1-way у AMD и Intel паритет по стоимости и производительности.
А для 4-way процессоры Intel уже серьезно проигрывают и по цене и по производительности.
И не факт,что новые Xeon MP исправят ситуацию. Тем более что появятся они нескоро — АМД к этому моменту обещает Оптероны 0,09 , в том числе двухядерные...Изображение
Warrax
Но уже по другой причине
вообще-то причина таже — увеличение производительности всей системыИзображение
Warrax
А для 4-way процессоры Intel уже серьезно проигрывают и по цене и по производительности.
хде? Да и давно ли появились реально серьезные предложения 4хк8?
[moderator mode on]
ISA_user, Warrax.... А давайте-ка в другую веточку, АМД/Intel где сравнивают..
[moderator mode off]

>Stranger_NN: мы об одном и том же? Изображение Я о внутреннем паралеллизме на уровне потока команд.\

Я тоже о нем, о внутреннем (логическом) параллелизме алгоритма (его еще мелкозернистым называют). Правда, до формирования потока команд, и даже до реализации алгоритма на каком-либо языке.
Так вот, избыточен именно он.
Чтобы не быть голословным, я могу конкретный пример привести: алгоритмы сортировок.

Задача: требуется отсортировать N чисел f_i, i=0,...N-1 в порядке возрастания.

Есть много разных последовательных алгоритмов с числом операций от O(N log N) /например, основанные на построении деревьев/ до O(N^2) /пузырьковый/.
Таким образом, последовательному процессору на решение этой задачи требуется (a,b --- некие константы) минимум: a N log N тактов, максимум: b N^2 тактов.

Однако можно показать, что все эти последовательные алгоритмы являются разновидностью одного параллельного, который выполняется всего за 3 (три) шага:
шаг 1: параллельно сравниваем все возможные пары чисел (их N^2 штук):
r_{ij}=f_i ? f_j, где r_{ij}=1, если f_i > f_j или 0 в противном случае.
шаг 2: для каждого i вычисляем параллельную сумму I_i=parsum_j r_{ij}
шаг 3: формируем уже отсортированную последовательность (тоже параллельно) f_i —> f_{I_i}
Таким образом, если у нас есть гипотетический процессор с достаточным уровнем параллелизма, то сортировка всего массива может быть произведена за три его такта.
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>Stranger_NN:
[moderator mode on]
ISA_user, Warrax.... А давайте-ка в другую веточку, АМД/Intel где сравнивают..
[moderator mode off]</SPAN><HR size=22></SPAN></BLOCKQUOTE>

А мы уже ругались там с ним по этому поводу Изображение
А вообще всем присутствующим не кажется занимательным тот факт, что обсуждение во многих здешних ветках сводится к АМД/Intel хотя я здесь пока не видел "красноглазых"? Изображение
Не считаете ли вы, что противостояние данных компаний перестало быть сугубо номинальным?
Warrax
Не считаете ли вы, что противостояние данных компаний перестало быть сугубо номинальным?
А оно никогда и не было номинальным Изображение Или я неправильно понял термин...
VLev, я что, говорил что параллельных алгоритмов нет? Есть, и их очень даже много. Но в процентном отношении (не в виде к-ва случаев), а в виде количества применений — их относительно мало. Скорее имеет резон искать параллельность на уровне независимости исполняемых команд. Нет, конечно, существующие параллельные алгоритмы надо использовать, и тут широкое командное слово рулит..

Warrax

>А вообще всем присутствующим не кажется занимательным тот факт, что обсуждение во многих здешних ветках сводится к АМД/Intel\

Нет, т.к. 99% присутствующих в глаза не видали никаких других (я уж молчу про не-х86) процессоров. Что же обсуждать?

>Stranger_NN: параллельных алгоритмов ... в виде количества применений — их относительно мало.\

В том-то и состоит парадокс.
У применяемых алгоритмов параллелизм относительно мал Хотя, на самом деле, для всяких EPIC и его вполне достаточно --- C@t как-то приводил статистику по SPEC тестам, но практически для любого из этих последовательных алгоритмов существует базовый параллельный аналог, который обладает огромным запасом параллелизма --- только захоти...

Особенно занятен в этой связи механизм превращения исходного параллельного алгоритма в применяемый последовательный. Вот тут-то как раз IMHO, и "виноваты" языки программирования, которые "заставляют" программистов мыслить последовательно.
<font class="off">Warrax
А мы уже ругались там с ним по этому поводу
и это он называет ругательством. хаИзображение </font>
MIPS adds SIMD instructions in DSP extension

<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>
SAN JOSE, Calif. — MIPS Technologies Inc. has launched DSP ASE, digital signal processing extension to the MIPS architecture.

The DSP ASE includes 8-, 16- and 32-bit SIMD instructions for saturated and fractional math and is supported by a GNU-based software development tools, as well as pre-written software in the MIPS DSP library.

The DSP ASE is available for licensing by MIPS32 and MIPS64 ISA customers. Additionally, this technology will appear in future 32- and 64-bit cores developed by MIPS Technologies, the company said.

The DSP ASE improves signal-processing performance up to 300 percent over a range of embedded applications, the company claimed.

The new DSP extension comprises a set of new instructions and states in the integer pipeline of MIPS Technologies cores and requires less than six percent additional silicon area to implement in a 24K-class core, said MIPS.
</SPAN><HR size=22></SPAN></BLOCKQUOTE>

http://www.siliconstrategies.com/article/showArticle.jhtml;jsessionid=ZUFXXTPERDUIOQSNDBCSKH0CJUMEKJVN?articleId=49400420
VLev

> Хотя, на самом деле, для всяких EPIC и его вполне достаточно\

Там всего-навсего три команды в связке... Для 512-разрядного процессора это будет 16*32 или 8*64.. Не зна-аю даже, достижимо ли столько практически.

> но практически для любого из этих последовательных алгоритмов существует базовый параллельный аналог, который обладает огромным запасом параллелизма --- только захоти...\

Даже так? Тогда все еще приятнее. Изображение Вот только нет у меня пока такой уверенности. Буду думать.

>Особенно занятен в этой связи механизм превращения исходного параллельного алгоритма в применяемый последовательный. Вот тут-то как раз IMHO, и "виноваты" языки программирования, которые "заставляют" программистов мыслить последовательно.\

Или наоборот, последовательная человеческая логика не воспринимает параллельные концепции и языки программирования? Впрочем, это вопрос отдельный.

saigon, ну, MIPS известная своей гибкостью архитектура... Но идея приятная, ядра эти широко распространены, это много где поможет.
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>Stranger_NN:
Даже так? Тогда все еще приятнее. Изображение Вот только нет у меня пока такой уверенности. Буду думать. </SPAN><HR size=22></SPAN></BLOCKQUOTE>
Да, именно так.
Копать в сторону тонкой информационной структуры зависимостей данных (информационный граф зависимостей).

Обычно граф зависимостей в разных алгоритмах один и тот же, и в нем содержится огромный запас паралелльности. Но конкретный последовательный алгоритм обходит узлы этого графа (элементарные операции) в разной последовательности. Идея состоит в том, чтобы вообще отказаться от спецификации в программе порядка его обхода --- это избыточная (и часто вредная для производительности) информация.
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>Stranger_NN:
Или наоборот, последовательная человеческая логика не воспринимает параллельные концепции и языки программирования?</SPAN><HR size=22></SPAN></BLOCKQUOTE>
Существуют методы адаптации.
Например, объектно-ориентированный подход.
Еще ближе --- модели конечных автоматов.

Кстати говоря, на уровне архитектуры сам процессор является конечным гиперавтоматом с огромным уровнем параллелизма.
Но при этом эмулирует из себя последовательную машину Тьюринга. Изображение
VLev, думаю...

> Идея состоит в том, чтобы вообще отказаться от спецификации в программе порядка его обхода --- это избыточная (и часто вредная для производительности) информация.\

Мнэ... А как это реализовать в транзисторах и системной архитектуре? Изображение Что-то у меня никак не получается..

>Кстати говоря, на уровне архитектуры сам процессор является конечным гиперавтоматом с огромным уровнем параллелизма.\

Только параллелизм у него какой-то неполноценный, по-моему.
Warrax
<I>Да не... Процессор хороший, а вот то, что вокруг него... "Я его слепила из того что было..." Изображение
Сами же говорили, что VLIW потребует большей ПСП, а у Итаниума всего 400МГц, и то в QP.</I>
Вы почему-то упускаете из виду то, что кеш L2 у Итаниум непропорционально большой и практически благодаря ему Итаниум показывает столь высокие результаты в спеках. А ведь если его поставить в равные условия с другими процессорами(хотя бы с P4XE), то он сольёт по полной программе. И где тут совершенство? Совершенно непонятно. И не надо ссылаться на низкочастотную шину, ПСП у неё такое же как у топового P4.
<I>Да и "Вообще, быстродействие VLIW-процессора в большей степени зависит от компилятора, нежели от аппаратуры, поскольку здесь эффект от оптимизации последовательности операций превышает результат, возникающий от повышения частоты."
А вот с хорошими компиляторами сейчас туго явно не только в IA-64 Изображение
Смещение приоритетов в сторону ЯВУ (вполне логичное) явно этому способствует.</I>
А вот про компиляторы Вы, пожалуй, не правы. Сколько уже лет Интел оттачивает свои компиляторы. Они, я думаю, уже довольно давно подошли к пределу качества оптимизации...
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>Stranger_NN:
99% присутствующих в глаза не видали никаких других (я уж молчу про не-х86) процессоров.
</SPAN><HR size=22></SPAN></BLOCKQUOTE>
Таких как я всего 1%? Изображение

<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>VLev:на уровне архитектуры сам процессор является конечным гиперавтоматом с огромным уровнем параллелизма.
Но при этом эмулирует из себя последовательную машину Тьюринга.
</SPAN><HR size=22></SPAN></BLOCKQUOTE>Изображение

>Shurik_ant:Вы почему-то упускаете из виду то, что кеш L2 у Итаниум непропорционально большой\

Он как раз пропорционально большой дефициту ПСП Изображение

>Shurik_ant:И не надо ссылаться на низкочастотную шину, ПСП у неё такое же как у топового P4.\
Вы разницу между выделенной шиной и общей понимаете? Поделить это все на четверых, да еще арбитраж... Изображение

>Shurik_ant:А вот про компиляторы Вы, пожалуй, не правы. Сколько уже лет Интел оттачивает свои компиляторы. Они, я думаю, уже довольно давно подошли к пределу качества оптимизации...\
Она их не "оттачивает", она делает елементарную оптимизацию кода согласно собственным же открытым рекомендация. Другое дело что все прочие явно брезгуют подобными рекомендациями Изображение
Свои компиляторы, свои серверные комплекты, ... Интел так может стать скоро вторым SUNом — осталось написать только собственную ОС Изображение
Warrax
Вы разницу между выделенной шиной и общей понимаете? Поделить это все на четверых, да еще арбитраж...
вообщето Саша понимает. Он также понимает то что мы например сравниваем одиночные процы в спекеИзображение
Warrax

>И не надо ссылаться на низкочастотную шину, ПСП у неё такое же как у топового P4.Вы разницу между выделенной шиной и общей понимаете? Поделить это все на четверых, да еще арбитраж... Изображение\

То что шина делится на четверых влияет на specrate, но никак не на specint и specfp. А вот в них у Итаниум приличные показатели только благодаря огромному кешу. Достаточно выбросить 179.art и сразу будет понятно, каковы вычислительные способности собственно ядра Итаниум.Тут видно, что именно засчет 179.art=6324 specfp у 6-ти мегабайтного Итаниум вылезает до 1875. А у полуторамегабайтного Итаниума specfp получается уже 1444. И ничего особо выдающегося уже не видно...
Более того, уже даже и 1875 ничем особым не кажутся..]
matik
Я специально взял такие старые результаты, потому, что там почти одновременно выложены и 1,5 Мб кешевый и 6 Мб кешевый результаты и можно сравнить...
matik
Более того, уже даже и 1875 ничем особым не кажутся..]
ага, вот только основное слово тут ужеИзображение

>Shurik_ant:... у Итаниум приличные показатели только благодаря огромному кешу. Достаточно выбросить 179.art и сразу будет понятно, каковы вычислительные способности собственно ядра Итаниум... И ничего особо выдающегося уже не видно...\

Более новые результаты по Itanium 1500@6M=2148, 1300@3M=1854 и 1400@1.5M=1684 до сих пор остаются весьма неплохими, даже если удалить результаты art (1973/1711/1684).

Кроме того, сейчас ход за Itanium. Ждемс.
Кстати говоря, IMHO, по себестоимости в больших партиях 90nm Itanium2 [email]1400@1.5M[/email] вполне можно считать "десктопным".
VLev
Кстати говоря, IMHO, по себестоимости в больших партиях 90nm Itanium2 [email]1400@1.5M[/email] вполне можно считать "десктопным".
Уж, по крайней мере, точно дешевле Gallatin 2M, который идет на П4 ХЕ
The 37th Annual IEEE/ACM International Symposium on Microarchitecture, 2004

Интересующимся доступны ряд презентаций
http://www.microarch.org/micro37/program.html
ох, настроение хорошее :D

http://www.aceshardware.com/forums/read ... &forumid=1

оно того стоит чтобы процитировать отдельно
(речь про Transmeta, TM)


> TM had a good idea.

That is extremely debatable. Some would argue that they had a very immature and incorrect idea. In fact, a lot of people did argure just that. And as history has proven, they were correct.


> They realised that OoO execution was a dead end and tried to make a nice VLIW for x86.

They didn't so much realise anything about OoO. More realistically, they didn't really understand OoO.


> They failed because they couldn't posibly keep up with the pace of the massive development race between Intel and AMD.

Couldn't keep up? You're joking right? That implies that Transmeta was ever competitive or even had a stable market they were targetting. Their first production CPU ended up targetting the laptop market because they were completely uncompetitive in the desktop market.


> Having a consept that is 20% better than the competition is no good if you are one process step behind.

20% better? At what? Hype?


> Not having the resources to optimise at th same level s the competition at the same process node doesn't help. What I'm saying is that TM's product could have been cussesfull if someone like Intel/AMD/IBM prouced it.

I doubt if the concepts used by TM could have been successfull regardless of funding or resources against any reasonable competition. The basic concept is quite flawed.

Transmeta as a concept has been quite flawed ever since the day at Micro when their founder got up and gave a presentation of how he'd managed to figure out the future and that everything else are an evolutionary dead end. The concepts behind TM were as flawed as the concepts behind hardware lisp engines, which funny enough, came out of a lot of the same people.

Aaron Spink
speaking for myself inc.
C@t
А на русском, для бестолковых? :)
C@t
:D
http://www.theinquirer.net/?article=24756

That one is easy, you integrate PCIe onto the chip. Latency for just about everything takes another huge whack, and everything from video to 10 GigE gets faster. For the home, you get more frames and better graphics responsiveness. For the business world, you get latency reduction on I/O, latency reduction on I/O, and latency reduction on I/O as the three most important things.

If you were wondering what all those pins on S1207 were for, wonder no more. If you need I/O that scales with the number of CPUs, look no farther. If you want this from AMD, it will happen. If you want it from Intel, it will happen too, just 18-24 months later, *COUGH* Nehalem *COUGH*.

:spy:
matik

на русском, для бестолковых :D
крутой перец по нашему сабжу (архитектура) пишет что ихний сабж (TM) суть маздай, и то, на чем он был основан есть КГ/АМ
C@t
Готично :D :yes:
C@t
:up:
 [ Сообщений: 191 ]  На страницу Пред.  1, 2, 3, 4, 5  След.


Кто сейчас на конференции

Сейчас этот форум просматривают: Claude [Bot] и гости: 9


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Перейти:  
Пишите нам | Radeon.ru