Страница 1 из 3 [ Сообщений: 98 ] | На страницу 1, 2, 3 След. |
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>Stranger_NN:
Поэтому, может быть, имеет смысл уже сейчас рассмотреть возможность построения высокопараллельных систем из _относительно_ маломощных процессоров? </SPAN><HR size=22></SPAN></BLOCKQUOTE> В каком смысле "маломощных"? По производительности или тепловыделению? На самом деле, лет 25 назад (а для высокопроихводительных систем и позже) проблема тепловыделения компьютеров стояла "в полный рост". Охлаждение было строго жидкостным. Решение нашли в замене технологии производства микросхем: ESL на CMOS. Хотя CMOS как бы медленнее ESL. |
Как известно, рано или поздно производительность микропроцессоров упертся и в базовые физические ограничения и в плотность тепловыделения.
Поэтому, может быть, имеет смысл уже сейчас рассмотреть возможность построения высокопараллельных систем из _относительно_ маломощных процессоров? Вот, например, пресловутый МЦСТ выпек наконец-то свой 500MHz по 0.13 SPARC совместимый R-500. Производительность не фонтан, по целочисленке (регистровой) примерно на уровне Р200, по плавающей точке — на уровне Р-II 350, но всего ДВА ВАТТА (по другим данным меньше) ест. Может быть, 16-32-процессорная такая система (интересно какой архитектуры? Собственно ветка как раз об этом) и даст 100 очков форы современным монстрам (и при этом будет практически холодной и бесшумной) Да, есть непараллелящиеся алгоритмы, но может быть для них реализовать конвейерную обработку на нескольких процессорах? А как бы организовать гибко перестраиваемую архитектуру... Обсудим? |
Stranger_NN
Производительность не фонтан, по целочисленке (регистровой) примерно на уровне Р200, по плавающей точке — на уровне Р-II 350, но всего ДВА ВАТТА (по другим данным меньше) ест. AMD Alchemy либо XScale ![]() |
GNUS inc, да не суть (R-500 интересен только своим отечественным происхождением), я могу еще пяток подобных привести. Я о концепции.
|
Stranger_NN
Я о концепции. Разводить многопроцессорную систему, логику для неё создавать... ИМХО стоимость перевесит все плюсы... |
GNUS inc, дык понятно, что с логикой придется повозиться, но ввиду базовых ограничений (физических) может уже сейчас задуматься? Ну, например, обьединять эти камешки на модулях по 4 штуки на общей шине + локальная память (на каждом процессоре или общая на четверых) + контроллер HT2 (например), а потом связать через N-канальный HT2 контроллер (втыкая в некую объединительную плату).
А на один из каналов объединяющего контроллера — повесить систему ввода-вывода. Т.о., получаем унифицированный модуль, а изменение мощности компьютера производим просто увеличением/уменьшением числа модулей.. |
Stranger_NN
обьединять эти камешки на модулях по 4 штуки на общей шине Т.е. сначала разделять, а потом объединять? Чего-то не очень перспектива, хотя наверняка найдется класс задач где именно такая архитектура будет наиболее экономически эффективной. В предположении того, что 32 малыша будут равны по целочисленке 4 Оптеронам, а в плавучке 4 Итаникам можно прикинуть целесообразность — потребуются память и интерконнект на 8 модулей по 4 проца, при этом применимость такой системы будет весьма ограничена. ИМХО, лучше уж не разделять чипы совсем, а делать несколько [десятков] ядер на одном кристалле. |
Stranger_NN
Есть впечатление, что в такой системе быстрые шины и умные коммутаторы будут греться больше процессоров ![]() |
matik
мы будем лимитированы не скоростями процессоров, а скоростями соединений, и временем "пробега" сигнала по системе 500МГц процессор и 1ГГц интерконнект, узкое место будет именно в процессоре. Stranger_NN локальная память (на каждом процессоре или общая на четверых) На каждого малыша локальную память будет слишком накладно ставить — 3/4 ПСП будут лишними, а платить за это придется количеством ног процессора и сложной разводкой платы. |
KSP
500МГц процессор и 1ГГц интерконнект, узкое место будет именно в процессоре. Хм ![]() |
matik
Ага, понял. Спасибо. |
Stranger_NN
Да, похоже видимо надо лепить штуки 4 ядра на один кристалл и делать по хорошему 0.09 СОИ чтобы тепловыделение было под контролем. Не зря же и АМД и Интел видят в этом будущее. А то получится комп который занимает пол комнаты которому ещё и применение найти трудно. И обвязка дорогая будет. matik HT2 на полной скорости — даже если разделять работу между процессорами, ПСП должно хватить. Только латентность и коммутаторы?! Это что ж за экономная система такая получается. |
Ivan Andreevich
Весь вопрос в том, на СКОЛЬКО процессоров их хватит... Просто попробуйте себе представить топологию такой системы... |
matik
С хабом, или без? В любом случае вы наверное правы. |
Stranger_NN
Думаю, Вы правы и все эти деяния на поприще сперва НТ, потом двухядерных, 4,8 и т.д. процов, а также появления EPIC на все 100% указанному Вами тезису: рано или поздно производительность микропроцессоров упертся и в базовые физические ограничения и в плотность тепловыделения. Единственный момент с тепловыделением. Мне кажется, не зря уже есть разработки жидкостного охлаждения кристалла (не теплоотвода, а именно кристалла). Тут уж никуда не деться. Просто вариант как у KSP 32 малыша будут равны по целочисленке 4 Оптеронам, а в плавучке 4 Итаникам сейчас с точки зрения финансов и технологии проигрывают, а вот когда одиночный проц за год будет увеличивать свое быстродействие в 5%, вот тогда и начнется песня — надо больше, а низяя. Есть правда еще один момент, который отсрочит это. Современные системы совсем не сбалансированы — проц ох какой быстрый, а вся инфраструктура жутко медленная. Может оказаться, что экономически выгоднее будет начать развивать инфраструктуру и уже за счет ее повышать быстродействие там где это надо. |
ISA_user
Может оказаться, что экономически выгоднее будет начать развивать инфраструктуру и уже за счет ее повышать быстродействие там где это надо. Типа чего — дисковой подсистемы что ли? |
Ivan Andreevich
Типа чего Да хотя бы подсистемы памяти — сами посмотрите что приходиться с кэшами вытворять. Так же как Вы и сказали — дисковой подсистемы. Кроме этого есть совсем тупая и медленная вещь — прокладка между монитором и сиденьем ![]() например пока данную ветку прочитаешь — комп уснет ![]() |
ISA_user
прокладка между монитором и сиденьем Мы же про высокопроизводительные системы, а не про десктопы? |
<font class="off">KSP
Сэр, специально для Вас поясняю, что данная строка про прокладку была шуткой, о чем свидетельствует два рисунка называемы в народе смайликами и назначения которых можно узнать тут. Более того Смайлики — это набор символов, который используется для передачи эмоций ![]() ![]() |
<font class="off">ISA_user
Эмоции должны быть в рамках темы, т.е. о высоко- и супер-. </font> |
<font class="off">KSP
ISA_user Ладно вам — делать что ли больше нечего ![]() |
<font class="off">KSP
быть в рамках темы, т.е. о высоко- и супер-. Ок. Знакомы с живыми системами? Вопрос: сколько времени задача подготавливается и интерпретируется, а сколько считается?. Например, в геологии счет раза в 3 быстрее происходит по сравнению со всем остальными... А ведь в конечном итоге важно время решения ВСЕЙ задачи, а не каждой его части... хотя тут это может быть и офтопп</font> |
Вы забыли о другой важной хар-ке такой как потребляемая мощность, а она
не такая уж и маленькая. Надо снижать не только тепловыделение, но и потребление энергии. |
<font class="off">wolfman
Надо снижать не только тепловыделение, но и потребление энергии. а разве у евм не 99.99% КПД в преврашении потребляемой энергии в тепло?</font> |
KSP
Ок, делаем четырехкристальные микросборки (именно сборки, т.к. себестоимость однокристального решения получается очень большой) включающие в себя контроллер памяти (один, скажем, двухканальный на сборку) повязанные по HT2 (выделение сборки на частоте вгигагерц не должно превышать 20-40 ватт) и вяжем по свободным каналам HT2 уже эти сборки. matik
Ну и ладно. Если ОБЩЕЕ выделение сборки не будет превышать 40 ватт и плотность тепловыделения будет не больше 0,2 ватт/мм2 и ядра будут потреблять 50% мощности – то и пускай. Заодно решаем и проблему задержек передачи данных – т.е., вполне можно организовать конвейерное исполнение, как минимум, в пределах сборки. ISA_user
Нет, тут другое. Я имел в виду выделение энергии на переходе относительно его размеров. Охлаждение кристалла – очень “далеко” от места выделения энергии и может не спасти… Думаю, что дальнейший прогресс скоро приведет к тому, что переход начнет разрушаться от вполне конечного числа срабатываний. Полагаю, что процессоры с ограниченым временем работы (скажем, 10000 машинных часов) мы скоро увидим… VLev
В обоих смыслах. Суть в использовании процессоров с удельной стоимостью (на единицу производительности) в несколько раз меньше, чем у топовых монстров. |
Stranger_NN
А что, это, пожалуй, самое выгодное для производителей процессоров ![]() Продал однажды партию процессоров, а потом регулярно продаёшь туда же ещё столько же, прям абонентская плата какая-то... ![]() |
Shurik_ant, вот в том-то и дело..... Не хватало еще такой "иглы".
![]() |
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>Stranger_NN:
В обоих смыслах. Суть в использовании процессоров с удельной стоимостью (на единицу производительности) в несколько раз меньше, чем у топовых монстров. </SPAN><HR size=22></SPAN></BLOCKQUOTE> Ну, "удельная стоимость" --- это уже третий фактор ![]() В общем же случае, себестоимость производства определяется процентом выхода годных (%ВГ) процессоров с пластины. Для каждой совокупности физдизайн+техпроцесс должен существовать оптимум размера кристалла, при котором %ВГ уже достаточно высок (скажем, половина) а дальнейшее уменьшение площади кристалла приводит к резкому снижению производительности. До сих пор с развитием техпроцессов этот оптимум увеличивался, что собственно и привело к появлению "монстров". Сейчас появился некий новый ограничивающий фактор --- токи утечки. Но с ними, вроде, как-то борятся... |
VLev, я читал, что предел частот лежит где-то на уровне 5-7ГГц, при более высоких частотах переходы просто "умирают" (дрейф? перегрев?) за очень малое время. При этом (пока) никаких реальных способов решить задачу не наблюдается...
|
Stranger_NN
я читал, что предел частот лежит где-то на уровне 5-7ГГц Думаю, это очередной барьер из тех, что уже не один раз брала промышленность... Так было и с мегагерцовыми частотами — дескать, частота слишком большая, чтобы схема успевала срабатывать... Ничего, справятся. |
matik, да нет, тут проблема уже не со срабатыванием схем (ту проблему порешали техпроцессом). Проблема в уничтожении самого перехода. Тут проблема из области принципиальных и уменьшение проектных норм только усугубляет проблему. Т.е., тут промышленность попадает в клещи — с одной стороны, для увеличения частоты нужно уменьшать нормы, а с другой — уменьшение нормы уменьшает и срок жизни перехода...
Итак, по теме. Как господа участники оценивают вот такую структурку: 4 ядра с частотой около гигагерца + контроллер HT2, 6-канальный коммутатор HT2 который одним из "свободных концов" упирается в контроллер памяти , а другим — в интерконнект. Такое решение оформить в виде сборки под общим кулером и уже из них "выпекать" более чем 4-ядерные решения....? |
Stranger_NN
Проблема в уничтожении самого перехода. Ну, сам по себе p-n переход действительно имеет предельный геометрический размер, за которым он уже теряет свои свойства. Но напоминаю, что и АМД и Интел демонстрировали ТЕРАгерцовые транзисторы. Трехмерные структуры, если не ошибаюсь. Соответственно, думаю, до этих частот процессоры все же доведут. Как господа участники оценивают вот такую структурку Самое веское слово здесь за программистами. Сумеют они перевести бОльшую часть ПО на хорошо параллелящиеся алгоритмы — сборка будет иметь смысл. Нет? Тогда так и останется нишевым продуктом. |
<BLOCKQUOTE><SPAN class=hquote>цитата:</SPAN><HR size=22><SPAN class=quote>Stranger_NN:
Итак, по теме. Как господа участники оценивают вот такую структурку:...</SPAN><HR size=22></SPAN></BLOCKQUOTE> Что-то вроде этого делает IBM (Power4) IMHO. |
matik,
...хм... Одиночные транзисторы на шоу и многомиллионные структуры в течении многих лет — это две большие разницы (я слыхал, что их дрейфом довольно быстро выводит из строя). Это раз. Сколько будет выделять и как себя чувствовать такая структура — дело тоже пока темное. Это два. В-третьих, даже если все это сделать — зачем нам такие отопители в помещении? Или охладительная система ПЕРСОНАЛЬНЫХ систем будет строится по принципу сплит-кондиционеров (и столько же стоить!)? А что делать в офисе, где несколько ДЕСЯТКОВ машин?
А так ли нам нужна _такая_ производительность на одиночном процессе? Точнее, наоборот, так ли нужен ОДИНОЧНЫЙ процессор _такой_ производительности, если в реальной системе все равно много задач... |
VLev, ну да! Идея почти та же. Но у них ядра мощнее и у каждого свой контроллер(ы) памяти. Т.е., структура заметно посложнее ( http://itc.ua/img/ko/2003/24/power4_chip.gif ). В общем, предлагаемая структура разумна по цене. А производительность 4 гигагерцовых ядер — более чем достаточна для всех мыслимых задач..
|
Stranger_NN
Охлаждение кристалла – очень “далеко” от места выделения энергии и может не спасти… ага, где-то около миллиметра. Думаю, что дальнейший прогресс скоро приведет к тому, что переход начнет разрушаться от вполне конечного числа срабатываний. не думаю, сам переход как раз шибко не греется — греются их куча очень близко расположенных, а это решаемо разнесением переходов друг от друга. предел частот лежит где-то на уровне 5-7ГГц, при более высоких частотах переходы просто "умирают" (дрейф? перегрев?) за очень малое время. а как же геси переходы, которые работают на порядок большей частоте? 4 ядра с частотой около гигагерца + контроллер HT2, 6-канальный коммутатор HT2 который одним из "свободных концов" упирается в контроллер памяти , а другим — в интерконнект. Такое решение оформить в виде сборки под общим кулером и уже из них "выпекать" более чем 4-ядерные решения....? дык сан то так и делает ![]() VLev Что-то вроде этого делает IBM (Power4) IMHO ага |
Stranger_NN
Одиночные транзисторы на шоу и многомиллионные структуры в течении многих лет — это две большие разницы Согласен. Но это означает, что принципиальных причин этого не сделать нет. Есть технологические трудности. А их рано или поздно преодолеют. В-третьих, даже если все это сделать — зачем нам такие отопители в помещении? Тут напомню, что ИБМ объявила о технологии, которая позволит впятеро (!) снизить потребяемую мощность... Принципиально у нового терагерцового транзистора, кстати, на два порядка ниже токи утечки, которые, в основном, и греют процессор. Точнее, наоборот, так ли нужен ОДИНОЧНЫЙ процессор _такой_ производительности, если в реальной системе все равно много задач... В реальной системе много задач, но им нужна РАЗНАЯ производительность. Вообще говоря, ТЕКУЩАЯ задача пользователя, как правило, и потребляет больше всего ресурсов... |
ISA_user
Это много...
Дык очень их разносить не получится, рассинхронизируются, заразы!!! ![]()
И сколько будет стоить такой процессор? Массовым он будет? Нет, и довольно долго... Кроме того, это все равно оттягивание неизбежного конца экстенсивного пути..
Да, но реализовать это в рамках микросборок или кристаллов — что д.б. на порядок-два дешевле. Что касается ПО — дык каждый поток может располагать как минимум одним гигагерцовым процессором (с производительностью ядра примерно на уровне А1100-1200). Лицензирование дорогого параллелящегося кода (типа кадов).. Да, тут проблема. Лицензировать по числу возможных потоков — как вариант. Типа, Light версия — один-два потока, Pro — 4, Advanced — неограничено (сколько есть в системе). matik
А смысл? Скажи мне, какая задача из непараллельных упирается именно в производительность ядра? Не в кэши, подгрузку из ОЗУ и память, а именно в производительность ядра? Таких задач на самом деле немного.... А вот потери в реальной системе от переключения задач, от потери реального времени — гораздо заметнее. Банальная задачка — обработка БД при запросе по сети. Играют: Драйвера сетевухи и cтэк IP, ОС, Ядро БД, Опять ОС,драйвера FS, драйвера контроллера дисков и т.д... И это при ОДИНОЧНОМ запросе. Сколько реально потребляет само ядро БД? Может разумнее аккуратно раскидать работу на несколько камней? И тогда, о чудо (сам видал), два Р2-450 "со свистом" обгоняют Р2-933... Игра — физика, AI, отображение, управление, звук и еще целая куча задач.... Интернет — понятно. Что там еще?
Хорошо, впятеро на нонешней частосте.... А через пару лет снова-здорово? Токи утечки это хорошо — но, опять-таки для одиночного транзистора. Поведение в плотной структуре может отличаться разительно.
Нет такого слова — "текущая задача". Точнее, "текущая принципиально непараллельная задача, зависящая только от скорости одиночного ядра" (есть конечно, но нечасто). |
Производительность ядра складывается из произведения частоты на степень параллелизма вычислений.
Самый простой (дешевый) путь для производителя чипа при приближении к ограничению потолка частот — это лобовой, наращивать параллелизм, увеличивая суммарную разрядность вычислений за счет добавления интегрированных в чип контроллеров, реализующих разводку потока на части для их последующей обработки. Оставляя общий поток вычислений единым, это удобнее для программистов. Реинтеграция же проблем теплопотребления не решает, а лишь только обостряет их, imho. Вдобавок появляется проблема ограничения частот при увеличении расстояний, что опять-таки снижает потолок производительности, и появляется необходимость в дополнительной обвязке и коммутации, которая также потребляет энергию и выделяет тепло. Мультичиповая система не является более дешевой ни в аппаратном, ни в программном смысле, ни в отношении к выделяемому теплу, это лишь может позволить преодолеть проблемы ограничения потолка вычислительной мощности "любой ценой", не считаясь с затратами, для текущего уровня технологии. Пока прирост вычислительной мощности будет выгоднее за счет роста частот и внутреннего параллелизма, индустрия скорее всего будет поступать именно так, а не за счет кластеризации системы (которая тянет за собой умножение всей обвязки и рост труда программистов), которая всегда остается невыгодной для массовых задач. То есть такое решение допустимо (оправдано) лишь только за гранью, разделяющей высокопроизводительные системы и остальные (там, где нет одночиповых альтернатив), гранью, которая условна и всегда двигается. В области производительных видеопроцессоров именно так и поступают — увеличивают внутреннюю разрядность _в одном чипе_ там, где это более оправдано с ценовой и тепловой точек зрения, чем технологические трудности, связанные с лобовым ростом частот или распараллеливанием на уровне отдельных чипов (даже в таких относительно примитивных узкоспециализированных высокопредсказуемых задачах, которыми занимается видеопроцессор, это оказывается невыгодно и не дает должного прироста, даже при значительно возросшем энергопотреблении, что же тут говорить про универсальный процессор?). imho, конечно. [Исправлено: NEW : 29-03-2004 17:21] |
NEW
При этом проблему "в ширину" представляет внутренний параллелизм потока (если потоков несколько — то понятно).
Отчего же? Если посчитать суммарное тепловыделение компонентов — то получается не больше 50 ватт на четыре гигагерцовых ядра + их связи. Да еще при этом ПЛОТНОСТЬ тепловыделения падает в разы.
Во-первых, см. п.1., а во вторых — это самое "пока"... По-моему оно довольно-таки рядом...
Полагаю, что это скорее работа компилятора, да и многозадачными системы называют не зря.
Вот эта грань как-то уж очень над головой нависает в последнее время.. Рад буду ошибиться, да вот что-то в сомнениях я...
Вот как раз ВИДЕОПРОЦЕССОР не имеет ограничений п.1., ограничивающих разумную "ширину" исполнения. Так что для ВИДЕО такой путь оправдан. Кстати, какие там частоты у видеочипов....? ![]() |
Страница 1 из 3 |
[ Сообщений: 98 ] | На страницу 1, 2, 3 След. |
Кто сейчас на конференции |
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 9 |
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения |