ATI RADEON X1000 Новая графическая архитектура от ATI Technologies Пространства для маневров с названиями у ATI было немного, и лишь в старшем сегм

Нажмите для полного просмотра!

Содержание ▲

Вы можете ознакомиться и скачать ATI RADEON X1000 Новая графическая архитектура от ATI Technologies Пространства для маневров с названиями у ATI было немного, и лишь в старшем сегм. Презентация содержит 11 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации

Слайд 1

Описание слайда:

ATI RADEON X1000 Новая графическая архитектура от ATI Technologies Пространства для маневров с названиями у ATI было немного, и лишь в старшем сегменте: вакантным оставалось лишь название RADEON X900, в то время, как почти все остальные варианты были уже заняты, ведь, в отличие от NVIDIA, ATI Technologies в случае линейки RADEON X, оперировала трехзначными числами в названиях своих продуктов. Выход из положения нашелся; он оказался простым и, в то же время, достаточно элегантным – к числовым обозначениям новинок было добавлено число 1000. Таким образом, новые графические процессоры ATI получили имена RADEON X1800, RADEON X1600 и RADEON X1300. На наш взгляд – достаточно удачный ход, оставляющий немало места для дальнейших маневров с названиями, а также говорящий о том, что перед нами архитектура нового поколения.

Слайд 2

Описание слайда:

На этот раз это действительно так: ATI и NVIDIA поменялись ролями. Если NVIDIA G70 представляет собой не что иное, как значительно улучшенный NV40 (эволюция), то RADEON X1000 действительно является совершенно новой архитектурой, имеющей мало общего с архитектурами ATI предыдущих поколений (революция). Более того, старшая модель в семействе, чип RADEON X1800 (R520), получился более сложным, нежели NVIDIA G70 – 320 против 302 миллионов транзисторов! При этом, RADEON X1600 (RV530), нацеленный на средние сегменты рынка состоит из 157 миллионов тразисторов, тогда как RADEON X1300 (RV515) стал, согласно заявлениям разработчиков, первым чипом начального уровня, внутри которого около 100 миллионов транзисторов. Причинами усложнения архитектуры стал целый набор новведений в чипе, включая такие особенности как: На этот раз это действительно так: ATI и NVIDIA поменялись ролями. Если NVIDIA G70 представляет собой не что иное, как значительно улучшенный NV40 (эволюция), то RADEON X1000 действительно является совершенно новой архитектурой, имеющей мало общего с архитектурами ATI предыдущих поколений (революция). Более того, старшая модель в семействе, чип RADEON X1800 (R520), получился более сложным, нежели NVIDIA G70 – 320 против 302 миллионов транзисторов! При этом, RADEON X1600 (RV530), нацеленный на средние сегменты рынка состоит из 157 миллионов тразисторов, тогда как RADEON X1300 (RV515) стал, согласно заявлениям разработчиков, первым чипом начального уровня, внутри которого около 100 миллионов транзисторов. Причинами усложнения архитектуры стал целый набор новведений в чипе, включая такие особенности как: Поддержка Shader Model 3.0; Модернизированные шейдерные процессоры со специальным блоком, для выполнения branch инструкций; Новый контроллер памяти; Модернизированная система кешей; Модернизированная система внутренних соединений разных блоков чипа.

Слайд 3

Описание слайда:

В процессе разработки архитектуры нового поколения, ATI постаралась сделать ее максимально гибкой, и графический движок был разбит на отдельные компоненты, число которых можно произвольно компоновать в зависимости от конкретной модели GPU

Слайд 4

Описание слайда:

Поскольку ATI уделила огромное внимание функциям распределения работы между разными испольнительными устройствами, новая архитектура RADEON X1000 стала по-настоящему мультипоточной, получив даже специальное название – Ultra-Threaded Architecture. Аналогия с Intel Hyper-Threading здесь вполне уместна, так как цели у этих технологий схожи: как можно более эффективное задействование имеющихся мощностей процессора и максимально возможное сокращение времени простоя исполнительных устройств. В частности, чипы RADEON X1000 имеют встроенный интеллектуальный коммутатор - специальный блок, называемый Ultra-Threading Dispatch Processor, отвечающий за оптимальное распределение нагрузки между квадами пиксельных процессоров (каждый квад состоит из четырех пиксельных процессоров, каждый из которых в состоянии обработать шейдер для блока 2х2 пиксела за такт), а также текстурными модулями. В частности, Ultra-Threading Dispatch Processor разбивает работу, связанную с одинаковыми пиксельными шейдерами (pixel processing workload) в небольшие группы, или нити (threads) из 4х4 пикселей.

Слайд 5

Описание слайда:

ATI RADEON X1000 ultra-threaded architecture

Слайд 6

Описание слайда:

Ultra-Threading Dispatch Processor распознаёт случаи, когда какие-либо пиксельные процессоры внутри квадов простаивают и моментально назначают им на выполнение новые задачи. Однако, в случае, когда для продолжения выполнения шейдера требуются еще не полученные данные, то подобная нить приостанавливается арбитражным процессором до их получения, таким образом высвобождая арифметические ресурсы (Arithmetic Logic Unit, ALU) для других нитей и маскируя латентность, к примеру, выборки текстур, находящихся как в кеше, так и в памяти. Согласно ATI, подобная организация работы позволяет достигать 90% эффективности задействования пиксельных процессоров на любых шейдерах. Поскольку быстрое переключение между нитями требует сохранения промежуточных результатов каждой, ATI использует для этого специальные регистры - General Purpose Register Array - с высокоскоростным соединением с пиксельными процессорами, что мы уже видели в предыдущих графических процессорах. Пока непонятно, какое колиечество регистров имеется в RADEON X1800, X1600 и X1300 и насколько чувствительны новые чипы к сложностям пиксельных шейдеров. Согласно стандарту Shader Model 3.0, циклы, ветвления и подпрограммы поддерживаются новыми решениями ATI в полной мере, а применение flow control позволяет им исполнять шейдеры практически неограниченной длины. Все вычисления процессоры семейства RADEON X1000 выполняют в формате 128-bit FP, что практически исключает возможность накопления ошибок и, как следствие, ухудшение качества изображения. Количество одновременно выполняемых нитей кода было увеличено, а размер каждой, напротив, уменьшен до 4х4 пикселей, что позволило добиться большей эффективности при использовании динамического ветвлении, принцип которого хорошо иллюстрирует следующая диаграмма: Ultra-Threading Dispatch Processor распознаёт случаи, когда какие-либо пиксельные процессоры внутри квадов простаивают и моментально назначают им на выполнение новые задачи. Однако, в случае, когда для продолжения выполнения шейдера требуются еще не полученные данные, то подобная нить приостанавливается арбитражным процессором до их получения, таким образом высвобождая арифметические ресурсы (Arithmetic Logic Unit, ALU) для других нитей и маскируя латентность, к примеру, выборки текстур, находящихся как в кеше, так и в памяти. Согласно ATI, подобная организация работы позволяет достигать 90% эффективности задействования пиксельных процессоров на любых шейдерах. Поскольку быстрое переключение между нитями требует сохранения промежуточных результатов каждой, ATI использует для этого специальные регистры - General Purpose Register Array - с высокоскоростным соединением с пиксельными процессорами, что мы уже видели в предыдущих графических процессорах. Пока непонятно, какое колиечество регистров имеется в RADEON X1800, X1600 и X1300 и насколько чувствительны новые чипы к сложностям пиксельных шейдеров. Согласно стандарту Shader Model 3.0, циклы, ветвления и подпрограммы поддерживаются новыми решениями ATI в полной мере, а применение flow control позволяет им исполнять шейдеры практически неограниченной длины. Все вычисления процессоры семейства RADEON X1000 выполняют в формате 128-bit FP, что практически исключает возможность накопления ошибок и, как следствие, ухудшение качества изображения. Количество одновременно выполняемых нитей кода было увеличено, а размер каждой, напротив, уменьшен до 4х4 пикселей, что позволило добиться большей эффективности при использовании динамического ветвлении, принцип которого хорошо иллюстрирует следующая диаграмма:

Слайд 7

Описание слайда:

Слайд 8

Описание слайда:

Контроллер памяти Контроллер памяти, входящий в состав новых графических процессоров ATI, был полностью переработан. Теперь внутренняя шина памяти RADEON X1800 имеет кольцевую топологию и состоит из двух 256-битных противонаправленных кольцевых шин, тогда как кольцевая топология RADEON X1600 состоит из пары противонаправленных 128-битных шин.

Слайд 9

Описание слайда:

Дело в том, что кольцевые шины, идущие вокруг всего кристалла, позволяют упростить и оптимизировать разводку проводников внутри него, соединив компоненты кратчайшим путем. Такое решение, вкупе с использованием коммутатора при операциях записи в память минимизирует задержки и искажения сигнала. Благодаря технологии Ring Bus, RADEON X1800/1600 могут без проблем использовать даже самую высокочастотную память, например, GDDR4, что, в случае традиционной архитектуры, могло бы привести к нестабильной работе из-за наличия помех, вызванных неоптимальной разводкой соответствующих проводников внутри GPU. Память подключена к шинам посредством так называемых "кольцевых остановок" (Ring Stop). Всего таких остановок четыре, каждая имеет два канала доступа к памяти шириной 32-бита каждый. Для сравнения, в RADEON X850 память подключалась к контроллеру четырьмя 64-битными каналами. Каждый Ring Stop может передавать, согласно инструкциям контроллера памяти, затребовавшему данные клиенту. Принцип работы Ring Bus подсистемы памяти довольно прост. Клиент посылает запрос на получение данных контроллеру памяти, который находится в середине чипа. Контроллер памяти определяет приоритетность каждого из запросов по определенному алгоритму и даёт приоритет тому, который влияет на производительность в большей степени, посылая соответствующий запрос чипам памяти и передавая эти данные по Ring Bus до ближайшего для клиента Ring Stop, который затем передаёт данные клиенту. Для наиболее оптимального доступа к памяти вокруг непосредственного контроллера располагается так называемая Write Crossbar Switch, позволяющая равномерно распределить запросы. Следует отметить, что алгоритм работы нового контроллера памяти может быть запрограммирован из драйвера, что даёт возможность улучшить его работу со временем. Более того, теоретически ATI может запрограммировать контроллер для работы с конкретным приложением и задать соответствующий профайл через CATALYST A.I. Претерпела изменения и организация кэша – теперь он стал полностью ассоциативным, то есть, любая строка кэша может отображаться на любое место во внешней памяти. Дело в том, что кольцевые шины, идущие вокруг всего кристалла, позволяют упростить и оптимизировать разводку проводников внутри него, соединив компоненты кратчайшим путем. Такое решение, вкупе с использованием коммутатора при операциях записи в память минимизирует задержки и искажения сигнала. Благодаря технологии Ring Bus, RADEON X1800/1600 могут без проблем использовать даже самую высокочастотную память, например, GDDR4, что, в случае традиционной архитектуры, могло бы привести к нестабильной работе из-за наличия помех, вызванных неоптимальной разводкой соответствующих проводников внутри GPU. Память подключена к шинам посредством так называемых "кольцевых остановок" (Ring Stop). Всего таких остановок четыре, каждая имеет два канала доступа к памяти шириной 32-бита каждый. Для сравнения, в RADEON X850 память подключалась к контроллеру четырьмя 64-битными каналами. Каждый Ring Stop может передавать, согласно инструкциям контроллера памяти, затребовавшему данные клиенту. Принцип работы Ring Bus подсистемы памяти довольно прост. Клиент посылает запрос на получение данных контроллеру памяти, который находится в середине чипа. Контроллер памяти определяет приоритетность каждого из запросов по определенному алгоритму и даёт приоритет тому, который влияет на производительность в большей степени, посылая соответствующий запрос чипам памяти и передавая эти данные по Ring Bus до ближайшего для клиента Ring Stop, который затем передаёт данные клиенту. Для наиболее оптимального доступа к памяти вокруг непосредственного контроллера располагается так называемая Write Crossbar Switch, позволяющая равномерно распределить запросы. Следует отметить, что алгоритм работы нового контроллера памяти может быть запрограммирован из драйвера, что даёт возможность улучшить его работу со временем. Более того, теоретически ATI может запрограммировать контроллер для работы с конкретным приложением и задать соответствующий профайл через CATALYST A.I. Претерпела изменения и организация кэша – теперь он стал полностью ассоциативным, то есть, любая строка кэша может отображаться на любое место во внешней памяти.

Слайд 10

Описание слайда:

При равной частоте памяти ассоциативный кэш работает эффективнее, нежели кэш с прямым отображением. Фактически, в случаях, когда пропускная способность подсистемы памяти является критичным параметром, обеспечивается больший запас производительности. Это должно повлиять положительным образом на скорость работы RADEON X1000 в высоких разрешениях и/или при использовании FSAA и анизотропной фильтрации. Улучшения коснулись и технологии HyperZ – теперь при определении невидимых областей, подлежащих отсечению, используются более продвинутый алгоритм. По словам ATI, он увеличивает эффективность отсечения скрытых поверхностей на 50% по сравнению с RADEON X850. Отметим, что хотя RADEON X1300 не поддерживает ни Ring Bus, ни программируемого арбитра запросов к памяти, он использует другие техники, внедрённые для увеличения эффективности пропускной способности памяти в семейство RADEON X1000. При равной частоте памяти ассоциативный кэш работает эффективнее, нежели кэш с прямым отображением. Фактически, в случаях, когда пропускная способность подсистемы памяти является критичным параметром, обеспечивается больший запас производительности. Это должно повлиять положительным образом на скорость работы RADEON X1000 в высоких разрешениях и/или при использовании FSAA и анизотропной фильтрации. Улучшения коснулись и технологии HyperZ – теперь при определении невидимых областей, подлежащих отсечению, используются более продвинутый алгоритм. По словам ATI, он увеличивает эффективность отсечения скрытых поверхностей на 50% по сравнению с RADEON X850. Отметим, что хотя RADEON X1300 не поддерживает ни Ring Bus, ни программируемого арбитра запросов к памяти, он использует другие техники, внедрённые для увеличения эффективности пропускной способности памяти в семейство RADEON X1000.

Слайд 11

Описание слайда:

HDR: не только скорость, но и качество HDR: не только скорость, но и качество Новое поколение графических процессоров ATI получило полноценную поддержку режимов отображения с расширенным динамическим диапазоном, известных под общим названием HDR. Хотя поддержка одного из вариантов HDR существовала уже в семействе RADEON X800, но разработчики игр на тот момент не заинтересовались такой возможностью. Подробно суть HDR была описана в обзоре, посвященном графическому процессору NV40, в котором была реализована поддержка одного из стандартов HDR, а именно, OpenEXR, разработанного компанией Industrial Light and Magic, и использующего 16-битное представление цвета с плавающей запятой. OpenEXR был выбран, как режим, широко использующийся в индустрии кино при создании спецэффектов, но и это не вдохновило разработчиков игр – долгое время единственной игрой, поддерживающей этот стандарт, являлся трехмерный шутер FarCry, причем, падение производительности при включении HDR было огромным. Об игре в разрешениях свыше 1024х768 не могло быть и речи, а особенности реализации HDR в архитектуре NVIDIA привели к невозможности использования полноэкранного сглаживания в этом режиме (впрочем, реализовывать такую возможность было бы нелогично именно из-за низкой производительности). Ситуация улучшилась с появлением GeForce 7800 GTX – новый графический процессор NVIDIA уже мог обеспечить вполне приемлемый уровень производительности при использовании OpenEXR, но поддержка FSAA по-прежнему отсутствовала. Разрабатывая новую архитектуру, ATI Technologies постаралась учесть все недостатки, и графические процессоры RADEON X1000 получили широчайшие возможности по работе с HDR, в том числе, и поддержку различных форматов, в том числе, нестандартных (custom). Кроме того, в RADEON X1000 впервые появилась возможность использования HDR одновременно с полноэкранным сглаживанием. По сравнению с NVIDIA GeForce 6/7 это огромный шаг вперед, но хватит ли производительности новых GPU для обеспечения комфортной игры в этих режимах? Ответ на этот вопрос могут дать лишь результаты тестов. По крайней мере, теперь ясно, почему графический процессор R520, старшая модель в новом семействе ATI получилась более сложной, нежели NVIDIA G70 – все вышеописанные архитектурные инновации дались разработчикам не даром и потребовали своей доли транзисторов на кристалле. В результате, несмотря на наличие 16 пиксельных процессоров против 24 у изделия конкурента, общее число транзисторов достигло 320 миллионов, что сделало R520 самым сложным графическим процессором в мире.