Наше оборудование

Почта

Логин:
Пароль:

 

Сейчас на сайте

Сейчас 1129 гостей онлайн

Центральный  процессор.

Центральный процессор(CPU)- Микросхема, способная к вычислениям. Сигналы на выходах CPU, зависят от сигналов на его входах не только в текущий, но и во все предыдущие моменты времени, причем одни и те же выводы (физическая реализация входов и выходов) в разное время могут быть, как входами, так и выходами процессора. Все зависимости заранее известны,  потому зашифровав последовательность команд (программу) и исходные данные в машинный код, поступающий на входы процессора в виде двоичного – двухуровнего электрического сигнала, в определённый момент времени на выходе получим искомый ответ.

Арифметическо- Логического Устройство, (АЛУ)– блок, выполняющий несколько простых целочисленных арифметических и логических операций. Раньше АЛУ был единственным блоком процессора, способным выполнять вычисления.

Регистр– несколько ячеек памяти SSRAM (массив триггеров), однозначно адресуемых по имени регистра и находящихся, в данном случае, в процессоре. В регистре хранятся данные, непосредственно обрабатываемые в данный момент времени.

Рис.1 Упрощённая структурная схема процессора.

Упрощённая структурная схема процессора.

В современных процессорах используются распараллеливание операций методами конвейерной и суперскалярной обработки данных. Обе технологии используются в комбинации. Суперскалярная технология позволяет распараллелить вычисления по нескольким блокам (или даже конвейерам). Так в процессоре Intel Pentium IV – два модуля АЛУ. Технология HyperThreading – тоже в некотором роде разновидность суперскалярной обработки. Конвейерная - заключается в дроблении инструкции на более мелкие стадии (шаги).  Число стадий = длине конвейера. После выполнения 1-ой стадии 1-ой инструкции на следующем такте конвейер выполняет 2-ой шаг 1-ой инструкции и 1-ый шаг 2-ой инструкции. Так происходит последовательная загрузка конвейера. В итоге конвейер выполняет сразу число инструкций (n) равное длине конвейера. Соответственно можно было бы ожидать и рост производительности в n раз, но на практике конвейер часто останавливается и его приходится загружать заново. Это происходит из-за наличия в коде программы ветвлений. Чем длиннее конвейер, тем больше потери времени на простой конвейера. Что бы потери на простой не нивелировали выигрыш от распараллеливания, используют спекулятивное исполнение инструкций (изменение последовательности следования команд – исполнение следующих команд, до того, как стал известен результат предыдущих вычислений), а в процессор встраивают блок предсказания ветвлений.

HyperThreading – технология Интел, заключающаяся в организации логической структуры процессора таким образом, что из под операционной системы процессор виден, как два процессора. Это позволяет системе формировать и посылать на обработку два независимых вычислительных потока, обрабатываемых, тем не менее, одним физическим процессором. Такая организация работы позволяет более оптимальным образом использовать вычислительные ресурсы процессора, сократив его вынужденные простои. Общий прирост производительности, по заверением компании Интел 5…25%, но обычно реальный выигрыш несколько скромнее ~ 3…10%. Если на компьютере в данный момент времени используется одно ресурсоемкое приложение поток вычислений которого не делится на независимые вычислительные потоки, то бывает даже незначительное уменьшение общей производительности.

Врезультате широкого распространения приложений мультимедиа и 3D игр у ПК появился большой класс задач, в которых к целым массивам данных применяют одни и те же команды. Для увеличения производительности в процессоры стали встраивать специальные блоки обработки таких данных, а в программах – использовать дополнительные наборы команд – SIMD инструкции (Single Instruction on Multiple Data). В симд-модуле данные, которые должны подвергнуться идентичной обработке обрабатываются не последовательно, а одновременно. SIMD модули разной сложности поддерживают разные наборы инструкций. Так блок MMX инструкций (MultiMedia eXtension) предназначен для работы с целочисленными данными, а SSE (Streaming SIMD Extension) и 3dNow блоки для работы с блоками вещественных данных. В процессе развития число команд  этих блоков увеличивалось, а проблемы лицензирования привели к появлению разных названий. Так SSE (от Intel) и 3dNow!/ Enhanced 3dNow! (от AMD), имея одинаковое предназначение, абсолютно несовместимы по набору команд. 3dNow! Professional же поддерживает и ПО, рассчитанное на набор инструкций SSE. На данном этапе развития у Intel существуют SSE II и SSE III наборы инструкций, причём SSE II уже лицензирован AMD и поддерживается Атлон-64.

Впоследнее время наращивание частот и кеша всё меньше влияют на заметное повышение производительности  в большинстве пользовательских приложений, поэтому на передний план выходят новые структурные решения, которые либо действительно прибавляют производительности, либо могут обосновать успешный маркетинговый ход. Другой пример - возможность обработки  64-битных приложений. Повышение битности приложений, на сегодняшний день, увеличивает  производительность высокоточных приложений, программ криптографии(защиты и взлома информации), но большинство приложений от такого шага практически не выигрывают. И всё же АМД рекламирует такой ход, как значительный шаг вперёд. Ответный ход Интел - технология ЕМ64Т (прежнее название Yamhill), которая применяется, начиная с Прескота (LGA775). А вот другой "ход" АМД - встроенный контроллер памяти напрямую увеличивает прирост производительности всех программ, одновременно обрабатывающих большие объёмы данных.

Тактовая частота

Схемные решения электронных цифровых устройств бывают двух типов: синхронные и асинхронные. В синхронных схемах все процессы (вычисления, пересылка данных и др.)  запускаются в строго определённые моменты времени, указанные фронтами тактовых импульсов (синхроимпульсов).  Они вырабатываются генератором   синхроимпульсов.  За время следования тактового импульса модуль схемы, запущенный в работу по фронту данного импульса, должен полностью выполнить свои функции и к началу следующего тактового импульса передать результаты своей работы на другой модуль, который начнёт свою работу по фронту следующего синхроимпульса.(рис 1.2 а. в результате работы модуля данные Д были преобразованы в Д')

Васинхронныех схемных решениях каждый последующий модуль запускается просто по факту срабатывания предыдущего модуля. Такое построение характерно достаточно простым электронным схемам с малым числом элементов, т.к. если в асинхронном решении какая-либо часть схемы (модуль) запускается по факту получения данных из двух или более источников (модулей предыдущей обработки), то необходимо принимать дополнительные меры по синхронизации этих потоков. Чем больше асинхронные решения, тем сложнее синхронизировать потоки информации. Малые же решения (без сложных взаимодействий отдельных частей схем - модулей) проще реализовывать в асинхронном режиме.

Системная шина(шина – параллельный интерфейс. Исторически шиной называют линии связи и «язык» связи между устройствами на материнской плате(MB), а интерфейсом – то же для связи с устройствами, подключаемыми к МВ, хотя это правило изобилует исключениями. ) – совокупность линий передачи данных (и обслуживающих их логических элементов) и команд, обеспечивающих обмен информацией между процессором, памятью и внешними устройствами. Изначально в системной шине выделяли шину данных, шину адреса и шину управления. Последнее время функции СШ поделили между собой шина процессор-память, шина графического адаптера (AGP) и шины связи микросхем, реализующих наборы контроллеров (физический уровень интерфейсов) чипсета (набор микросхем «обвязки процессора», содержащий все основные контроллеры, установленные на МВ).

Разрядность шины– число одновременно (по одному синхроимпульсу) передаваемых по шине бит информации. При разрядности >1 шину (интерфейс) называют параллельной; при=1- последовательной.

Шина данных– Шина по которой передаются данные и команды.

Шина адресасодержит данные, указывающие куда – по какому адресу памяти (от процессора или другого устройства (режим DMA) при записи) или откуда –из ячейки с каким адресом (к процессору или к … при чтении) передаются данные по шине данных.

Первоначально, частота шины и частота процессора совпадали, и использование более быстрого процессора приводило к линейному росту производительности всей системы. Но рост частоты ядра имел больший потенциал, чем могла обеспечить дискретная элементная база чипсета.  Когда в процессе развития архитектуры ПК стало понятно, что дальнейшее увеличение частоты тактования системной шины вслед за поднятием тактовой частоты процессора стало невозможным из-за влияния взаимных электромагнитных помех между отдельными элементами шины (Вернее сказать это возможно, но только при переходе на очень дорогие технологии. У старых технологий за последнее время тоже обнаружен некоторый запас: частота выросла с 66МГц до 133МГц и даже до 166МГц, что, впрочем, не решает проблемы), то было принято решение увеличивать частоту процессора, делая её кратной ½ частоты системной шины.  Коэффициент умножения показывает, во сколько раз отличается частота ядра от частоты шины. В литературе встречаются следующие названия такой шины, работающей со SDRAM памятью: GTL, GTL+, AGTL+. Изначально было ясно, что такое решение приведёт к тому, что пропускной способности шины будет не хватать, и что потребуются новые архитектурные решения, новые типы памяти и новые типы шин. Для предотвращения этих простоев использовали кэш память (процедура кэширования применяется не только у процессоров, но цель ее всегда одна – минимизировать время простоя быстрых, но зависящих от медленных устройств). Кстати новые архитектуры шины памяти не сделали использование кеша менее актуальным – скорость работы подсистемы оперативной памяти(ОЗУ) и сейчас меньше быстродействия подсистемы кеш памяти.

Кеш память– Встраиваемая (в данном случае в процессор) память более быстрая, чем ОЗУ. Данные в кеше  всегда дублируют данные в оперативной памяти. Чем ближе к кристаллу расположена кеш память, тем быстрее она может работать. Память, встроенная в кристалл, работает на частоте процессора, но в кристалле не всегда хватало места для размещения кеша, поэтому кеш делают двухуровневым: Кеш L1 объёмом до 64 КВ на кристалле процессора, работающий на частоте процессора, и кеш L2 объем (0~512кВ), частота тактирования и место расположения которого исторически сильно изменялось. Если данные в кеш-памяти первого уровня дублируются в кеше L2, то схема построения подсистемы кеш-памяти называется инклюзивной, если нет – эксклюзивной. При инклюзивной (характерна для процессоров Intel) схеме эффективный объём кеша равен max{L1,L2}, при эксклюзивной (AMD) => L1+L2.

Рис.2 Двухуровневая кеш память.

Tavg – Среднее время доступа к памяти. ТассXX – время доступа к L1, L2 и памяти DRAM.

MissXX – вероятность промаха при обращении к L1 и L2.

 

При переносе кеш памяти второго уровня с материнской платы на процессор, под неё была создана специальная шина. Чтобы различать шины её назвали BSB (задняя системная шина), а шину памяти – FSB (передняя шина). Совокупность обеих шин памяти назвали «двойной независимой шиной» (DIB). В разных процессорах шины BSB отличаются не только по частоте тактования, но и по разрядности, что заметно сказывается на скорости работы кеша (правда объём, обычно, сказывается сильнее), и, в конечном счете, на его эффективности.

Данные в кеш память заносятся либо как результат вычислений, либо из ОЗУ, когда их затребует процессор. В последнем случае вместе с затребованными данными в кеш заносятся и другие, как-то связанные с ними данные (например из соседних ячеек строки ОЗУ), число ячеек переносимых в кеш одновременно называют ассоциативностью кеш памяти. Так ассоциативность кеш памяти у процессора Pentium III = 4, а Celeron=2.

 

Пропускная способность шины – максимальный объём информации, который можно передать по шине в единицу времени. Этот параметр является ключевым для конфигурирования сбалансированных систем. Пропускные способности модулей памяти и шины данных процессора, в идеале, должны быть равны, а пропускная способность системы жёстких дисков – меньше чем пропускная способность шины, соединяющей «мосты» чипсета. И т.д.

Технология.

Совершенствование техпроцесса позволяет улучшить практически все параметры процессо­ра — возрастают тактовая частота и, соответствен­но, производительность, уменьшаются размер кри­сталла, потребляемая мощность и стоимость. Появляется возможность делать более сложные с архитектурной точки зрения кристаллы, что также способствует росту производительности (правда, с усложнением архитектуры усложняется и удорожается разработка). В совершенствование процесса производства полупроводниковых изделий инвес­тируются огромные средства. Каждая новая фабрика по производству процессоров или микросхем памяти, оснащенная передовым оборудованием, обходится не менее чем в 1.5-2 млрд. долларов.

Один из основателей фирмы Intel, Гордон Мур, еще на раннем этапе развития полупроводниковой промышленности сформулировал утверждение, известное как закон Мура. Согласно этому закону, число полупроводниковых элементов (транзисторов), размещаемых на единице площади кристалла, удваивается каждые 18 месяцев. С тех пор рост несколько замедлился, хотя и остался экспоненци­альным, и удвоение происходит за 2 года.

Именно двухгодичного цикла и придерживается промышленность, предлагая в среднем каждые 2 года новое поколение техпроцесса с уменьшенными на 30% проектными нормами. Каждое новое поколение дает двукратное уменьшение размера кристалла, или двукратное возрастание числа транзисторов при том же размере кристалла. С уменьшением размера кристалла его стоимость резко падает как из-за увеличения числа процессоров, получаемых с одной полупроводниковой пластины, так и из-за увеличения выхода годных (выход годных возрастает, так как уменьшается вероятность попадания дефектов). Совершенствование техпроцесса не ограничивается только уменьшением размеров элементов. Постепенно возрастает и диаметр полупроводниковых пластин, так что количе­ство процессоров, получаемых с одной пластины, становится больше, а их стоимость — меньше.

Каждое следующее поколение техпроцесса уве­личивает внутреннюю скорость транзисторов (CV/I) на 30-50%. Напряжение питания уменьшается примерно на 25%, а поскольку потребляемая мощность пропорциональна квадрату напряжения, то она уменьшается примерно наполовину. Единственный параметр, который автоматически не улучшается, — задержка в межсоединениях (RC задержка). Тем не менее время распространения сигналов уменьшается из-за меньших размеров процессорных кристаллов. Кроме того, RC задерж­ку можно уменьшить путем применения диэлектри­ков с малой проницаемостью (low-k диэлектриков) и проводников с высокой проводимостью (медь вместо алюминия).

 Современные технологии позволяют формиро­вать на полупроводниковом кристалле десятки и даже сотни миллионов транзисторов. Имея столь огромный бюджет строительных блоков (транзис­торов), разработчики и производители могут ис­пользовать практически все известные решения для дальнейшего совершенствования архитектуры и роста производительности. Ключевыми являются распараллеливание операций, кэширование памя­ти и расширение системы команд.

Температура и охлаждение.

Проходя по проводнику (полупроводнику) электрический ток нагревает  его пропорционально сопротивлению материала проводника, причём чем выше частота – тем сильнее нагрев. При этом на нагрев процессора затрачивается большая часть подводимой к нему мощности питания. Учитывая большое количество элементов кристалла процессора (транзисторов) суммарная рассеиваемая ими мощность столь велика, что если не предпринять специальных мер по охлаждению кристалла – процессор сгорит. С точки зрения анализа тепловых режимов и построения охлаждающих систем кроме рассеиваемой мощности представляет интерес и поток мощности через единицу поверхности теплоотвода. Т.е. при проектировании новых кристаллов необходимо учитывать неравномерность выделения тепла теми или другими блоками и технологию производства, т.к. от технологии зависит не только рассеиваемая тепловая мощность, но и площадь кристалла, а значит – тепловой поток. Теоретически возможна ситуация, когда при «утоньшении» техпроцесса и уменьшении мощности тепловая нагрузка на ед. поверхности увеличивается. Особенно вероятны такие случаи при неравномерном (по кристаллу) нагреве. Пример “тепловой оптимизации“ – переход от Thunderbird к XP, когда при той же технологии, улучшив тепловой режим, не только  подняли частотный порог, но и расширили блок SIMD инструкций.

Качество системы воздушного охлаждения ядра процессора зависит от параметров вентилятора принудительного охлаждения (линейные и угловые размеры, скорость вращения), от теплопроводности материала (Cu лучше Al, а Ag ещё лучше) и площади поверхности радиатора, от шероховатости поверхностей теплового контакта кристалл – радиатор, от качества теплопроводящей пасты, нанесённой на поверхности кристалла и радиатора, от конфигурации и пространственной ориентации рёбер радиатора, от температуры и величины воздушного потока, обдувающего радиатор без учёта потока от штатного вентилятора. Последнее условие сильно зависит от корпуса, в котором собран компьютер. Учитывая большие рассеиваемые тепловые мощности процессоров последнего поколения (60~80 Вт) радиаторы делают с частыми высокими рёбрами, а вентиляторы с высокой скоростью вращения и большим воздушным потоком. Это делает систему охлаждения шумными.

Для контроля тепловых режимов на материнской плате компьютера устанавливают термодатчики (или предусматривают их подключение). Учитывая “скорость разогрева“ современных процессоров установка внешних (относительно процессора) датчиков температуры неэффективно – большая инерционность такой системы контроля не позволяет защитить процессор от перегрева. Поэтому в Intel® P-IV, Core 2 Duo, QUAD и AMD датчики встраивают непосредственно в кристалл процессора (правда работают они по-разному - AMDещё требует при этом поддержку со стороны MB).

 

В закладки!