Baixe o app para aproveitar ainda mais
Prévia do material em texto
INSTITUTO FEDERAL DO ESPÍRITO SANTO BACHARELADO EM SISTEMAS DE INFORMAÇÃO Ádler Neves Anne Caroline Yan Pitangui Avaliação de Desempenho Computacional usando Benchmarks Serra, Espírito Santo 2015 Ádler Neves Anne Caroline Yan Pitangui Avaliação de Desempenho Computacional usando Benchmarks Trabalho da disciplina Organização e Arquite- tura de Computadores do curso Bacharelado em Sistemas de Informação do Instituto Fede- ral do Espírito Santo. Professor: Flávio Giraldeli. Serra, Espírito Santo 2015 SUMÁRIO 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2 AIDA64 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3 SISOFTWARE SANDRA 2015 . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.1 PROCESSOR ARITMETIC . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.2 MEMORY BANDWIDTH . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.3 CACHE & MEMORY LATENCY . . . . . . . . . . . . . . . . . . . . . . . 14 4 SUPERPI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 5 WPRIME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 6 CINEBENCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 7 FRITZ CHESS BENCHMARK . . . . . . . . . . . . . . . . . . . . . . . . . . 21 8 WINRAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 9 3D PARTICLE MOVEMENT BENCHMARK . . . . . . . . . . . . . . . . . . . 24 10 GOOGLE OCTANE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 11 TRUECRYPT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 12 HD TACH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 13 FREEMAKE VIDEO CONVERTER . . . . . . . . . . . . . . . . . . . . . . . . 30 14 FOOBAR2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 15 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 16 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3 1 INTRODUÇÃO Este trabalho tem como objetivo comparar o desempenho de dois computadores de épocas e modelos diferentes usando softwares de benchmarks fornecidos pelo pro- fessor. Dessa comparação, busca-se avaliar como número de núcleos usados pelo programa, presença ou ausência de HyperThreading, 32 bits ou 64 bits, presença de instruções especiais, overclock, velocidade do barramento, velocidade e latência da memória principal e o tamanho, velocidade e latência dos caches influenciam positi- vamente ou negativamente o desempenho de determinados programas. Para atender tais objetivos nos dois computadores que foram escolhidos, foram desconectados os discos rígidos presentes e instalados um Seagate ST9320325AS previamente apagado em cada máquina e em seguida foi instalada a mesma versão do Windows 7 em ambas as máquinas, como pode ser observado abaixo: Computador > Sumário > Computador Informação Desktop Notebook Tipo de Computador ACPI x64-based PC ACPI x64-based (Mobile) Sistema operacional Microsoft Windows 7 Microsoft Windows 7 Ultimate Ultimate Service Pack do Service Pack 1 Service Pack 1 Sistema Operacional Internet Explorer 11.0.9600.17420 11.0.9600.17420 DirectX DirectX 11.1 DirectX 11.1 Nome do Computador DESKTOP NOTEBOOK Nome do usuário CobaiaDesktop CobaiaNotebook Nome do domínio Desktop Notebook Data / Hora 06/12/2014 14:02 06/12/2014 22:52 Tabela 1 Também foi configurado um overclock de 40%, mas a placa-mãe reduziu automa- ticamente tal valor para 38%, para manter estabilidade. O multiplicador da memória principal foi reduzido de 3.33× para 2.00×, para não reduzir a vida útil do componente. Após o overclock, o Desktop apresenta uma frequência 22% maior que o Notebook, como pode ser observado na tabela a seguir: 4 Computador > Sumário > Placa mãe Informação Desktop Notebook Tipo de processador DualCore Intel Mobile DualCore Intel Pentium E2140. Core i3-3217U. 2216 MHz (8 x 277) 1800 MHz (18 x 100) Nome da Placa Mãe Gigabyte GA-945GCMX-S2 v6.6 Digibras NH4CU03 (2 PCI. 1 PCI-E x4. 1 PCI-E x16. 2 DDR2 DIMM. Audio. Video. Gigabit LAN) Chipset da Placa Mãe Intel Lakeport-G Intel Panther Point i945GC HM75. Intel Ivy Bridge Memória do Sistema 2048 MB 6038 MB (DDR2-667 DDR2 SDRAM) (DDR3-1333 DDR3 SDRAM) DIMM1: 2 GB 1 GB DDR3-1333 DDR3 SDRAM DDR2-667 DDR2 SDRAM (9-9-9-24 @ 666 MHz) (5-5-5-15 @ 333 MHz) (8-8-8-22 @ 609 MHz) (4-4-4-12 @ 266 MHz) (7-7-7-20 @ 533 MHz) (3-3-3-9 @ 200 MHz) (6-6-6-17 @ 457 MHz) (5-5-5-14 @ 380 MHz) DIMM3: 4 GB 1 GB DDR3-1333 DDR3 SDRAM DDR2-667 DDR2 SDRAM (9-9-9-24 @ 666 MHz) (5-5-5-15 @ 333 MHz) (8-8-8-22 @ 609 MHz) (4-4-4-12 @ 266 MHz) (7-7-7-20 @ 533 MHz) (3-3-3-9 @ 200 MHz) (6-6-6-17 @ 457 MHz) (5-5-5-14 @ 380 MHz) Tipo de BIOS Award Modular AMI (05/24/2007) (04/16/2013) Porta de comunicação Communications Port (COM1) Porta de comunicação Communications Port (COM2) Porta de comunicação Printer Port (LPT1) Tabela 2 Informações sobre o adaptador gráfico podem ser encontradas abaixo: Computador > Sumário > Monitor Informação Desktop Notebook Adaptador gráfico NVIDIA GeForce 210 Intel(R) HD Graphics 4000 (1 GB) (2112 MB) Acelerador 3D nVIDIA GeForce 210 Intel HD Graphics 4000 Monitor AOC 712Sa [17" LCD] AU Optronics B140XW01 VB (33984IA067178) [14" LCD] Tabela 3 5 E informações sobre controladores de memória secundária, bem como os supracita- dos discos rígidos de mesmo modelo, podem ser observados na tabela abaixo: Computador > Sumário > Armazenamento Informação Desktop Notebook Controladora IDE Intel(R) N10/ICH7 Realtek PCIE CardReaderFamily Serial ATA Storage Controller - 27C0 Disco rígido ST9320325AS ATA ST9320325AS ATA Device SCSI Disk Device (320 GB. 5400 RPM. SATA-II) (320 GB. 5400 RPM. SATA-II) Disco rígido USB Mass Storage Device USB Device Drive óptico TSSTcorp CDDVDW MATSHITA DVD-RAM SH-222AB UJ8C2 ATA Device SCSI CdRom Device Drive óptico COMPAQ CD-ROM LTN403 ATA Device Status dos discos OK OK rígidos SMART Tabela 4 Informações sobre a CPU podem ser encontradas abaixo: Placa-mãe > Processador > Propriedades da CPU Informação Desktop Notebook Tipo de processador DualCore Intel Mobile DualCore Intel Pentium E2140. Core i3-3217U. 2216 MHz (8 x 277) 1800 MHz (18 x 100) Alias da CPU Conroe-1M Ivy Bridge-MB CPU Stepping M0 E1/L1/N0/P0 Conjunto de x86. x86-64. MMX. SSE. x86. x86-64. MMX. SSE. instruções SSE2. SSE3. SSSE3 SSE2. SSE3. SSSE3. SSE4.1. SSE4.2. AVX Velocidade de 1600 MHz 1800 MHz clock original Multiplicador 6x / 8x 8x / 18xMín / Máx da CPU Engineering Não Não Sample Código de cache L1 32 KB per core 32 KB per core Dados de cache L1 32 KB per core 32 KB per core Cache L2 1 MB 256 KB per core (On-Die. ECC. ASC. Full-Speed) (On-Die. ECC. Full-Speed) Cache L3 3 MB (On-Die. ECC. Full-Speed) Tabela 5 6 Informações sobre a memória podem ser encontradas abaixo: Placa-mãe > Placa-mãe > Propriedades da memória do Bus Informação Desktop Notebook Tipo de Bus Dual DDR2 SDRAM Dual DDR3 SDRAM Largura de bus 128 bits 128 bits DRAM:Proporção FSB 1:1 20:3 Clock real 277 MHz (DDR) 667 MHz (DDR) Clock efetivo 554 MHz 1333 MHz Banda 8864 Mb/s 21333 Mb/s Tabela 6 Podemos observar desde já que a quantidade de cache e a frequência e quantidade de RAM, o Notebook apresenta vantagem numérica, e quanto ao clock da CPU, o Desktop é mais vantajoso; tais benefícios serão discutidos, avaliados e quantificados ao decorrer do trabalho. 7 2 AIDA64 Este benchmark sintético visa quantificar as latências e as velocidades de leitura, es- crita e cópia da memóriaprincipal e dos caches. O resultado do benchmark para cada computador pode ser conferido abaixo: Desktop Notebook Imagem 1 Para facilitar a comparação das velocidades de leitura, escrita e cópia da memória principal e dos caches, foi montado o gráfico abaixo: 8 C ac he L1 Read Desktop 070919 MB/sNotebook 114708 MB/s Write Desktop 070779 MB/sNotebook 057417 MB/s Copy Desktop 141281 MB/sNotebook 114596 MB/s C ac he L2 Read Desktop 030935 MB/sNotebook 059510 MB/s Write Desktop 019379 MB/sNotebook 037458 MB/s Copy Desktop 028546 MB/sNotebook 053336 MB/s C ac he L3 Read Desktop —Notebook 045034 MB/s Write Desktop —Notebook 035338 MB/s Copy Desktop —Notebook 038255 MB/s M em or y Read Desktop 006179 MB/sNotebook 015046 MB/s Write Desktop 005029 MB/sNotebook 015502 MB/s Copy Desktop 005200 MB/sNotebook 014828 MB/s Gráfico 1 Como pôde ser observado, a velocidade de cópia é menor que a velocidade de leitura e maior que a velocidade de escrita, com exceção da memória principal do Notebook, onde a velocidade de leitura é maior que velocidade de escrita, que por sua vez é maior que velocidade de cópia. Vale destacar que todas as taxas de transferência, com exceção das velocidades de escrita e cópia do Cache L1, são maiores no Notebook. Outra relação que pôde ser estabelecida é que a seguinte relação entre suas velo- cidades: Cache L1 > Cache L2 > Cache L3 (se presente) > Memória principal. Mudando o foco para a latência da memória principal e dos caches, para facilitar sua comparação foi montado o gráfico abaixo: La te nc y Cache L1 Desktop 01.4 nsNotebook 02.3 ns Cache L2 Desktop 07.3 nsNotebook 06.7 ns Cache L3 Desktop —Notebook 18.2 ns Memory Desktop 78.0 nsNotebook 77.7 ns Gráfico 2 A latência é o atraso na transmissão de dados entre a CPU e a RAM. Ou seja, é contada desde quando a CPU solicita o dado à RAM até quando o dado é recebido. Foi observado, comparando as latências do Desktop e do Notebook em cada ní- 9 vel de cache e na memória principal, que apenas no cache de nível 1 a latência do Desktop é menor que a do Notebook. 3 SISOFTWARE SANDRA 2015 O SiSoftware Sandra 2015 é uma suíte de benchmarks sintéticos que se autodefine como um analisador, diagnosticador e assistente de relatórios de sistema. Dessa suíte serão analisados os resultados dos benchmarks da aritmética do processador, da largura de banda da memória e da latência de memória e cache. 3.1 PROCESSOR ARITMETIC Este benchmark visa avaliar o desempenho aritmético do processador. Para isso, são usados dois algoritmos: Whetstone e Dhrystone. O primeiro foi primeiramente escrito em 1972 em ALGOL 60 e mede a performance de aritmética usando pontos flutuan- tes. O segundo foi desenvolvido em 1984 e mede a performance de aritmética usando inteiros. Ambos benchmarks utilizaram diferentes conjuntos de instruções em cada computador, como descrito na tabela abaixo: Algoritmo Conjunto de instruçõesDesktop Notebook Dhrystone ALU SSE4.2 Whetstone SSE3 AVX Tabela 7 O Dhrystone no Desktop utiliza a ALU (Unidade Aritmética e Lógica), um dos compo- nentes da máquina de Von Neumann, e no Notebook utiliza o SSE4.2, que segundo a Wikipédia, é um conjunto de instruções voltadas, principalmente, para processamento de texto. O Whetstone no Desktop utiliza o SSE3, que segundo a Wikipédia, é um conjunto de instruções que “permitem um aumento do desempenho no processamento de da- dos em diversas áreas como por exemplo a aritmética”, e no Notebook utiliza AVX (Extensões Vetoriais Avançadas). Abaixo, os resultados: Benchmark Results Aggregate Native Performance Desktop 13.73 GOPSNotebook 23.9 GOPS Dhrystone Integer Desktop 16 GIPSNotebook 29.84 GIPS Whetstone Single-float Desktop 13.16 GFLOPSNotebook 22.76 GFLOPS Whetstone Double-float Desktop 10.48 GFLOPSNotebook 16.1 GFLOPS Gráfico 3 Podemos observar que todos os valores acima se aproximam ao produto Constante× Threads × Clock, onde a “constante” provém da complexidade do conjunto de instru- 10 ções usado. Então, se dividirmos os “GFLOPS” pela frequência do processador (em GHz), obteremos a razão: Cálculos de ponto flutuante feitos por todos os threadsCiclo de clock . Se dividirmos tal ra- zão pelo número de threads do processador teremos: Cálculos de ponto flutuante de cada threadCiclo de clock . Expandindo o raciocínio acima a todos os elementos do gráfico temos: Single Threaded Performance per Clock cycle Aggregate Native Performance Desktop 3.120Notebook 3.319 Dhrystone Integer Desktop 3.636Notebook 4.144 Whetstone Single-float Desktop 2.990Notebook 3.161 Whetstone Double-float Desktop 2.381Notebook 2.236 Gráfico 4 Portanto, o desempenho médio por ciclo do SSE3 do processador do Desktop para números reais de precisão dupla é maior que o desempenho médio por ciclo do AVX do processador do Notebook para o mesmo tipo de número. Se considerarmos somente a frequência do processador e a complexidade do con- junto de instruções usado, temos o seguinte gráfico a analisar: Performance per Thread Aggregate Native Desktop 6.86 GOPS Performance Notebook 6 GOPS Dhrystone Integer Desktop 8 GIPSNotebook 7.46 GIPS Whetstone Single-float Desktop 6.58 GFLOPSNotebook 5.69 GFLOPS Whetstone Double-float Desktop 5.24 GFLOPSNotebook 4 GFLOPS No. Threads Desktop 2Notebook 4 Gráfico 5 Observamos que o desempenho por thread do Desktop é superior ao do Notebook, pois a frequência do processador do Desktop é maior. O Sandra também exibiu da- dos sobre eficiência energética, porém apenas para o Notebook ; devido ao overclock sofrido pelo processador do Desktop seu consumo energético se altera. Então é por isso que o gráfico abaixo está incompleto: 11 Performance vs. Power Processor(s) Power Desktop — WNotebook 17 W Aggregate Native Desktop — MOPS/W Performance Notebook 1406.12 MOPS/W Dhrystone Integer Desktop — MIPS/WNotebook 1755.53 MIPS/W Whetstone Single-float Desktop — MFLOPS/WNotebook 1338.88 MFLOPS/W Whetstone Double-float Desktop — MFLOPS/WNotebook 947.35 MFLOPS/W Gráfico 6 Observando que o campo “Processor(s) Power” corresponde ao TDP (potência de de- sign térmico) do processador, e consultando as especificações do produto no site da fabricante, podemos, como última alternativa, desprezar o consumo extra de eletrici- dade e considerar o TDP padrão. Porém, tomando como verdadeira a fórmula deixada pelo usuário “Don Juan” no fórum “Guru3d.com”, e como correto o algoritmo do “CPU Overclock Calculator” encontrado no site “eXtreme Outer Vision”: OC Wattage = TDP× ( OC MHz Stock MHz ) × ( OC Vcore Stock Vcore )2 OC Wattage = 65× ( 2229.34 1607.65 ) × ( 1.376 1.280 )2 OC Wattage = 104.163385959 ≈ 104 W Fórmula 1 Imagem 2 Então, com o valor de 104 W de TDP após o overclock, completamos o gráfico: Performance vs. Power Processor(s) Power Desktop 104 WNotebook 17 W Aggregate Native Desktop 132.01 MOPS/W Performance Notebook 1406.12 MOPS/W Dhrystone Integer Desktop 153.85 MIPS/WNotebook 1755.53 MIPS/W Whetstone Desktop 126.54 MFLOPS/W Single-float Notebook 1338.88 MFLOPS/W Whetstone Desktop 100.77 MFLOPS/W Double-float Notebook 947.35 MFLOPS/W Gráfico 7 Portanto, o processador do Desktop é muito menos eficiente energeticamente que o 12 processador do Notebook. Vale ressaltar que um notebook é um computador móvel, e por isso possui uma bateria que deve manter o sistema computacional ligado com um desempenho razoável por um período de tempo, e que desktops são planejados para serem alimentados por uma fonte de energia “ilimitada” que seria capaz de suprir a demanda energética do sistema computacional por um tempo indeterminavelmente grande. O Sandra também forneceu um comparativo “Performance vs. Speed”, cujo gráfico seria o mesmo que o da fórmulaCálculos de ponto flutuante feitos por todos os threadsCiclo de clock , como pode ser visto abaixo: Performance vs. Speed Aggregate Native Desktop 6.19 MOPS/MHz Performance Notebook 13.31 MOPS/MHz Dhrystone Integer Desktop 7.34 MIPS/MHzNotebook 16.62 MIPS/MHz Whetstone Desktop 5.94 MFLOPS/MHz Single-float Notebook 12.67 MFLOPS/MHz Whetstone Desktop 4.73 MFLOPS/MHz Double-float Notebook 8.97 MFLOPS/MHz Gráfico 8 Neste teste o processador do Notebook levou vantagem sobre o do Desktop pois pos- sui o dobro de threads sobre o outro. Comparando este teste com o “Single Threaded Performance per Clock cycle”, percebemos que os valores do outro teste são os va- lores deste divididos pelo número de threads do respectivo processador, com seus arredondamentos quando necessário. 3.2 MEMORY BANDWIDTH Este benchmark visa avaliar a largura de banda da memória principal. O primeiro re- sultado: Benchmark Results Aggregate Memory Desktop 4.63 GB/s Performance Notebook 13.35 GB/s Integer Memory Desktop 4.63 GB/s Bandwidth Notebook 13.23 GB/s Float Memory Desktop 4.63 GB/s Bandwidth Notebook 13.47 GB/s Gráfico 9 O teste “Aggregate Memory Performance”, que mede a quantidade de dados transfe- rida pelo barramento de memória por segundo está sujeito a algumas variáveis, bem como o “Integer Memory Bandwidth” e o “Float Memory Bandwidth”, porém estes dois últimos medem o desempenho de transferência de apenas um tipo específico de dado. As variáveis capazes de alterar a quantidade de dados transferida pelo barramento de memória por segundo podem são, segundo a Wikipédia, a largura da via de dados, a frequência de clock e a quantidade de transferências de dados realizadas por ciclo do clock. 13 Numericamente, a taxa de transferência média do Notebook é 288.33% a do Desk- top, enquanto em capacidade da memória do Notebook é 294.82% a do Desktop. Portanto, é de se esperar que o Notebook demore um pouco mais para copiar toda sua capacidade, como confirmado no gráfico abaixo: Benchmark Timings Time to Copy Desktop 432.16 ms Capacity Notebook 449.48 ms Gráfico 10 Quanto à eficiência energética da memória, podemos comparar tanto a velocidade quanto a capacidade com seu consumo e obter úteis parâmetros de comparação: Performance vs. Power Chipset(s)/Memory Power Desktop 16.34 WNotebook 5.67 W Aggregate Memory Desktop 290.02 MB/s/W Performance Notebook 2410.76 MB/s/W Integer Memory Desktop 289.96 MB/s/W Bandwidth Notebook 2386.42 MB/s/W Float Memory Desktop 290.15 MB/s/W Bandwidth Notebook 2432.45 MB/s/W Capacity vs. Power Memory Capacity Desktop 125 MB/WNotebook 1084 MB/W Gráfico 11 Consumindo 188% a mais de energia, com aproximadamente um terço da capacidade e com um desempenho máximo de 12.2% em relação ao da memória do Notebook, a memória do Desktop se mostrou energeticamente muito menos eficiente. Outro resultado exibido pelo Sandra é um comparativo entre a taxa de transferência e o clock: Performance vs. Speed Aggregate Memory Desktop 8.55 MB/s/MHz Performance Notebook 10.25 MB/s/MHz Integer Memory Desktop 8.55 MB/s/MHz Bandwidth Notebook 10.16 MB/s/MHz Float Memory Desktop 8.56 MB/s/MHz Bandwidth Notebook 10.34 MB/s/MHz Gráfico 12 A abstrata unidade de medida “MB/s/MHz” pode ser traduzida para “bytes por ciclo de clock”. Então, a cada ciclo de clock a memória do Notebook transfere 20% mais dados que a memória do Desktop. Os items que, segundo a Wikipedia, podem influenciar no desempenho das me- mórias dos computadores em questão foram arranjadas na tabela a seguir: 14 Fatores que podem influenciar no desempenho da memória Fator Desktop Notebook Largura da via de dados 128 bits 128 bits Frequência de clock 554MHz 1333MHz Transferências por ciclo de clock 68.5 bit/clockCycle 82 bit/clockCycle Tabela 8 Portanto, foram apenas dois fatores que influenciaram no desempenho da memória: frequencia de clock da memória e a taxa média de transferência por ciclo de clock da memória. 3.3 CACHE & MEMORY LATENCY Este benchmark mede o tempo de resposta dos caches e da memória principal. Abaixo os resultados: Benchmark Results Memory Latency Desktop 43.6 nsNotebook 32.6 ns L1D (1st Level) Desktop 3 clocks Data Cache Notebook 4 clocks L2 (2nd Level) Desktop 14 clocks Data/Unified Cache Notebook 12 clocks L3 (3rd Level) Desktop — clocks Data/Unified Cache Notebook 18.3 clocks Speed Factor Desktop 32.3Notebook 14.8 Gráfico 13 Podemos observar que a latência dos caches estão expressos em clocks, uma uni- dade de medida que não permite comparações entre os computadores de frequências diferentes. Analisando, então, a eficiência energética da memória principal: Performance vs. Power Chipset(s)/Memory Power Desktop 16.34 WNotebook 5.67 W Memory Latency Desktop 2.67 ns/WNotebook 5.75 ns/W Gráfico 14 Percebemos que, embora o Notebook consuma menos eletricidade, sua eficiência energética é pior que a do Desktop. Os resultados detalhados fornecidos pelo Sandra fornecem mais informações que o primeiro gráfico desta subseção, mas é organizado como tabela, como poderá ser visto a seguir: 15 Detailed Results Range Desktop Notebook 2kB 1.4ns / 3.0clocks 2.2ns / 4.0clocks 4kB 1.4ns / 3.0clocks 2.2ns / 4.0clocks 8kB 1.4ns / 3.0clocks 2.2ns / 4.0clocks 16kB 1.4ns / 3.0clocks 2.2ns / 4.0clocks 32kB 1.4ns / 3.0clocks 2.3ns / 4.0clocks 64kB 6.4ns / 14.0clocks 6.7ns / 12.0clocks 128kB 6.4ns / 14.0clocks 6.7ns / 12.0clocks 256kB 6.4ns / 14.0clocks 6.7ns / 12.0clocks 512kB 6.5ns / 14.0clocks 10.0ns / 18.0clocks 1MB 6.8ns / 15.0clocks 10.0ns / 18.0clocks 2MB 42.6ns / 94.0clocks 10.4ns / 19.0clocks 4MB 42.6ns / 94.0clocks 21.2ns / 38.0clocks 8MB 42.5ns / 94.0clocks 31.8ns / 57.0clocks 16MB 42.5ns / 94.0clocks 32.5ns / 58.0clocks 32MB 42.5ns / 94.0clocks 32.6ns / 59.0clocks 64MB 42.5ns / 94.0clocks 32.6ns / 59.0clocks 256MB 42.5ns / 94.0clocks 32.5ns / 58.0clocks 1GB 43.6ns / 97.0clocks 32.5ns / 58.0clocks Tabela 9 Como para a análise que será feita o tempo de acesso em nanossegundos é mais importante do que em clocks, foi montado o gráfico a seguir em função do tempo em nanossegundos: 16 Ta m an ho do da do 2 kB 1.4 ns 2.2 ns 4 kB 1.4 ns 2.2 ns 8 kB 1.4 ns 2.2 ns 16 kB 1.4 ns 2.2 ns 32 kB 1.4 ns 2.3 ns 64 kB 6.4 ns 6.7 ns 128 kB 6.4 ns 6.7 ns 256 kB 6.4 ns 6.7 ns 512 kB 6.5 ns 10.0 ns 1 MB 6.8 ns 10.0 ns 2 MB 42.6 ns 10.4 ns 4 MB 42.6 ns 21.2 ns 8 MB 42.5 ns 31.8 ns 16 MB 42.5 ns 32.5 ns 32 MB 42.5 ns 32.6 ns 64 MB 42.5 ns 32.6 ns 256 MB 42.5 ns 32.5 ns 1 GB 43.6 ns 32.5 ns Latência (ns) Desktop Notebook Gráfico 15 Observando apenas um computador de cada vez, no Desktop há três trechos estáveis, que são: até 32kB, de 64kB até 1MB e a partir de 1MB; no Notebook observamos quatro trechos estáveis, que são: até 32kB, de 32kB até 256kB, de 512kB até 2MB e a partir de 8MB, sendo 4MB uma transição entre esses dois patamares. Isso ocorre devido ao tamanho e latência dos diversos níveis de cache, cujo primeiro está descrito 17 na tabela abaixo: Tamanho dos caches Nível de cache Desktop Notebook Cache L1 32 KB 32 KB Cache L2 1 MB 256 KB Cache L3 ausente 3 MB Tabela 10 Então, os “patamares” citados são originadas das diferentes latências dos caches e da memória principal, onde a faixa 4MB do Notebook seria 3MB vindos dos caches com latência média de 10ns e 1MB vindo da RAM a uma latência de 32.5ns; e cada um dos “patamares” representariam a latência de um nível de cache ou da memória principal. Foi observado também que até 1MB o Desktop leva vantagem oferecendo uma latência menor que a do Notebook, porém a partir de 2MB a situação se inverte, dando uma vantagem (a partir de 8MB) de 30% ao Notebok sobre o Desktop. 4 SUPERPI O SuperPI é um programa que calculao número pi com precisão decimal de até 232 dígitos decimais usando o algoritmo de Gauss-Legendre. A tabela abaixo contém o tempo que foi necessário para calcular pi com precisão de 4, 8, e 16 milhões de casas decimais: SuperPI Precisão Teste Desktop Notebook 1 2m 33.286s 1m 43.413s 2 2m 32.709s 1m 43.367s 3 2m 32.224s 1m 43.304s 4M 4 2m 32.771s 1m 43.351s 5 2m 33.131s 1m 43.367s 6 2m 32.710s 1m 43.459s Média 2m 32.805s 1m 43.377s 1 5m 18.819s 3m 44.282s 2 5m 17.431s 3m 44.298s 3 5m 15.122s 3m 44.251s 8M 4 5m 19.256s 3m 44.423s 5 5m 17.352s 3m 44.220s 6 5m 12.954s 3m 44.298s Média 5m 16.822s 3m 44.295s 1 11m 32.848s 8m 09.890s 2 11m 56.341s 8m 10.078s 3 11m 52.051s 8m 10.545s 16M 4 11m 42.583s 8m 09.718s 5 10m 52.483s 8m 09.843s 6 11m 12.807s 8m 09.291s Média 11m 31.519s 8m 09.894s Tabela 11 18 Montando um gráfico a partir das médias dos testes: 4M Desktop 2.5547666 minNotebook 1.7222833 min 8M Desktop 5.2803666 minNotebook 3.7382500 min 16M Desktop 11.525316 minNotebook 8.1649000 min Gráfico 16 Foi observado que o Notebook tem uma vantagem média de 43% sobre o Desktop em relação ao tempo para obter o valor desejado, e que no gerenciador de tarefas a carga de uso dos núcleos do processador se aproxima de 100Quantidade de threads da CPU%, como pode ser observado nas capturas de tela abaixo: Desktop Notebook Imagem 3 Da captura de tela do Desktop, destacando em vermelho a área embaixo de ambos gráficos, invertendo verticalmente o gráfico do segundo núcleo e colocando o gráfico da esquerda sobre o da direita, apenas para uma melhor visualização do escrito: Imagem 4 Logo, conclui-se que o programa em questão não faz uso de múltiplos núcleos para paralelizar o processo. 19 Foi também observado que o programa reserva as seguintes quantidades aproxi- madas de memória durante sua execução: Precisão Quantidade aproximadade memória alocada 4M 33MB 8M 67MB 16M 134MB Tabela 12 Tomando como referência o maior cache do processador e o teste de precisão de 4 milhões de casas decimais, o maior cache do Desktop é 33 vezes menor que o alo- cado em memória principal, e o do Notebook é 11 vezes menor. Logo, a memória principal será mais utilizada que o cache e, consequentemente, o Notebook tem uma vantagem de 30% apenas neste fator, ou seja, é um fator que colabora em 70% na vantagem média a favor do Notebook. Portanto, o tempo de acesso e a taxa de transferência da memória principal são os que mais afetaram o desempenho nos testes realizados. 5 WPRIME O wPrime é um benchmark sintético que usa o Método de Newton (xn+1 = xn − f(xn)f ′(xn) ) para calcular as raízes quadradas dos primeiros 32 milhões ou 1024 milhões de intei- ros, conforme seleção do usuário, para um ou mais núcleos do processador. Os tempos utilizados para calcular as raízes quadradas dos primeiros 32 milhões de inteiros estão expressos na tabela abaixo: wPrime Cores Teste Desktop Notebook 1 41.730s 30.059s 2 41.980s 29.873s 3 41.747s 30.000s 32M Multicore 4 41.760s 29.861s 5 41.777s 29.982s 6 41.778s 30.076s Média 41.425s 29.975s 1 82.557s 81.587s 2 82.572s 81.532s 3 82.507s 81.557s 32M Singlecore 4 82.525s 81.573s 5 82.522s 81.569s 6 82.538s 81.525s Média 82.537s 81.557s Tabela 13 Montando um gráfico a partir das médias dos testes: 20 32M Multicore Desktop 41.425sNotebook 29.975s 32M Singlecore Desktop 82.537sNotebook 81.557s Gráfico 17 Tendo em mente que o ganho obtido pelo uso de múltiplos núcleos no Desktop foi de 99.2444% e no Notebook de 172.0834%, segundo a Lei de Amdahl: Speedup = 1 (1− p) + p n SpeedupDesktop = 1 (1− p) + p2 1.992444 = 1 (1− p) + p2 p = 0.996208 = 99.6208% Fórmula 2 Sendo p a porcentagem paralelizável do programa em execução e n a quantidade de cores do processador, temos que o wPrime é quase de todo paralelo. Observamos que o HyperThreading do processador do Notebook tirou bom pro- veito da paralelidade do algoritmo, e por isso, obteve um desempenho maior que o Desktop, mesmo possuindo um processador de mesma quantidade de núcleos e me- nor frequência. Podemos supor que os componentes do computador que mais afetam no desem- penho do teste é a frequência e quantidade de threads do processador e a latência dos primeiros níveis de cache, pois a diferença de desempenho no teste de um nú- cleo foi pequena (1.1%) e a presença do HyperThreading para o teste plurinuclear foi vantajosa. 6 CINEBENCH O “CINEBENCH” é uma versão do “CINEMA 4D”, software da “MAXON” para criação de animações em três dimensões, que é voltada para comparação de desempenho computacional através de uma pontuação, medida em “cb”. Abaixo os resultados em tabela e gráfico: CINEBENCH Teste Desktop NotebookTeste 1 Teste 2 Média Teste 1 Teste 2 Média CPU 95 cb 97 cb 96 cb 161 cb 161 cb 161 cb CPU (single core) 53 cb 53 cb 53 cb 65 cb 65 cb 65 cb Tabela 14 21 CPU Desktop 096 cbNotebook 161 cb CPU (single core) Desktop 053 cbNotebook 065 cb Gráfico 18 Podemos observar que houve ganho considerável (Desktop: 81%; Notebook : 147%) de desempenho com o uso de múltiplos núcleos, com medidas menores que o do “wPrime”, mas ainda assim expressivas. Foi observado que quadrados de 64px preenchiam a imagem do centro para as bordas: Imagem 5 De maneira simplificada, cada quadrado laranja (“bloco”) que preenche a imagem re- presenta um thread no processador. Tais “blocos” são produto do processamento do processador, onde cada pixel é processado individualmente, mas exibido na tela apenas o término do processamento de 64 pixels (uma linha do “bloco”). Alguns “blocos” demoram mais a terminar (note o quadrado em processamento mais à direita) e outros terminam mais rápido (note o quadrado superior esquerdo, que já foi processado), isso ocorre porque a quantidade de detalhes (sombra, ilumina- ção, forma, reflexão simples e difusa dos materiais) em cada “bloco” é variável e isso influencia no tempo de cálculo de todo o conjunto. O programa se mostrou fazer uso intensivo de consultas à memória principal e utilizar de múltiplos threads (HyperThreading se mostrou uma vantagem). 7 FRITZ CHESS BENCHMARK O “Fritz Chess Benchmark” é um benchmark sintético de uma engine de xadrez que visa calcular a melhor jogada em uma partida. Como os resultados são entregues em mil nodos por segundo, deduz-se que trabalha com árvores como modo de represen- 22 tar as jogadas possíveis, com uma profundidade determinada, mas desconhecida, e com desconhecido critério e modo de armazenamento ou de desprezamento de da- dos. Os resultados estão expressos na tabela e no gráfico abaixo: Fritz Chess Benchmark Teste Processors Desktop Notebook Relative Kilo Nodes Relative Kilo Nodes speed per second speed per second 1 4 — — 7.26 3486 2 4 — — 7.27 3487 3 4 — — 7.32 3511 4 4 — — 7.29 3501 Média 4 — — 7.29 3496 1 2 6.53 3134 5.51 2646 2 2 6.51 3123 5.46 2622 3 2 6.53 3134 5.50 2640 4 2 6.52 3129 5.47 2627 Média 2 6.52 3130 5.49 2634 1 1 3.29 1580 2.9 1389 2 1 3.30 1581 2.9 1389 3 1 3.30 1581 2.9 1389 4 1 3.29 1580 2.9 1389 Média 1 3.30 1581 2.9 1389 Tabela 15 4 Processors Desktop —Notebook 3496K Nodes/s 2 Processors Desktop 3130K Nodes/sNotebook 2634K Nodes/s 1 Processor Desktop 1581K Nodes/sNotebook 1389K Nodes/s Gráfico 19 Tendo em mente que a média do desempenho do Notebook, se comparado com o mesmo número de núcleos utilizados no Desktop, nos testes para 1 e 2 núcleos, per- cebemos que o Desktop possui uma pequena vantagem, cuja média é 16%. Lembrando que o clock do Desktop é 22% maior que o do Notebook, e conside- rando que o benchmark só armazene em memória os nodos que venham a caracteri- zar derrota ou vitória (ou seja, usar mais o cache que a memória principal), o resultado obtido faz sentido. Porém o Notebook não possui apenas 2 threads, o que fazcom que o desempenho do Notebook usando o HyperThreading seja 12% maior que o Desktop. Portanto, o HyperThreading neste benchmark se mostrou como um trunfo a favor do Notebook. 23 8 WINRAR O “WinRAR” é um famoso software de compressão de arquivos que é popular entre os usuários de Windows, e possui um “modo benchmark” embutido. Resultados na tabela e gráfico abaixo: WinRAR Arquitetura Cores Teste Desktop Notebook x64 Multicore 1 1381 2544 2 1381 2539 3 1381 2568 Média 1381 2550 Singlecore 1 790 900 2 790 906 3 790 899 Média 790 902 x86 Multicore 1 1353 2454 2 1350 2482 3 1353 2488 Média 1352 2475 Singlecore 1 772 893 2 772 894 3 770 893 Média 771 893 Tabela 16 x64 Multicore Desktop 1381 KB/sNotebook 2550 KB/s Singlecore Desktop 0790 KB/sNotebook 0902 KB/s x86 Multicore Desktop 1352 KB/sNotebook 2475 KB/s Singlecore Desktop 0771 KB/sNotebook 0893 KB/s Gráfico 20 Da versão de 64 bits para a de 32 bits há uma perda média de 2.1109% em desempe- nho, mas as proporções se mantêm entre as arquiteturas. Logo, toda análise feita com estes processadores dentro da arquitetura de 64 bits também vale para estes proces- sadores dentro da arquitetura de 32 bits, porém com 2% a menos de desempenho. Podemos considerar desde já que o desempenho do “WinRAR” é prejudicado pela latência da memória principal, pois um compressor de dados passa pela premissa básica de ler integralmente os dados da memória ao menos uma vez, e ler da memória principal depende de sua latência, a qual já foi abordada na seção 3.3. Também devemos levar conta que comprimir arquivos envolve encontrar padrões, tarefa esta que depende de cálculos, mas o cálculo é menos lento que a latência da memória principal. Então, a velocidade do clock, já abordada na seção 3.1, é um fator que junto à latência da memória principal são os dois fatores mais importantes que contribuem para o resultado expresso nos testes uninucleares. 24 Nos testes plurinucleares, a presença do HyperThreading foi o que determinou boa parte da vantagem de 84% do Notebook sobre o Desktop, como já observado em benchmarks anteriores. 9 3D PARTICLE MOVEMENT BENCHMARK O benchmark sintético “3D Particle Movement benchmark” foi escrito por “Dr Ian Cu- tress” para avaliar o desempenho do processador, e, segundo o site AnandTech, alta performance de ponto flutuante, frequência e instruções por ciclo de clock determina o resultado do teste mononuclear, e o teste plurinuclear é capaz de lidar com mais núcleos. O resultado dos testes em tabela e gráfico: 3D Particle Movement Benchmark Threads Desktop Notebook MultiThread 1 112.9864 164.0444 2 113.0665 163.2908 3 109.3718 163.5198 4 113.1699 162.7246 Média 112.1486 163.3949 SingleThread 1 68.2880 58.1770 2 68.2884 58.1452 3 68.2914 58.1770 4 68.2777 58.2226 Média 68.2864 58.1805 Tabela 17 MultiThread Desktop 112.1486Notebook 163.3949 SingleThread Desktop 068.2864Notebook 058.1805 Gráfico 21 Observamos que no teste uninuclear, o processador do Desktop se saiu melhor que o do Notebook em todos os testes realizados e na pontuação final. O principal motivo disso é a diferença de clock entre os processadores. Se observarmos o desempenho no teste plurinuclear, o Notebook leva vantagem pois conta com HyperThreading, que faz com que o processador exiba quatro threads para o programa enquanto não deixa de ser de dois núcleos, melhorando, assim, o desempenho do benchmark no Notebook. Assim como na seção 3.1, o Desktop na performance por thread (singlethread) foi melhor, e o Notebook na performance geral (multithread) se saiu melhor. 10 GOOGLE OCTANE O “Google Octane” visa avaliar o desempenho da engine JavaScript. O Google afirma que o objetivo do Octane é medir o desempenho de código JavaScript encontrado em grandes aplicações web do mundo real. O resultado dos testes em tabela e gráfico: 25 Google Octane Teste Desktop Notebook 1 12304 13586 2 12575 13694 3 12627 13712 4 12702 13706 5 12536 13977 6 12639 13621 Média 12564 13716 Tabela 18 Desktop 12564 Notebook 13716 Gráfico 22 Devido à grande quantidade e variedade de testes que avaliam várias partes do com- putador ao mesmo tempo, não se pode concluir dados precisos sobre qual parte do computador mais contribuiu para a pontuação final deste benchmark; podemos con- cluir apenas que a navegação no Notebook será por volta de 9% mais rápida. 11 TRUECRYPT O “TrueCrypt”, era um programa de criptografia popular até ter seu desenvolvimento interrompido em meio a controvérsias a respeito de sua insegurança. O resultado dos testes, na tabela abaixo: Paralelização Algoritmo Desktop Notebook Encryption Decryption Mean Encryption Decryption Mean AES 161 161 161 163 178 171 Twofish 139 147 143 157 158 158 Serpent 69.1 74.6 71.9 93.9 94.1 94 Paralelização AES-Twofish 75.1 77.1 76.1 82.9 85.6 84.2 máxima Serpent-AES 49.2 51.1 50.1 59.5 56.7 58.1 Twofish-Serpent 48.1 49.7 48.9 57.9 54.2 56.1 AES-Twofish-Serpent 37 37.5 37.2 43.7 44.4 44.1 Serpent-Twofish-AES 37 38 37.5 43.4 41.4 42.4 AES 81 80.2 80.6 78.6 80.8 79.7 Twofish 70.4 74.5 72.5 55.8 62.8 59.3 Serpent 36.7 37.6 37.1 36.2 37.8 37 Sem AES-Twofish 37.7 38.7 38.2 32.6 35.3 34 paralelização Serpent-AES 25.2 25.5 25.4 24.8 25.8 25.3 Twofish-Serpent 24.1 25 24.5 22 23.6 22.8 AES-Twofish-Serpent 18.6 19 18.8 17.2 18.2 17.7 Serpent-Twofish-AES 18.6 19 18.8 17.2 18.3 17.7 Tabela 19 Podemos observar que os valores abaixo do AES vão decrescendo, então podemos tomar o AES como medida de referência e montar o gráfico abaixo: 26 Paralelizado Desktop 161 MB/sNotebook 171 MB/s Desparalelizado Desktop 80.6 MB/sNotebook 79.7 MB/s Gráfico 23 É pouca a diferença entre os computadores analizados: 1% a favor do Desktop no teste desparalelizado e 6% a favor do Notebook no teste paralelizado. Tendo em vista que o AES trabalha, segundo a Wikipédia, com blocos de 128 bits passando por 10 a 14 rodadas numa estrutura de substituição e permutação em rede, podemos observar que tal resultado depende, em primeiro lugar, da quantidade de threads do proces- sador sendo usados, em segundo lugar, da velocidade de cálculo do processador (Freq × IPS), em terceiro lugar, da latência da memória cache, e em quarto lugar, da latência da memória principal. 12 HD TACH O “HD Tach” é um software que visa avaliar o desempenho de um disco rígigo. Como ambos os computadores foram testados com um HD Seagate ST9320325AS 320GB10 SATA II, sendo que o Desktop ficou com o disco fabricado em 23/08/2010 e o Notebook ficou com o disco fabricado em 19/07/2012, é esperado avaliar apenas o barramento SATA de ambos os computadores. O teste do “HD Tach” foi executado 4 vezes em cada computador e suas capturas de tela dos resultados foram sobrepostas e as quedas abruptas de velocidade de leitura que apareciam aleatoriamente foram deixadas em um tom de cor intermediário à linha do gráfico e a cor de fundo, como pode ser vista a seguir: 27 Desktop Notebook Imagem 6 Podemos perceber que a velocidade de leitura sequencial vai decrescendo ao passo que o disco vai chegando ao fim. Isso ocorre devido à diferença que a velocidade linear é dado pela multiplicação da velocidade angular pelo raio, ou simplesmente v = ω× r. Sabendo que o disco faz constantes 5400 rotações por minuto, e que é lido das bordas para o centro, a velocidade com que os dados passam sobre a cabeça de leitura no início do disco é maior do que em qualquer trilha de dados mais interna, e é por isso 28 que o gráfico é decrescente. Outra coisa que pode ser observada no gráfico são algumas leves oscilações para cima e para baixo. Tais “anomalias menores” ocorrem quando a cabeça de leitura não chega a tempo na região onde o dado passou e precisa esperar o disco concluir uma rotação completa para conseguir ler o dado.Ainda foi observado no gráfico alguns “vales” que foram deixados em um tom mais claro. Tais “anomalias maiores” ocorrem quando algum processo de sistema ou a interface de configuração de algum driver presente na system tray, em segundo plano, solicita um dado ao disco enquanto o teste está sendo executado. Devido ao modo como as capturas de tela foram sobrepostas alguns dados ficaram ilegíveis, estando estes transcritos na tabela abaixo: HD Tach Teste Burst speed Average read Random accessDesktop Notebook Desktop Notebook Desktop Notebook 1 247.2 102.2 61.4 61.6 20.7 19.8 2 248.5 120.2 63.6 64.0 18.9 19.6 3 247.4 125.8 63.2 63.7 20.5 19.3 4 248.3 121.8 62.4 63.7 19.5 19.3 Média 247.9 117.5 62.7 63.3 19.9 19.5 Unidade MB/s MB/s ms Tabela 20 Estes dados também serão comparados com os presentes no review feito pelo site “CDRLabs.com” a respeito do SSD Kingston 120GB10 V300, dispositivo este que opera sobre o barramento SATA III. Como o “HD Tach”, um programa de 2004, foi criado para medir a performance de discos rígidos, e não de drives de estado sólido, não é de se esperar que ele teste um SSD de maneira consistente. Portanto, resultados de benchmark apresentados serão do programa “AS SSD”: SSD Imagem 7 A velocidade de leitura sequencial e o tempo de acesso aleatório estão explícitas na captura de tela à esquerda, enquanto o teste para saber qual o máximo de dados possível de ser transferido através do barramento por segundo (ou seja, equivalente ao “Burst Speed” do “HD Tach”) está expresso no gráfico à direita, mas a linha do 29 gráfico atinge o seu auge na linha que está entre os textos “505MB/s” e “480MB/s”; logo, será considerado o valor 500MB/s. Em tabela: SSD Burst speed Average read Random access 500 MB/s 459.38 MB/s 0.114 ms Tabela 21 De posse dos valores referentes à performance dos HDs e do SSD, e acrescentando a latência do IBM modelo 3340 Winchester (30ms, segundo a Wikipédia) à análise, podemos montar o gráfico: B ur st S pe ed Sata III 600.00 MB/s SSD 500.00 MB/s Sata II 300.00 MB/s Desktop 247.85 MB/s Sata I 150.00 MB/s Notebook 117.50 MB/s A ve ra ge re ad Sata III 600.00 MB/s SSD 459.38 MB/s Sata II 300.00 MB/s Sata I 150.00 MB/s Notebook 63.30 MB/s Desktop 62.70 MB/s R an do m ac ce ss Winchester 30.000 ms Desktop 19.900 ms Notebook 19.500 ms SSD 0.114 ms Gráfico 24 Começando pela latência, o Seagate ST9320325AS de mais antiga data de fabricação testado se demonstrou possuir aproximadamente 2/3 da latência do antigo IBM modelo 3340 Winchester de 1973, isso após 37 anos de aprimoramento da tecnologia. O barramento do Desktop foi 2% (4ms) mais lento que o do Notebook. Se comparados a melhor latência do HD Seagate ao SSD, ainda assim, o SSD é 170 vezes mais rápido. Partindo para a velocidade média de leitura (“Average read”), em verde temos a velocidade máxima teórica de transferência de dados do barramento, enquanto os dispositivos reais estão nas demais cores. A velocidade de leitura no Desktop é 1% maior que a do Notebook, enquanto o SSD é 6.25 vezes mais rápido que o mais rápido HD Seagate testado. Chegando ao teste da velocidade máxima ao qual o barramento é capaz de “con- versar” com o dispositivo (“Burst Speed”), observamos que o Notebook trabalhava como SATA I, o Desktop como SATA II e o SSD como SATA III, e que a real veloci- dade máxima de troca de dados através do barramento é aproximadamente 80% da velocidade teórica do barramento a qual o dispositivo está conectado. Um ponto muito importante a se considerar é, tomando como referência o preço da loja online “KaBuM”, o preço por byte da tecnologia: o do SSD é aproximadamente o quíntuplo do HD do tipo “convencional”, isso faz com que o ganho de desempenho seja menor que o aumento de preço, neste caso. 30 13 FREEMAKE VIDEO CONVERTER O “Freemake Video Converter” é um conversor multimídia, que foi usado para conver- ter um sample de 3m 16s (196s) do filme “Matrix”. O resultado pode ser encontrado abaixo em tabela e gráfico: Freemake Video Converter Teste Desktop Notebook 1 3m 54s 3m 03s 2 3m 52s 3m 03s Média 3m 53s 3m 03s Tabela 22 Desktop 233 s Sample 196 s Notebook 183 s Gráfico 25 Foi observado que o conversor obteve proveito dos múltiplos threads pois ao definir afinidade de processador para 2 threads no Notebook, o tempo de conversão foi para 258s (lembrando que ao clicar em “OK” para definir a afinidade de processador, 9% da conversão já tinha se passado). Também foi observado que a opção para acelerar a conversão usando CUDA no Desktop (que possui uma GPU nVIDIA) estava indisponível, mas tal incompatibilidade não é nenhuma novidade, pois no passado já tinha se mostrado incompatível com outros programas como o “Blender” e o “Any Video Converter Free”. Apenas o Notebook converteu o arquivo em um tempo menor que a duração sam- ple (7% mais rápido), enquanto o Desktop demorou 19% a mais que a duração do sample para terminar a conversão. Tal medida indica, para citar um fim prático, se pode existir algum software de servidor de mídia que é capaz de converter e enviar simultaneamente o vídeo um dispositivo como por exemplo, uma televisão, sem que haja “travamentos”. Na prática, usando o software “PS3 Media Server” para enviar convertendo (para MPEG com um bitrate de 2Mbps, preservando resolução) um filme em 1080p com 2 horas e meia de duração para o disco rígido do console PlaySta- tion©3, no Desktop eram necessários mais de 5 horas, enquanto com o Notebook, por volta de 3 horas. 14 FOOBAR2000 O “Foobar2000” é um tocador de arquivos de áudio, que possui suporte a plug-ins. Um desses plug-ins transforma o player de áudio em uma ferramenta de benchmark. Resultados a seguir: 31 Foobar2000 Formato Teste Desktop Notebook AAC 1 658.709 746.583 2 660.045 727.788 3 658.511 761.790 4 658.392 746.763 5 660.433 710.118 6 656.509 747.604 Média 658.767 740.108 FLAC 1 479.257 443.878 2 477.752 461.138 3 480.970 457.685 4 480.576 459.144 5 481.394 464.509 6 481.358 457.326 Média 480.218 457.280 MP3 1 424.690 402.447 2 424.700 393.705 3 427.006 414.982 4 426.408 417.650 5 426.014 409.868 6 424.106 407.856 Média 425.487 407.751 APE 1 54.997 58.644 2 55.283 59.162 3 55.158 57.708 4 55.040 58.371 5 55.230 56.137 6 54.991 57.882 Média 55.117 57.984 Tabela 23 AAC Desktop 658.767 ×realtimeNotebook 740.108 ×realtime FLAC Desktop 480.218 ×realtimeNotebook 457.280 ×realtime MP3 Desktop 425.487 ×realtimeNotebook 407.751 ×realtime APE Desktop 55.117 ×realtimeNotebook 57.984 ×realtime Gráfico 26 A média aritmética dos valores apresentados para cada computador resulta em: AAC Média 699.437 ×realtime FLAC Média 468.749 ×realtime MP3 Média 416.619 ×realtime APE Média 56.550 ×realtime Gráfico 27 32 Primeiramente, uma breve introdução a cada formato de audio: AAC: O Advanced Audio Coding é um formato de representação de áudio digital que usa compressão com perdas e, segundo a Wikipédia, foi projetado para ser o sucessor do MP3. Utiliza as extensões .m4a, .m4b, .m4p, .m4v, .m4r, .3gp, .mp4 e .aac. Foi projetado para ser o sucessor do MP3. FLAC: O Free Lossless Audio Codec é um formato de representação de áudio digital que usa compressão sem perdas. Utiliza a extensão .flac. MP3: Pode ser MPEG-I Audio Layer III ou MPEG-II Audio Layer III, e é um formato de representação de áudio digital que usa compressão com perdas que se popu- larizou na internet, principalmente, pelo seu tamanho reduzido e sua qualidade razoável. Usa a extensão .mp3. APE: O Monkey’s Audio é um formato de arquivo de áudio digital comprimido sem perdas que utiliza as extensões .ape para o áudio e .apl para os dados referentes ao áudio. RAW: Termo usado para designar qualquer formato descomprimido, onde neste caso, o aúdio será convertido a uma sequênciade interiros de 16 bits, e seu tamanho de arquivo depende exclusivamente da duração do fluxo, logo, para qualquer formato acima, o tamanho resultante será o mesmo. Será usado para medir a eficiência bruta dos algoritmos de compressão acima. Podemos observar que, sem considerar o tamanho ocupado em disco, mas conside- rando que o arquivo todo está em memória principal, o formato AAC é o mais “leve” e o APE é o mais “pesado”. As implicações disso passam a ficar mais evidentes à medida que o sistema computacional fica mais limitado (tanto em processamento, quanto em suprimento de energia), como é o caso de dispositivos como “MP3 players”, iPods, smartphones, e do MP6 abaixo: Imagem 8 Outro ponto limitante dos portáteis é a memória (o MP6 acima possui apenas 2GB). Abaixo, o gráfico busca ilustrar a proporção tamanho comprimidotamanho descomprimido : RAW 100 % FLAC 66 % APE 64 % MP3 14 % AAC 9 % Gráfico 28 33 Dentre os formatos em que ocorre perda de qualidade, o AAC consegue ser mais “leve” no sentido de decodificação e armazenamento ao mesmo tempo, e dente os formatos sem perda de qualidade, embora o APE seja um pouco menor que o FLAC, sua decodificação é muito mais lenta, fazendo com que seja mais atraente o uso do FLAC ao APE. Quanto à necessidade de paralelizar a tarefa de decodificação de áudio nos sis- temas de computação modernos, se pensarmos apenas quando abrimos o player de música e ordenamos que ele execute os arquivos duma determinada pasta, tal neces- sidade não existe; contudo existem vídeos de alta resulução (HD, Full HD, 2K e 4K) e jogos com inteligências artificiais complexas e processamento intensivo de polígonos que demandam tempo de CPU, onde parte desse tempo foi deixado livre através de paralelização da reprodução de áudio. Observando os arquivos de música, percebemos que todos os arquivos possuem 44kHz de taxa de amostragem, mas os bitrates variam, onde o FLAC está em 930kbps, o APE está em 907kbps, o AAC está em 128kbps e o arquivo MP3 está em VBR (variable bitrate), segundo o player de áudio “Audacious”. Segundo o software “EncS- pot Basic 2.0”, a média dos bitrates do MP3 é 197kbps, como pode ser observado nas capturas de tela a seguir: Imagem 9 Embora nenhum componente do grupo soube dizer que o arquivo que estava ou- vindo usava qual forma de compressão (com ou sem perdas), ainda podemos calcular fator de “leveza” da decodificação bitrate , que seria uma medida de eficiência que busca dizer qual algo- ritmo seria mais “leve” para a tarefa de decodificação se estivessem no mesmo bitrate: AAC 5.464351563 ×realtimekbps MP3 2.113802030 ×realtimekbps FLAC 0.504031183 ×realtimekbps APE 0.062348401 ×realtimekbps Gráfico 29 Então, para a tarefa de decodificação, o AAC é o mais “leve” de todos, seguido pelo 34 MP3, FLAC, e por fim, Monkey’s Audio. Repetindo o mesmo raciocíno para encontrar um fator que represente a eficiência do algorítmo de compressão, levando em consideração um bitrate igual entre as mú- sicas, tal fórmula pode ser tamanho do arquivobitrate : AAC 39123.828125000 byteskbps MP3 38484.152284264 byteskbps APE 38462.445424476 byteskbps FLAC 38451.547311828 byteskbps Gráfico 30 Portanto, com menos de 2% de diferença entre o melhor formato e o pior formato, percebe-se que os formatos que usam compressão com perdas usam mais espaço em disco que os que usam compressão sem perdas; mas em contrapartida, precisam de um menor bitrate para reconstruir o áudio com resultado satisfatório. 35 15 CONCLUSÃO Neste trabalho pudemos observar partes do hardware que influenciam positivamente cada teste, deles se destacam a paralelização de processos (que depende e tira pro- veito de múltiplos núcleos e é beneficiada pela presença de HyperThreading), o uso de 64 bits sobre 32 bits, o uso de instruções especiais presentes (depende que o programa faça uso), um clock mais rápido (inclui overclock), uma maior velocidade do barramento, uma maior velocidade de transmissão de dados e uma menor latência da memória principal e um maior tamanho, uma maior transmissão de dados e uma menor latência dos caches influenciam positivamente o desempenho. Vimos também que a maioria dos formatos de áudio já estão com seu algoritmo de decodificação bem otimizados, que a tarefa de conversão de vídeo, sem usar ace- leração de hardware, é computacionalmente “pesada” ainda nos dias de hoje, que a latência de um HDD mecânico não melhorou consideravelmente nos últimos 30 anos, em comparação com a evolução das memórias flash, cujo desempenho em um SSD foi capaz de fornecer um melhor custo-benefício, que métodos de criptografia, muito utilizados como método de autenticação em instituições bancárias, bancos de da- dos e login em websites, são suficientemente rápidos para uso “residencial” desses algoritmos, que a navegação na internet “moderna” faz uso simultâneo de vários com- ponentes do computador para exibir uma “página” da internet, que o processamento de partículas 3D movimentando-se (tarefa comum em jogos) é beneficiada por mais núcleos, que a tarefa de compressão de dados é uma tarefa computacionalmente “pe- sada” (tarefa presente na criação de instaladores e no compartilhamento de arquivos “grandes” através de um meio de transmissão “lento”), que o algoritmo por trás de uma jogada de xadrez possui uma grande complexidade e ainda é computacional- mente “pesada” para os dias de hoje (alguns jogos de xadrez para celular às vezes demoram alguns minutos para processar uma jogada), que o processo de renderiza- ção de uma cena estática em 3D envolve muitos dados e detalhes, que o cálculo de raízes quadradas individualmente ocorrem rapidamente e que o calculo de pi com uma grande precisão demanda muito tempo e acessos à memória. Foi observado que no site da fabricante dos processadores que a data de lança- mento do processador de cada computador difere em 5 anos, e que segundo a Lei de Moore (a cada 18 meses o número de transistores dos processadores dobra), o pro- cessador do Notebook deveria ter 6.6 vezes mais transistores que o do Desktop. No site da fabricante diz que o processador do Desktop possui 105 milhões de transisto- res. Pela Lei de Moore, o processador do Notebook teria 700 milhões de transistores; mas no entanto não foi posssível testar se o resultado dado pela Lei de Moore é con- dizente com a realidade pois tal dado não foi divuldado pela fabricante em seu site. O real objetivo deste trabalho, durante sua execução, se apresentou ser o de fixar o conteúdo aprendido em sala e relacionar cada benchmark a uma classe de tarefas computacionais “cotidianas” (sendo que este último termo depende da natureza das tarefas de um ser (pessoa ou organização)). É esperado que ambos os objetivos (o definido na introdução e o deduzido no decorrer do trabalho) foram devidamente atendidos, que nossas análises ficaram suficientemente claras e que tenha sido uma enriquecedora leitura para você, leitor. 36 16 REFERÊNCIAS LEI de Moore. In: Wikipédia: a enciclopédia livre. Disponível em: <http://pt.wikipedia.org/wiki/Lei_de_Moore>. Acesso em: 23 jan 2015. ADVANCED Audio Coding. In: Wikipédia: a enciclopédia livre. Disponível em: <http://en.wikipedia.org/wiki/Advanced_Audio_Coding>. Acesso em: 20 jan 2015. FLAC. In: Wikipédia: a enciclopédia livre. Disponível em: <http://en.wikipedia.org/wiki/FLAC>. Acesso em: 20 jan 2015. MP3. In: Wikipédia: a enciclopédia livre. Disponível em: <http://en.wikipedia.org/wiki/MP3>. Acesso em: 20 jan 2015. MONKEY’S Audio. In: Wikipédia: a enciclopédia livre. Disponível em: <http://en.wikipedia.org/wiki/Monkey’s_Audio>. Acesso em: 20 jan 2015. KABUM COMÉRCIO ELETRÔNICO S/A. KaBuM! - Kingston SSD 2.5´ 120GB V300 SATA III SV300S37A/120G. Disponível em: <http://www.kabum.com.br/produto/35749/kingston-ssd-2-5-120gb-v300-sata-iii-sv300 s37a-120g>. Acesso em: 21 jan 2015. KABUM COMÉRCIOELETRÔNICO S/A. KaBuM! - HD Seagate SATA 320.0Gb 5400 RPM p/ Notebook ST9320325AS. Disponível em: <http://www.kabum.com.br/produto/ 8493/hd-seagate-sata-320-0gb-5400-rpm-p-notebook-st9320325as>. Acesso em: 21 jan 2015. CDRLabs.com. CDRLabs.com - Kingston SSDNow V300 120GB Solid State Drive | Reviews | All-Pages. Disponível em: <http://www.cdrlabs.com/Reviews/kingston-ssdnow-v300-120gb-solid-state-drive/All-P ages.html>. Acesso em: 20 jan 2015. SDRAM latency. In: Wikipédia: a enciclopédia livre. Disponível em: <http://en.wikipedia.org/wiki/SDRAM_latency>. Acesso em: 20 jan 2015. SiSoftware. SiSoftware Zone. Disponível em: <http://www.sisoftware.net/?f=pinformation>. Acesso em: 20 jan 2015. WHETSTONE (benchmark). In: Wikipédia: a enciclopédia livre. Disponível em: <http://en.wikipedia.org/wiki/Whetstone_(benchmark)>. Acesso em: 20 jan 2015. DHRYSTONE. In: Wikipédia: a enciclopédia livre. Disponível em: <http://en.wikipedia.org/wiki/Dhrystone>. Acesso em: 20 jan 2015. SSE4. In: Wikipédia: a enciclopédia livre. Disponível em: <http://en.wikipedia.org/wiki/SSE4>. Acesso em: 20 jan 2015. 37 SSE3. In: Wikipédia: a enciclopédia livre. Disponível em: <http://pt.wikipedia.org/wiki/SSE3>. Acesso em: 20 jan 2015. ADVANCED Vector Extensions. In: Wikipédia: a enciclopédia livre. Disponível em: <http://en.wikipedia.org/wiki/Advanced_Vector_Extensions>. Acesso em: 20 jan 2015. Intel Corporation. ARK | Intel® Pentium® Processor E2140 (1M Cache, 1.60 GHz, 800 MHz FSB). Disponível em: <http://ark.intel.com/pt-br/products/29738/Intel-Penti um-Processor-E2140-1M-Cache-1_60-GHz-800-MHz-FSB>. Acesso em: 20 jan 2015. Intel Corporation. ARK | Intel® Core™ i3-3217U Processor (3M Cache, 1.80 GHz). Disponível em: <http://ark.intel.com/products/65697/Intel-Core-i3-3217U-Processor - 3M-Cache-1_80-GHz>. Acesso em: 20 jan 2015. Guru3D.com Forums. How to Calculate Overclocked Power Consumption - Guru3D.com Forums. Disponível em: <http://forums.guru3d.com/showthread.php? s=&threadid=94726>. Acesso em: 20 jan 2015. eXtreme Outer Vision. eXtreme Outer Vision Tools. Disponível em: <http://www.extreme.outervision.com/tools.jsp#cpuoc>. Acesso em: 20 jan 2015. BARRAMENTO frontal. In: Wikipédia: a enciclopédia livre. Disponível em: <http://pt.wikipedia.org/wiki/Barramento_frontal>. Acesso em: 20 jan 2015. AMDAHL’S law. In: Wikipédia: a enciclopédia livre. Disponível em: <http://en.wikipedia.org/wiki/Amdahl’s_law>. Acesso em: 20 jan 2015. ChessBase GmbH. What’s new about Fritz 9 engine? | Chess News. Disponível em: <http://en.chessbase.com/post/what-s-new-about-fritz-9-engine->. Acesso em: 20 jan 2015. COMPRESSÃO de dados. In: Wikipédia: a enciclopédia livre. Disponível em: <http://pt.wikipedia.org/wiki/Compressão_de_dados>. Acesso em: 20 jan 2015. Overclock.net. 3D Particle Movement Benchmark. Disponível em: <http://www.overclock.net/t/1413580/3d-particle-movement-benchmark>. Acesso em: 20 jan 2015. Dr. CUTRESS, Ian. Sem título. Disponível em: <http://www.borandi.co.uk/>. Acesso em: 20 jan 2015. Dr. CUTRESS, Ian. AnandTech | Intel Haswell-EP Xeon 14 Core Review: E5-2695 V3 and E5-2697 V3. Disponível em: <http://www.anandtech.com/show/8730/intel- haswellep-xeon-14-core-review-e52695-v3-and-e52697-v3/3>. Acesso em: 20 jan 2015. Google. Octane – Google Developers. Disponível em: <https://developers.google.com/octane/>. Acesso em: 20 jan 2015. 38 TrueCrypt Foundation. TrueCrypt. Disponível em: http://truecrypt.sourceforge.net/>. Acesso em: 20 jan 2015. ADVANCED Encryption Standard. In: Wikipédia: a enciclopédia livre. Disponível em: <http://en.wikipedia.org/wiki/Advanced_Encryption_Standard>. Acesso em: 20 jan 2015. SERIAL ATA. In: Wikipédia: a enciclopédia livre. Disponível em: <http://en.wikipedia.org/wiki/Serial_ATA>. Acesso em: 20 jan 2015. DISCO rígido. In: Wikipédia: a enciclopédia livre. Disponível em: <http://pt.wikipedia.org/wiki/Disco_rígido>. Acesso em: 20 jan 2015. CUDA. In: Wikipédia: a enciclopédia livre. Disponível em: <http://en.wikipedia.org/wiki/CUDA>. Acesso em: 20 jan 2015. wPrime Systems. Single-threaded Computer Benchmark | SuperPI. Disponível em: <http://www.superpi.net/>. Acesso em: 20 jan 2015. wPrime Systems. Multi-threaded Computer Benchmark | wPrime. Disponível em: <http://www.wprime.net/>. Acesso em: 20 jan 2015. INTRODUÇÃO AIDA64 SISOFTWARE SANDRA 2015 PROCESSOR ARITMETIC MEMORY BANDWIDTH CACHE & MEMORY LATENCY SUPERPI WPRIME CINEBENCH FRITZ CHESS BENCHMARK WINRAR 3D PARTICLE MOVEMENT BENCHMARK GOOGLE OCTANE TRUECRYPT HD TACH FREEMAKE VIDEO CONVERTER FOOBAR2000 CONCLUSÃO REFERÊNCIAS
Compartilhar