Sabemos que 44.1/16 tem uma relação sinal-ruído (SNR) de 96 dB do hyperlink em sinais digitais. Mas digite dither:
O que é pontilhamento e ainda é relevante na period do áudio de alta resolução?
O SNR actual usando pontilhamento triangular (TDPF) é de cerca de 112 dB SNR.
44.1/16 permite transmitir frequências de até 22 kHz de Shannon.
Para determinar o número de bits necessários, é necessário examinar o ruído de fundo das gravações de alta qualidade. O SNR mínimo em condições ideais com o melhor equipamento é de 110 dB. 130 dB seria um SNR muito razoável para permitir uma boa margem de segurança. Na verdade, isso está próximo do limite térmico de ruído de um Conversor Digital Analógico (DAC). Mais do que isso pareceria “dourar o lírio”.
Usar 16 bits com pontilhamento tem um SNR de 112db. Como veremos, podemos aumentar ainda mais, alcançando bem mais de 130db. Quatorze bits são suficientes para atingir 130 db com DACs modernos de alta qualidade
Consequências do Aliasing em um DAC
Um fenômeno fascinante acontece quando você converte digital em analógico devido ao aliasing. Você obtém seu áudio unique e reflexos dele que duram para sempre. Ele precisa ser filtrado em cerca de 20 kHz para eliminá-los. Eles estão acima da audibilidade, portanto, deixá-los lá não terá consequências audíveis, mas pode causar estragos em amplificadores, and so forth., ao ouvir áudio. Alguns não se preocupam em projetar um DAC. Eles são chamados de DACs NOS, mas a maioria dos designers gosta de removê-los.
Mix isso com um filtro para limitar o sinal a 22 kHz para que Shannon se mantenha e, portanto, possa ser reproduzido com exatidão sem aliasing; são necessários dois filtros analógicos íngremes e difíceis de projetar. Bem, a vida não é perfeita, e os primeiros DACs que surgiram fizeram exatamente isso.
Então os engenheiros começaram a ter ideias brilhantes.
Sobreamostragem
Existe uma maneira mais fácil de resolver o problema do filtro no CD participant? Embora a frequência mínima que você pode obter para obter uma reprodução de 22 kHz seja 44 kHz, nada impede os projetistas de DAC do outro lado de aumentar a frequência de amostragem, digamos, oito vezes para 352k – isso é chamado de sobreamostragem. Você pega uma amostra de 44,1 ok, depois sete amostras zero e continua assim. Projetar um filtro digital de 22 kHz que use esses dados aumentados é simples, conforme será explicado no artigo sobre reprodução exata. Agora você tem todas essas cópias em 176 kHz em vez de 22 kHz. É muito mais fácil filtrar. A sobreamostragem foi a primeira ideia.
Isso teve o seguinte subproduto importante. Se for pontilhado, adicionar amostras zero extras significa que todas as amostras não serão mais pontilhadas. O ruído está concentrado nas amostras diferentes de zero. A aplicação do filtro de 22 kHz espalha o ruído uniformemente por todas as amostras. Para uma sobreamostragem oito vezes maior, o ruído geral é agora oito vezes menor. Cada redução do ruído pela metade significa 3 dB a menos de ruído. Então, agora você não tem 112 dB SNR, mas 115 SNR. Superamostragem de 8 vezes significa que temos SNR de 121 dB. Os primeiros chips DAC não suportavam 16 bits – 14 bits period o máximo. Mas usando oversampling quatro vezes e uma forma inicial de modelagem de ruído (a ser discutida mais tarde), eles foram tornados equivalentes a DACs de 16 bits.
Os detalhes de um DAC moderno de alta qualidade
Como sempre, desde aqueles primeiros dias, as coisas seguem em frente.
Vejamos um DAC moderno como o PS Audio Direct Stream (DS). Eu uso isso como exemplo porque possuo um e investiguei como ele funciona. Não é nada de especial; a maioria dos outros DACs de alta qualidade hoje em dia funcionam de maneira semelhante.
Ele faz oversamplings impressionantes de 1280 vezes ou amostragem de cerca de 56 MHz. Considere o que essa sobreamostragem faz com o SNR. Vamos continuar dividindo por 2: 640, 320, 160, 80, 40, 20, 10, 5, 2,5. 1,25. Conte o número de duplicações e obteremos dez duplicações. Isto é um acréscimo de 30 dB nos 112 dB que temos após o dithering, dando um SNR de 142 dB, muito acima do que é necessário quando o limite térmico é considerado. Quatorze bits fornecem SNR de 130 dB. Se uma degradação no SNR de 130 for aceitável, 12 ou até 8 bits poderão ser usados, resultando em um SNR de 118 dB e 102 dB, respectivamente. Considerando que o DS tem um nível de ruído geral de 120 dB, 12 bits seriam aceitáveis. Uma estratégia ainda melhor seria localizar o nível de ruído da gravação e transmitir apenas bits suficientes para reproduzir acima disso. A compactação FLAC não compacta bem o ruído e isso reduzirá consideravelmente os arquivos FLAC.
Como experiência, peguei 44.1/16, mudei para 44.1/8 com dither e joguei no meu computador. Durante passagens silenciosas, você podia ouvir um leve chiado. Mas através do meu Direct Stream DAC – é absolutamente silencioso, mesmo com meu ouvido próximo ao alto-falante. Como eu disse, 130 db tem margem de segurança nas melhores gravações, mas mesmo 102 db é bom.
Como é criado o áudio digital moderno
Isso nos leva naturalmente à forma como o áudio moderno é criado. A implementação exata irá variar, mas aqui vai. Alimentamos a saída de um microfone em um lado de um comparador. Ele gera um se for maior que o outro lado. Caso contrário, um zero. Isso é amostrado em uma frequência muito alta, digamos 56 MHz (sobreamostragem de 1280) e, em seguida, alimentado em um integrador cuja tensão de saída aumenta lentamente se uma estiver presente e cai se zero estiver presente. Esta tensão é o outro lado do comparador. Se a tensão de entrada for positiva, cada amostra será uma e o integrador aumentará lentamente. Eventualmente, será maior que a tensão de entrada e um zero será emitido, então a tensão cai. Assim, temos um grande número de zeros e uns que são fáceis de converter em um sinal analógico simplesmente usando um filtro passa-baixo como um capacitor ou um transformador de alta qualidade cuja frequência cai em, digamos, cerca de 70 kHz.
Áudio DXD
Para criar o grasp a partir do qual os arquivos de áudio são distribuídos, filtramos digitalmente o áudio de um bit com sobreamostragem de 1280 para áudio com sobreamostragem de oito vezes. Isso é chamado de DXD. Por que DXD? Os engenheiros de áudio desejam um formato que garanta uma frequência de amostragem acima de qualquer frequência de áudio máxima possível, então Shannon implica uma reconstrução exata. Eles decidiram fazer muito mais do que o necessário. Quase todas as gravações têm frequências acima de 22 kHz que não são inundadas por ruído. Algumas gravações possuem frequências não mascaradas por ruído acima de 44 kHz. É raro encontrar uma gravação com frequências acima de 88 kHz, e nenhuma, que eu saiba, está acima de 176 kHz. A resolução de 24 bits é usada pelo mesmo motivo.
Dither em forma de ruído
Depois de reduzir a resolução do áudio para DXD, a resolução fica mais para 8 bits do que para 24 bits. É aqui que entra um truque chamado modelagem de ruído. É explicado aqui:
https://www.analog.com/en/technical-articles/behind-the-sigma-delta-adc-topology.html
O hyperlink cobre o que eu disse anteriormente sobre aumentar a resolução usando TDPF e upsampling, mas explicado de forma um pouco diferente. Também discute outro tipo de pontilhamento, denominado pontilhamento em forma de ruído. O pontilhamento em forma de ruído não aumenta o SNR igualmente em todas as frequências. O SNR aumenta em comparação com o pontilhamento TDPF nas frequências mais baixas, mas muito menos nas frequências mais altas. A taxa de amostragem do áudio de um bit, por exemplo, 56 MHz, registra frequências de até 28 MHz. Isso é alto demais para ser motivo de preocupação, e podemos ter um SNR horrível nessa frequência, mas um SNR muito melhor de 24 bits nas frequências DXD.
Mais detalhes do Direct Stream DAC
Sabendo disso, podemos concluir o funcionamento do DS DAC. Tudo é ampliado para 1280 vezes a taxa de amostragem do CD. Em seguida, ele é reduzido dez vezes, usa o mesmo processo que criou o fluxo de 1 bit com modelagem de ruído e passa por um transformador para se livrar das altas frequências digitais para fornecer a saída de áudio. O projetista organizou isso de forma que acima de 70 kHz, a queda na resposta de frequência do transformador cancelasse o aumento do ruído acima de 70 kHz do conversor de um bit e seu modelador de ruído. O SNR é de 120 dB para frequências muito altas.
Por que reduzir a resolução 10 vezes antes de converter para áudio de um bit com modelagem de ruído? O outro nome para áudio de um bit é Digital Sign Direct (DSD). Quando implementado pela primeira vez, foi feito com sobreamostragem de 64 vezes. Dobrar isso dá uma sobreamostragem de 128 vezes, também chamada de 2x DSD. Você tem 4x DSD, 8x DSD e até 16x DSD. Conforme explicado a seguir, 2x DSD é o ponto ultimate:
https://positivo-feedback.com/audio-discourse/raising-the-sample-rate-of-dsd-is-there-a-sweet-spot/
Distribuição de áudio digital
É basicamente assim que o áudio moderno é gravado e reproduzido. Para quem deseja o máximo de fidelidade, você pode adquirir o grasp DXD. Mas na maioria dos casos, tudo é recuperado reduzindo a resolução para 176k ou 88k. 44,1k está se tornando menos widespread entre aqueles que desejam áudio da mais alta qualidade porque o filtro de 22 kHz take away as frequências reais gravadas. Quão audível isso é é uma questão de debate. Mas 88k, para quase todas as gravações, é suficiente para preservar todas as frequências. Lembre-se de Shannon – desde que a frequência mais alta esteja abaixo da metade da frequência de amostragem, você obtém uma reprodução exata. Muitos designers de DAC colocam um filtro de 50 kHz na saída para reduzir o ruído porque poucas gravações têm conteúdo acima de 50 kHz que não é mascarado pelo ruído de gravação. Se você usar esse DAC (Chord DACs, por exemplo, fazem isso), gravações amostradas de 88,2 kHz são boas o suficiente. Se você quiser ter cuidado, 176,4 kHz pode trazer alguns pequenos benefícios, mas certamente não há necessidade de recorrer ao DXD. No entanto, observe o que direi mais tarde sobre a compactação FLAC sem perdas.
Redução no tamanho do arquivo usando FLAC
FLAC é um padrão de compactação de áudio sem perdas que possui uma compactação muito boa. Geralmente reduz o tamanho dos arquivos em cerca de 50%. Como todos os algoritmos de compressão sem perdas que conheço, ele tem uma cura de Aquiles. Ruído – não comprime bem o ruído. Isto é aparente quando comparamos 44,1/16 e 88,2/16. Como a diferença entre os dois são apenas informações de baixo nível e alta frequência, não se esperaria um grande aumento no tamanho do arquivo quando compactado. Mas acontece que não é verdade. 88,2/16 é compactado em cerca de 50%, assim como 44,1/16. O motivo é o ruído. Sim, as informações de alta frequência são pequenas, mas o nível de ruído ainda é o mesmo. Para aumentar a eficácia do FLAC, reduzir o ruído ajudará consideravelmente.
O ruído reside principalmente nas partes mais baixas de uma gravação. A remoção deles ajudará na eficiência do FLAC. Agora você entende a hesitação; poderíamos usar dither, mas temos apenas 16, 14, 12 ou até 8 bits em vez de 24.
Existe outro truque que pode ser usado. Pode ser baixado um programa chamado XIFEO que determina a frequência máxima de uma gravação que não é mascarada por ruído. Aplica um filtro acima dessa frequência e take away todos os ruídos maiores que essa frequência. De Shannon, isso não afetará a reprodução exata, mas como o ruído geralmente está presente em altas frequências, o arquivo closing é melhor compactado pelo FLAC. O único problema é que a empresa que vendeu o programa faliu. Ainda está disponível uma versão demo que faz apenas o primeiro minuto de uma gravação, mas isso normalmente seria suficiente para encontrar a profundidade de bits e a frequência de corte.
IMHO, esta pode eventualmente se tornar a forma padrão de distribuição de áudio.
Outro problema é algo que os engenheiros de áudio notaram. À medida que a taxa de amostragem aumenta, o áudio soa melhor. Não apenas isso, mas o efeito continua nas taxas de amostragem de MHz. Só podemos ouvir até 20 kHz, portanto não pode ser possível a reconstrução de frequências mais altas. Não entrarei nas razões hipotéticas para isso, exceto para observar que é um fenômeno bem conhecido pelos engenheiros de áudio. No entanto, como sugerido acima, obtemos uma reconstrução exata quando reproduzida, se produzida corretamente. Aumentamos a amostragem para uma alta taxa de amostragem para simular altas frequências de amostragem, o que acontece com o upsampling de 1280 vezes no PS Audio DAC.
Isto é importante. Um sistema chamado MQA foi desenvolvido para reduzir o tempo de esfregaço, uma das hipóteses pelas quais altas taxas de amostragem soam melhor. Isto não tem importância no sistema que descrevi porque temos uma reprodução exacta a uma taxa de amostragem muito elevada – não há mancha de tempo – simples assim. Isso causou muitos debates acalorados nos círculos de Hello-Fi. Mas IMHO, isso não é um problema porque os DACs modernos têm reprodução exata em taxas de amostragem muito altas.
Próximo artigo: https://www.physicsforums.com/insights/digital-filtering-and-exact-reconstruction-of-digital-audio/