Introdução
Os codecs de vídeo modernos são todos baseados em princípios semelhantes. Recentemente, essas foram complementadas por técnicas de IA, como a super-resolução, para formar codecs híbridos. O estado atual da arte é de transição para ter uma baseada apenas na IA eventualmente:
Os codecs usando apenas IA estão a vários anos de distância. No futuro próximo, usaremos os codecs convencionais suplementados com IA.
Este artigo do Insights começará analisando os codecs convencionais e gradualmente criará um híbrido.
H264
A maneira mais fácil de entender os codecs modernos é olhar para o mais comum em uso hoje e o que a maioria dos outros codecs se baseia, H264:
https://www.youtube.com/watch?v=ZXXDXZFECAQ&t=17S
Linha de base do EVC
Os codecs convencionais seguiram em frente. Para nossos propósitos, começaremos com o codec de linha de base do EVC – um codec simples, mas eficaz:
https://thebroadcastknowledge.com/2021/02/18/video-mpeg-5-essential-video-coding-evc-tandard/
Imediatamente, pode ser melhorado pela IA:
https://www.mdpi.com/1424-8220/24/4/1336/pdf?model=1708338117
ScalENet
O primeiro uso da IA é um sistema proposto pela Samsung chamado scalenet:
Veja o hyperlink de vídeo no closing e leia o artigo abaixo desse hyperlink.
Observe que a linha de base do EVC tem desempenho aproximadamente o mesmo que o HEVC, mas é livre de royalties.
Redimensionamento da imagem invertível
O Scalenet usa redes neurais convolucionais (variações de Tad-tau)
Mas as coisas seguem em frente, e um novo método de redução e restauração chamado Invettable Picture Revaling é agora o estado da arte
https://arxiv.org/abs/2210.04188
Isso é particularmente útil na conversão de cores em escala de escala e codificação das informações de cores. Para entender como a cor é codificada, o conceito de filtro da Bayer é necessário.
O filtro Bayer
Para exatidão, assumirei um sistema de televisão de 8k.
Para entender como a IA pode ajudar, começaremos na câmera. Pode -se pensar que cada pixel contém um pixel vermelho, azul e verde.
Mas essa suposição está incorreta. O que é usado é chamado de filtro Bayer
https://en.wikipedia.org/wiki/bayer_filter
Isso significa que uma câmera de 8 Okay produz quatro fluxos de 4 Okay. Como veremos, isso pode ser usado para converter a saída em um único fluxo de escala de greys de 4 Okay.
Convertendo a saída do filtro de bayer em escala de cinza
O redimensionamento da imagem invertível pode converter os quatro fluxos diferentes em um único fluxo em escala de cinza em 4K com uma degradação quase não observável de cerca de 40 dB. Esse fluxo pode então ser codificado como um vídeo EVC.
Conforme detalhado no papel invertível de redimensionamento da imagem, isso pode ser combinado com uma rede neural convolucional (por exemplo, Scalenet) para a melhor reconstrução de imagem antes de inverter de volta a uma cor para criar um sistema híbrido baseado em IA.
Codificação baseada em tiro
A Netflix desenvolveu um grande avanço na codificação que usa eficientemente a velocidade da Web disponível, chamada codificação baseada em tiro:
Usando isso sozinho, a Netflix reduziu 4 Okay para 2 MBs. É muito eficaz. Eu raramente tenho problemas com 4 Okay de conteúdo e velocidade da Web usando a Netflix, mas outros serviços de vídeo como o Prime têm problemas, até a web. A Netflix lida com isso usando algoritmos sofisticados de buffer.
Conclusão
O acima apresenta alguns aprimoramentos de AI de última geração no streaming de vídeo.
As mudanças estão chegando grossas e rápidas. Empresas como a Netflix os incorporarão em seus serviços de streaming. Uma visão geral de outras possibilidades pode ser encontrada aqui: