Informations

Pour une expérience perceptive persistante, pourquoi la vidéo peut-elle avoir une fréquence d'images plus faible que l'audio ?

Pour une expérience perceptive persistante, pourquoi la vidéo peut-elle avoir une fréquence d'images plus faible que l'audio ?

Dans un film, les images nous sont généralement montrées à environ 24 images par seconde, mais les fichiers sonores modernes ont souvent 44 100 ou 48 000 échantillons par seconde. Il y a un seuil au-dessus de ~12 ips où nous percevrons les images successives comme un mouvement unifié au lieu d'images individuelles (c.f. phénomène phi, persistance de la vision, mouvement bêta). Mais pour obtenir cette expérience unifiée dans le domaine auditif, nous avons besoin d'un "framerate" beaucoup plus élevé. Pourquoi est-ce?


Le son est constitué d'ondes de pression ; les jeunes humains peuvent entendre (c'est-à-dire détecter les ondes de pression) jusqu'à environ 20 kHz. Pour produire ces ondes haute fréquence avec un haut-parleur avec un signal dans le domaine temporel, il est nécessaire d'avoir une fréquence d'échantillonnage au moins 2x la fréquence la plus élevée qui sera représentée. En pratique, ces très hautes fréquences ne sont pas incluses dans la musique, et certainement pas dans la parole, donc ~44 kHz est suffisant. Il y a une membrane à l'intérieur de la cochlée qui est structurée pour vibrer à différentes fréquences sur toute sa longueur. Aux fréquences plus élevées, les neurones ne répondent pas réellement à chaque onde sonore, ils répondent à la enveloppe, il est donc possible de répondre à des fréquences beaucoup plus élevées que les fréquences auxquelles les neurones peuvent même tirer.

La vision dépend de la détection des photons. Un photon frappe une molécule photosensible dans un photorécepteur de la rétine, ce qui provoque un changement chimique. Ce produit chimique modifié se lie à une protéine, ce qui provoque une cascade d'événements qui provoque finalement un changement dans la libération d'un neurotransmetteur. La vision est lente : la cascade en réponse à un seul photon prend de l'ordre de 100s de millisecondes. Nous pouvons détecter des choses un peu plus rapidement que cela parce que le système visuel répond à changements la pente de cette réponse est donc une caractéristique pertinente, mais dans l'ensemble, ce processus lent signifie que les informations lumineuses sont filtrées par un filtre passe-bas. Tant qu'un signal est suffisamment plus rapide que ce filtre passe-bas, les différences entre un signal image par image et un signal lissé ne sont généralement pas remarquées. Cependant, il n'est pas vrai que 24 images par seconde soit une limite. Les moniteurs modernes fonctionnent souvent beaucoup plus rapidement, comme 60-144 Hz, car ces fréquences d'images plus rapides sont importantes pour la perception d'un mouvement fluide à haute vitesse. Cependant, des fréquences d'images plus lentes sont suffisantes lorsque les changements sont faibles.

Dans la nature, beaucoup de choses font vibrer des fréquences élevées dans les milliers de Hz, il existe donc de bonnes raisons évolutives pour détecter les sons à haute fréquence. Cependant, très peu de choses bougent à ces vitesses, et celles qui le font ne sont généralement pas pertinentes sur le plan comportemental (par exemple, vous n'avez pas besoin de voir chaque balayage des ailes d'un insecte pour le détecter comme un insecte).


Je n'ai pas de réponse complète, mais cela pourrait faire démarrer les choses…

Vous mélangez deux concepts de fréquence d'images et de fréquence d'échantillonnage. Dans une vidéo présentée à 24 ips, chaque image a potentiellement une large gamme de fréquences spatiales. En règle générale, les fréquences spatiales sont limitées par le nombre de pixels, mais vous pouvez filtrer en passe-bas chaque image pour réduire les fréquences spatiales (vous vous retrouverez avec une image floue). Ce filtrage spatial n'a rien à voir avec la fréquence d'images.

La fréquence d'échantillonnage de 44,1 kHz dans les signaux audio s'apparente davantage aux fréquences spatiales d'une image/image qu'à la fréquence d'images d'une vidéo. Un exemple de trames audio serait quelque chose comme décomposer le signal audio en un tas de tranches avec la transformée de Fourier à court terme (STFT), régler chaque tranche pour avoir un spectre constant (et une phase ???), et reconstruire. Reconstituer le signal à partir d'une STFT modifiée n'est pas trivial (cf., Griffin et Lim 1984). Compte tenu des difficultés du processus et de l'absence d'application, je ne suis pas sûr que quiconque ait vraiment étudié comment la durée des tranches affecte les choses.


Voir la vidéo: Quelle FRÉQUENCE dimages choisir en vidéo? 24, 25, 30, 50 ips.. (Janvier 2022).