Podobnie jak w przypadku formatu JPEG, w formacie MP3 stosuje się spektralne odcięcia zgodnie z modelem psychoakustycznym. Sygnał audio jest dzielony na równe okresy czasu, z których każdy po przetworzeniu jest pakowany we własną klatkę (ramkę). Dekompozycja na widmo wymaga ciągłości sygnału wejściowego, dlatego do obliczeń wykorzystuje się również poprzednią i następną ramkę. W sygnale dźwiękowym występują harmoniczne o mniejszej amplitudzie i harmoniczne leżące blisko tych bardziej intensywnych – takie harmoniczne są odcięte, ponieważ przeciętne ucho ludzkie nie zawsze będzie w stanie określić ich obecność lub brak. Ta cecha słuchu nazywana jest efektem maskującym. Możliwe jest również zastąpienie dwóch lub więcej pobliskich szczytów jednym uśrednionym szczytem (co zwykle prowadzi do zniekształceń dźwięku). Kryterium wyłączenia jest określone przez wymaganie przepływu wyjściowego. Ponieważ całe widmo jest istotne, harmoniczne wysokich częstotliwości nie są odcięte jak w JPEG, a jedynie selektywnie usuwane w celu zmniejszenia przepływu informacji ze względu na rozdzielczość widma. Po spektralnym “zdejmowaniu” stosuje się matematyczne metody kompresji i pakowania w ramki. Każda rama może mieć kilka kontenerów, co pozwala na przechowywanie informacji o kilku strumieniach (kanał lewy i prawy lub kanał centralny i różnica kanałów). Stopień kompresji może być różny, również w obrębie jednej ramy. Interwał możliwych wartości bitrate’u wynosi 8-320 kbps.