الگوریتم فشرده سازی داده های صوتی که با علامت اختصاری  mp3شناخته می شود، با بهره گیری از این حقیقت که شنوایی انسان دارای محدوده ادراکی مشخصی می باشدُ بهره می گیرد که با نام پوشش شنوایی معروف است. در سال 1894 ، فیزیکدان آمریکایی آلفرد مایر (Alfred M. Mayer ) اداعا کرد که یک تن صدایی می تواند با صدای دیگری با فرکانس پایین تر غیرقابل شنیدن شود. در سال 1959 Richard Ehmer مجموعه کاملی از منحنی های شنوایی را در رابطه با این پدیده توصیف کرد.  بین سالهای 1967 و 1974، Eberhard Zwicker در زمینه تنظیم و پوشش باند های فرکانسی بحرانی کار می کرد.
کدگذاری ادراکی برای اولین بار برای فشرده سازی گفتار با کد نویسی پیش بینی خطی (LPC) به کار گرفته شد که محصول کار تعدادی از دانشمندان در سال ۱۹۶۶ بود. در سال ۱۹۷۸ گروه دیگری از دانشمندان امواج در آزمایشگاه های بل، یک رمزگذاری گفتاری LPC ، به نام کدگذاری پیش بینی تطبیقی ​​، ارائه دادند که از یک الگوریتم کدگذاری روانشناختی استفاده می کرد و از ویژگی های پوشش شنوایی بهره می جست. بعداً بهینه سازی بیشتر توسط Schroeder و Atal با J.L. Hall در مقاله ای در سال 1979 گزارش شد. در همان سال ، یک رمزگذاری پوشش روان آکوستیک نیز توسط  M. A. Krasnerپیشنهاد شد که سخت افزار گفتاری را منتشر و تولید کرد (به عنوان فشرده سازی بیت موسیقی قابل استفاده نیست) ، اما نتایج وی در گزارش فنی آزمایشگاه Lincoln  نسبتاً مبهم منتشر شد و قاعدتا بلافاصله بر جریان اصلی توسعه رمزگذاری روانشناختی تأثیر نگذاشت.
تبدیل کسینوسی گسسته (DCT) ، نوعی کدگذاری تبدیلی برای فشرده سازی است که توسط نصیر احمد در سال 1972 پیشنهاد شد و بعدا توسط وی با T. Natarajan و K. R. Rao در سال 1973 توسعه یافت. آنها نتایج خود را در سال 1974 منتشر کردند. این موضوع منجر به توسعه تبدیل کسینوس گسسته (MDCT) ، توسط J. P. Princen ، A. W. Johnson و A. B. Bradley در 1987 شد که به دنبال کارهای قبلی Princen و Bradley در سال 1986 بود. الگوریتم MDCT بعداً به بخش اصلی الگوریتم MP3 تبدیل گردید.
Ernst Terhardt و همکاران الگوریتمی را برای توصیف پوشش شنوایی با دقت بالا در سال 1982 ابداع کردند. این اثر به گزارش های منتشر شده از نویسندگانی به قدمت Fletcher افزود و روش هایی که در ابتدا نسبت های حیاتی و پهنای باند بحرانی را تعیین می کردند را توسعه بخشید .
در سال 1985  Atal و Schroeder نوعی الگوریتم رمزنگاری گفتاری ادراکی مبتنی بر LPC با پوشش شنوایی را ارائه دادند که با افزایش نسبت فشرده سازی داده قابل توجهی را برای زمان خود به دست آورد که در مجله مرجع IEEE در زمینه های منتخب در ارتباطات در مورد طیف گسترده ای از الگوریتم های فشرده سازی صوتی (عمدتا ادراکی) در سال 1988 منتشر شد. نسخه "کدگذاری صوتی برای ارتباطات" که در فوریه 1988 منتشر شد ، در مورد طیف گسترده ای از فن آوری های فشرده سازی بیت صوتی مستقر و فعال گزارش می داد که برخی از آنها با استفاده از پوشش شنوایی به عنوان بخشی از طراحی اساسی خود و چندین مورد دیگر ، پیاده سازی های سخت افزاری در زمان واقعی را نشان می دادند.

توسعه


پیدایش فناوری MP3 به طور کامل در مقاله ای از پروفسور Hans Musmann شرح داده شده است که چندین سال ریاست گروه ISO MPEG Audio را بر عهده داشت. در دسامبر 1988 ، MPEG خواستار یک استاندارد کدگذاری صوتی شد. در ژوئن 1989 ، 14 الگوریتم کدگذاری صوتی ارسال شد. به دلیل شباهت های خاص بین این پیشنهادهای برنامه نویسی ، آنها در چهار گروه قرار گرفتند. گروه اول MUSICAM بود ، توسط Matsushita، CCETT ، ITT و Philips. گروه دوم ASPEC بود ، توسط AT&T ، France Telecom ، Fraunhofer Gesellschaft ، Deutsche و Thomson-Brandt. گروه سوم ATAC بود ، توسط Fujitsu, ، JVC ، NEC و Sony. و گروه چهارم SB-ADPCM بود که توسط NTT و BTRL ارایه شدند.
الگوریتم های پیش از MP3 با نام "کدگذاری بهینه در دامنه فرکانس" (OCF) و کدگذاری تبدیل ادراکی (PXFM) بودند. این دو رمزگذاری ، همراه با مشارکت در تعویض بلوک های Thomson-Brandt، در یک کدک به نام ASPEC ادغام شدند، که به MPEG ارسال شد، و برنده رقابت کیفیت گردید. اما به اشتباه به دلیل پیچیدگی قابل اجرا ، پذیرفته نشد. اولین اجرای عملی یک رمزگذار ادراکی صوتی (OCF) در سخت افزار کراسنر برای استفاده عملی بیش از حد دست و پا گیر و کند بود.
یکی دیگر از فرمت های پیش از MP3 را می توان در رمزگذاری ادراکی MUSICAM مبتنی بر محاسبه عدد صحیح 32 فیلتر زیر باند یاد کرد که توسط یک مدل روانشناختی هدایت می شد. این برنامه در درجه اول برای پخش دیجیتال صوتی (رادیو دیجیتال) و تلویزیون دیجیتال طراحی شده بود و اصول اساسی آن توسط CCETT (فرانسه) و IRT (آلمان) در آتلانتا در طی کنفرانس IEEE-ICASSP در سال 1991 برای جامعه علمی اظهار شد. البته پیش از آن در سال 1989 در MUSICAM با Matsushita و  Philips امتحان خود را پس داده بود.
 این رمزگذاری با استفاده از مدولاسیون COFDM در یک سیستم پخش گنجانیده شده و به صورت عملی در رادیو کانادا و CRC کانادا در طول برنامه NAB (لاس وگاس) در سال 1991 استفاده شد. اجرای قسمت صوتی این سیستم پخش بر اساس رمزگذار دو تراشه بود (یکی برای تبدیل زیر باند ، دیگری برای مدل روان آکوستیک طراحی شده توسط تیم G. Stoll (IRT آلمان) ، بعداً به عنوان مدل روانشناختی I شناخته می شود) و و با استفاده از یک تراشه Motorola 56001 DSP که یک نرم افزار حساب عدد صحیح را طراحی کرده و توسط Y.F طراحی شده است ، یک رسیور بی درنگ انجام می شود تیم دهری (CCETT ، فرانسه). سادگی رسیور مربوطه همراه با کیفیت صوتی بالای این رمزگذاری برای اولین بار با استفاده از فرکانس نمونه برداری 48 کیلوهرتز ، فرمت ورودی 20 بیت / نمونه (بالاترین استاندارد نمونه برداری موجود در سال 1991 سازگار با استاندارد استودیوی ورودی دیجیتال AES / EBU) دلایل اصلی اتخاذ ویژگیهای MUSICAM بعنوان ویژگیهای اساسی برای رمزگذاری فشرده سازی موسیقی دیجیتال پیشرفته بود. در طول توسعه نرم افزار رمزگذاری MUSICAM ، تیم Stoll و Dehery از مجموعه ای از مواد ارزیابی صوتی با کیفیت بالا کاملاً استفاده کردند. توسط گروهی از متخصصان صدا از اتحادیه پخش اروپا انتخاب شده و بعداً به عنوان مرجعی برای ارزیابی رمزگذارهای فشرده سازی موسیقی استفاده می شود. مشخص شد که روش کدگذاری زیر باند ، نه تنها برای کدگذاری ادراکی از مواد صوتی با کیفیت بالا ، بلکه به ویژه برای رمزگذاری مواد صوتی ضربان ساز ضربان دار (طبل ، مثلث ، ..) به دلیل خاصیت خاص پوشش موقتی MUSICAM فیلتربانک زیر باند (این مزیت ویژگی خاصی در تکنیک های کدگذاری تبدیل کوتاه است).
Karlheinz Brandenburg به عنوان دانشجوی دکترای دانشگاه ارلانگن-نورنبرگ آلمان ، از اوایل دهه 1980 با تمرکز بر چگونگی درک مردم از موسیقی ، کار روی فشرده سازی موسیقی دیجیتال را آغاز کرد. وی کار دکترای خود را در سال 1989 به پایان رساند. MP3 مستقیماً از OCF و PXFM تبار است ، که نمایانگر نتیجه همکاری Brandenburg - کار به عنوان فوق دکترا در آزمایشگاه های AT & T-Bell با جیمز D. Johnston ("JJ") از آزمایشگاه های AT & T-Bell با موسسه Fraunhofer برای مدارهای مجتمع است. ، Erlangen (جایی که او با برنهارد گریل و چهار محقق دیگر کار کرد - "شش اصلی") ، با مشارکت نسبتاً جزئی از شاخه MP2 رمزگذاران زیر باند روان آکوستیک. در سال 1990 ، براندنبورگ استادیار ارلانگن-نورنبرگ شد. هنگامی که در آنجا بود ، او به کار در زمینه فشرده سازی موسیقی با دانشمندان در موسسه هاینریش هرتس انجمن Fraunhofer ادامه داد (در سال 1993 به کارکنان Fraunhofer HHI پیوست). آهنگ "Tom's Diner" از سوزان وگا اولین آهنگی است که توسط Karhheinz Brandenburg برای توسعه MP3 استفاده شد. براندنبورگ این آهنگ را برای اهداف آزمایشی تصویب کرد ، و هر بار که آن را بارها و بارها با اصلاح طرح ، بارها و بارها به آن گوش می داد ، مطمئن شد که بر ظرافت صدای وگا تأثیر منفی ندارد.


استاندارد سازی 


در سال 1991 ، دو پیشنهاد در دسترس وجود داشت که برای یک استاندارد صوتی MPEG مورد ارزیابی قرار گرفتند: MUSICAM (الگوی ماسکینگ با کدگذاری و مالتی پلکسینگ یکپارچه تحت باند جهانی) و ASPEC (کدگذاری آنتروپی ادراکی طیفی تطبیقی). تکنیک MUSICAM ، پیشنهاد شده توسط فیلیپس (هلند) ، CCETT (فرانسه) ، موسسه فناوری پخش (آلمان) و ماتسوشیتا (ژاپن) ، به دلیل سادگی و مقاومت در برابر خطا و همچنین به دلیل سطح بالای کارایی محاسبات ، انتخاب شدند.قالب MUSICAM ، بر اساس کدگذاری زیر باند ، مبنای قالب فشرده سازی MPEG Audio قرار گرفت ، به عنوان مثال ساختار قاب ، قالب هدر ، نرخ نمونه و غیره را در خود جای داده است. در حالی که بسیاری از فناوری ها و ایده های MUSICAM در تعریف MPEG Audio Layer I و Layer II گنجانده شده بود ، بانک فیلتر به تنهایی و ساختار داده بر اساس 1152 نمونه قاب (قالب پرونده و جریان بایت گرا) از MUSICAM در لایه III باقی مانده است ( فرمت MP3) به عنوان بخشی از بانک فیلتر ترکیبی محاسباتی ناکارآمد. تحت ریاست پروفسور Musmann از دانشگاه لایب نیتس هانوفر ، ویرایش استاندارد به لئون ون دو کرخوف (هلند) ، گرهارد استول (آلمان) ، و ایو-فرانسوا دهری (فرانسه) ، که در لایه های اول و لایه دوم کار می کردند. ASPEC پیشنهاد مشترک آزمایشگاههای AT&T Bell ، Thomson Consumer Electronics ، Fraunhofer Society و CNET بود. این بالاترین کارایی کدگذاری را فراهم می کند. یک گروه کاری متشکل از ون ده کرخوف ، استول ، لئوناردو شیاریگلیونه (معاون CSELT برای رسانه ها) ، ایو-فرانسوا دهری ، کارلهاینز براندنبورگ (آلمان) و جیمز دی جانستون (ایالات متحده) ایده های ASPEC را گرفتند، برخی از ایده های خود مانند رمزگذاری استریو مشترک MUSICAM را اضافه کرده و فرمت MP3 را ایجاد کرده اند که برای دستیابی به همان کیفیت با 128 کیلوبیت بر ثانیه MP2 با 192 کیلوبیت بر ثانیه طراحی شده است.
 الگوریتم های MPEG-1 Audio در سال 1991 تأیید شد و در سال 1992 نهایی شد. فایلها یا جریان داده ها مطابق بااستاندارد ها باید نرخ نمونه 48k ، 44100 و 32k را کنترل کنند و همچنان توسط دستگاه های پخش کننده MP3 و رمزگشاها پشتیبانی شوند. کارهای بیشتر در مورد صوتی MPEG 46 در سال 1994 به عنوان بخشی از مجموعه دوم استانداردهای MPEG ، MPEG-2 ، که به طور رسمی به عنوان استاندارد بین المللی ISO / IEC 13818-3 (معروف به MPEG-2 قسمت  یا MPEG سازگار با عقب) شناخته می شود ، نهایی شد. Audio یا MPEG2 Audio BC ، که در اصل در سال 1995 منتشر شده است. MPEG-2 قسمت (ISO / IEC 13818-3) 42 بیت ریت اضافی و نرخ نمونه برای MPEG-1 Audio Layer I، II و III تعریف کرده است. نرخ نمونه برداری جدید دقیقاً نیمی از نرخ اولیه در MPEG-1 Audio تعریف شده است. این کاهش در میزان نمونه برداری باعث می شود قابلیت استفاده از فرکانس موجود به نصف کاهش یابد در حالیکه بیت ریت 50٪ کاهش می یابد. نسل سوم جریانهای داده ای (فایلها) به سبک "MP3" ایده ها و پیاده سازی MPEG-2 را گسترش داده اما صوتی MPEG-2.5 نامیده شده است ، زیرا MPEG-3 معنای دیگری داشت. این پسوند در Fraunhofer IIS ، دارندگان ثبت اختراع ثبت شده MP3 با کاهش زمینه همگام سازی قاب در هدر MP3 از 12 به 11 بیت ، توسعه یافته است. همانطور که در انتقال از MPEG-1 به MPEG-2 ، MPEG-2.5 دقیقاً نیمی از نمونه های موجود با استفاده از MPEG-2 را به نرخ نمونه برداری اضافی اضافه می کند. بنابراین دامنه MP3 را شامل می شود تا گفتار انسان و سایر برنامه ها را شامل شود ، اما با استفاده از نرخ نمونه برداری MPEG-1 فقط 25٪ از پهنای باند (تولید مجدد فرکانس) ممکن است.
MPEG-2.5 اگرچه یک استاندارد ISO به رسمیت شناخته نشده است ، به طور گسترده توسط هر دو دستگاه پخش کننده صوتی دیجیتال ارزان قیمت چینی و مارک تجاری و همچنین رمزگذارهای MP3 مبتنی بر نرم افزار رایانه (LAME) ، رمزگشاها (FFmpeg) و پخش کننده ها (MPC) پشتیبانی می شود که 3 × 8 = 24 اضافه می کند انواع فریم MP3 اضافی. بنابراین هر نسل از MP3 از 3 نرخ نمونه برداری دقیقاً نیمی از نسل قبلی برای مجموع 9 نوع فایل با فرمت MP3 پشتیبانی می کند. جدول مقایسه نرخ نمونه بین MPEG-1 ، 2 و 2.5 در ادامه مقاله آورده شده است. MPEG-2.5 توسط LAME (از سال 2000) ، Media Player Classic (MPC) ، iTunes و FFmpeg پشتیبانی می شود.

MPEG2.5 توسط MPEG ساخته نشده است و هرگز به عنوان یک استاندارد بین المللی تأیید نشده است. بنابراین MPEG-2.5 یک گسترش غیر رسمی یا اختصاصی به قالب MP3 است. با این وجود در همه جا کاربرد دارد و خصوصاً برای کاربردهای گفتار انسانی با نرخ بیت پایین بسیار سودمند است. کارایی فشرده سازی رمزگذارها به طور معمول با نرخ بیت تعریف می شود ، زیرا نسبت فشرده سازی به عمق بیت و میزان نمونه گیری سیگنال ورودی بستگی دارد. با این وجود ، نسبت فشرده سازی اغلب منتشر می شود. آنها ممکن است از پارامترهای Compact Disc (CD) به عنوان مرجع (44.1 کیلوهرتز ، 2 کانال با 16 بیت در هر کانال یا 2 × 16 بیت) ، یا گاهی اوقات از نوارهای صوتی دیجیتال (DAT) SP (48 کیلوهرتز ، 2 × 16 بیت) استفاده کنند. . نسبت فشرده سازی با این مرجع اخیر بالاتر است ، که نشان دهنده مشکل استفاده از اصطلاح نسبت فشرده سازی برای رمزگذارهای با ضرر است.
کارلهاینز براندنبورگ برای ارزیابی و اصلاح الگوریتم فشرده سازی MP3 از ضبط سی دی آهنگ ترانه سوزان وگا "Tom's Diner" استفاده کرد. این آهنگ به دلیل ماهیت تقریباً مونوفونیک و محتوای گسترده طیفی آن انتخاب شده است و به همین دلیل شنیدن نقص در قالب فشرده سازی هنگام پخش آسان تر است. برخی از آنها سوزان وگا را "مادر MP3" می نامند. این آهنگ خاص دارای ویژگی جالبی است از این جهت که این دو کانال تقریباً یکسان نیستند.
برخی از گزیده های صوتی مهمتر از دیسک فشرده مرجع EBU V3 / SQAM گرفته شده و توسط مهندسین صدای حرفه ای برای ارزیابی کیفیت ذهنی قالبهای MPEG Audio مورد استفاده قرار گرفته است. LAME پیشرفته ترین رمزگذار MP3 است. LAME شامل یک کدگذاری نرخ بیت متغیر VBR است که به جای هدف بیت نرخ از یک پارامتر کیفیت استفاده می کند. نسخه های بعدی 2008 از کیفیت پشتیبانی پشتیبانی می کند که به طور خودکار نرخ نمونه برداری MPEG-2 یا MPEG-2.5 را به عنوان مناسب برای ضبط های گفتار انسانی که فقط به رزولوشن پهنای باند 5512 هرتز نیاز دارند ، انتخاب می کند.


استفاده ی عام


یک پیاده سازی نرم افزار شبیه سازی مرجع ، که به زبان C نوشته شده و بعداً با نام ISO 11172-5 شناخته شده است ، (در 1991-1996) توسط اعضای کمیته ISO MPEG Audio به منظور تولید فایلهای MPEG صوتی سازگار با بیت (لایه 1 ، لایه 2 ، لایه 3). به عنوان پیش نویس کمیته گزارش فنی ISO / IEC در مارس 1994 تصویب شد و در آوریل 1994 به عنوان سند CD 11172-5 چاپ شد. در نوامبر 1994 به عنوان پیش نویس گزارش فنی (DTR / DIS) تصویب شد [53] که در سال 1996 نهایی شد و به عنوان استاندارد بین المللی ISO / IEC TR 11172-5: 1998 در سال 1998 منتشر شد. بعداً این نرم افزار مرجع به زبان C به عنوان استاندارد ISO آزاد در دسترس قرار گرفت. با کار در زمان غیر واقعی روی تعدادی از سیستم عامل ها ، این نرم افزار قادر به نشان دادن اولین رمزگشایی سخت افزاری در زمان واقعی (مبتنی بر DSP) صدای فشرده شده بود. برخی دیگر از برنامه های رمزگذار و رمزگشای MPEG Audio در زمان واقعی برای پخش دیجیتال (رادیو DAB ، تلویزیون DVB) نسبت به گیرنده های مصرف کننده در دسترس بوده و جعبه های برتر را تنظیم می کنند.
در 7 ژوئیه 1994 ، انجمن Fraunhofer اولین رمزگذار نرم افزاری MP3 را به نام l3enc منتشر کرد. پسوند پرونده با استفاده از اولین نرم افزار بلادرنگ MP3 Player WinPlay3 (که در 9 سپتامبر 1995 منتشر شد) بسیاری از افراد قادر به رمزگذاری و پخش فایلهای MP3 در رایانه های شخصی خود بودند. به دلیل وجود هارددیسک های نسبتاً کوچک آن دوران (MB500–1000 مگابایت) فشرده سازی با ضرر برای ذخیره موسیقی با ارزش چندین آلبوم در رایانه خانگی به عنوان ضبط کامل ضروری است (در مقابل با علامت گذاری MIDI یا پرونده های ردیاب که با نت ترکیب می شوند) ضبط های کوتاه از سازهایی که نت های تک را پخش می کنند). همانطور که Jonathan Sterne دانشمند صدا گفت ، "یک هکر استرالیایی با استفاده از یک کارت اعتباری دزدیده شده l3enc را به دست آورد. سپس هکر با مهندسی معکوس این نرم افزار ، رابط کاربری جدیدی نوشت و مجدداً توزیع مجدد آن را انجام داد و نام آن راتشکر ازFraunhofer
  گذاشت.

پیاده سازی اجرای Fraunhofer

یک هکر به نام SoloH بلافاصله پس از انتشار در سرورهای دانشگاه ارلانگن ، کد منبع پیاده سازی مرجع MPEG "dist10" را کشف کرد. او نسخه ای با کیفیت بالاتر تولید کرد و آن را در اینترنت پخش کرد. این کد توزیع گسترده سی دی و پخش موسیقی دیجیتال را به صورت MP3 از طریق اینترنت آغاز کرد.

پراکنش اینترنت


در نیمه دوم دهه 1990 ، پرونده های MP3 در اینترنت ، اغلب از طریق شبکه های آهنگ دزدی دریایی زیرزمینی پخش شدند. اولین آزمایش شناخته شده در توزیع اینترنت در اوایل دهه 1990 توسط بایگانی موسیقی زیرزمینی اینترنت سازماندهی شد که با اختصار IUMA شناخته می شود. محبوبیت MP3 با ظهور پخش کننده صوتی Nullsoft وینامپ ، که در سال 1997 منتشر شد ، به سرعت افزایش می یابد. در سال 1998 ، اولین پخش کننده صوتی دیجیتال حالت جامد قابل حمل MPMan ، ساخته شده توسط Saean Information Systems که دفتر مرکزی آن در سئول کره جنوبی قرار دارد ، منتشر شد. و Rio PMP300 پس از آن در سال 1998 ، با وجود تلاش های قانونی سرکوب توسط RIAA فروخته شد. در نوامبر 1997 ، وب سایت mp3.com هزاران MP3 را که توسط هنرمندان مستقل ایجاد شده بود به صورت رایگان ارائه می داد. اندازه کم فایل های MP3 امکان به اشتراک گذاری گسترده فایل های نظیر به نظیر را برای موسیقی جدا شده از CD فراهم می کند ، که قبلاً تقریباً غیرممکن بود. اولین شبکه بزرگ اشتراک فایل از طریق نظیر به نظیر ، Napster ، در سال 1999 راه اندازی شد. سهولت ایجاد و به اشتراک گذاری MP3 منجر به نقض گسترده کپی رایت شد. شرکت های بزرگ ضبط کننده استدلال کردند که این اشتراک رایگان موسیقی باعث کاهش فروش می شود و آن را "موسیقی دزدی دریایی" می نامند. آنها با پیگیری پرونده های قضایی علیه ناپستر (که در نهایت تعطیل شد و بعداً فروخته شد) و همچنین علیه کاربران منفردی که به اشتراک گذاری پرونده پرداختند ، واکنش نشان دادند.
شتراک فایل غیر مجاز MP3 در شبکه های نسل بعدی همتا به همتا ادامه دارد. برخی از خدمات مجاز ، مانند Beatport ، Bleep ، Juno Records ، eMusic ، Zune Marketplace ، Walmart.com ، Rhapsody ، صنعت ضبط تصویب تجسم مجدد Napster را تأیید کرد و Amazon.com موسیقی بدون محدودیت را در قالب MP3 به فروش می رساند.