Die technische Grundlage von Voice over IP ist neben den verschiedensten Transportprotokollen auch die unabdingbare Umsetzung analoger Signale in digitale Signale und umgekehrt. Dabei kommen der DAU und der ADC in den Geräten gleichzeitig zum Einsatz. Der ADC alias Analog Digital Umsetzer bekommt Arbeit, wenn der Anrufer in ein analoges Telefon spricht, von dem aus Gesprächsdaten über das Internet übermittelt werden sollen. Der DAU alias Digital Analog Umsetzer ist für die Entgegennahme und Umwandlung der aus dem Internet ankommenden Daten verantwortlich. Ohne das Zusammenspiel der beiden wäre Voice over IP undenkbar. Im Ergebnis dieser Umwandlung entsteht ein Datenstrom, der allerdings die Kapazitäten der Netze schnell erschöpfen würde, wenn man sie nicht speziellen Codecs verarbeiten und dadurch in der Menge reduzieren würde.
Für die Übertragung von Sprache können verschiedene Codecs eingesetzt werden. Als besonders günstige Lösung erweist es sich immer wieder, wenn man dabei auf die eigens dafür entwickelten Standards der Internationalen Fernmeldeunion zurück greift. Sie haben den Vorteil, dass sie weltweit anerkannt werden und damit die höchste Kompatibilität zu den verschiedensten Netzwerken und Endgeräten erzielt werden kann. Darüber hinaus stehen noch die auf dieser Grundlage entwickelten Codecs AMBE, AMR, CELP und GSM zur Verfügung. AMBE alias Advanced Multi Band Excitation arbeitet mit Nutzdatenraten zwischen 2.000 und 9.600 Bits pro Sekunde und füllt durch Datenverluste entstandene Lücken selbsttätig auf. Die einzelnen Datenblöcke umfassen jeweils 20 Millisekunden. AMR = Adaptive Multirate Codec gilt derzeit als der stabilste Weg, Sprachdaten für den Transport kodieren zu können. Derzeit arbeiten die Programmierer an Möglichkeiten, durch eine Ausweitung der genutzten Bandbreite, nicht nur die Sprache, sondern auch die im Umfeld entstehenden Nebengeräusche sauber übertragen zu können.
So besitzt jeder Codec ein paar Eigenheiten. Idealerweise verfügen die Endgeräte über geeignete Software die Möglichkeit, alle eingehenden Codecs entschlüsseln zu können. Dabei muss auch berücksichtigt werden, dass einige Codecs die erzeugten Daten zusätzlich komprimieren. Im Allgemeinen funktioniert das ähnlich wie bei MP 3, bei dem bekannt ist, dass die Frequenzen, von denen man weiß, dass sie der Durchschnittsmensch sowieso nicht wahrnehmen kann, einfach weggeschnitten werden. Während das bei der Wiedergabe von Musik über professionelle Großanlagen oftmals als qualitative Einschränkung zu spüren ist, kommt das bei der Übertragung von Sprache kaum zum Tragen.
Die meisten Voice over IP Codecs setzen auf die Geschwindigkeit des Datenaustauschs. Bei der Echtzeittelefonie im Vollduplexverfahren würden Neuanforderungen von fehlerhaft gelieferten Datenpaketen eine zu große Latenz, sprich Verzögerung, bedeuten, die zu deutlich spürbareren Einschränkungen führen würden, als das der Fall ist, wenn fehlende Datenpakete mit einem Mittelwert aus den benachbarten Paketen oder alternativ mit einem Komfortrauschen aufgefüllt werden. Um ein einzelnes fehlendes Datenpaket überhaupt wahrnehmen zu können, müsste sich der Mensch ausschließlich auf die Erkennung dieser nur Millisekunden dauernden Lücke konzentrieren und bei Telefonaten ist das praktisch nie der Fall. Bei der Software zur Dekodierung werden fehlerhafte Datenpakete durch Sichtung der mitgeschickten Prüfsumme erkannt. Komplett fehlende Pakete erkennt die Software an der Überschreitung der Intervalle, die im Normalfall zwischen den einzelnen Paketen liegen.