¿Qué es SIP (Session Initiation Protocol)?
El Protocolo de Inicio de Sesión (SIP, Session Initiation Protocol) es el estándar de señalización que establece, gestiona y finaliza sesiones de voz, vídeo y mensajería sobre redes IP. Definido en el RFC 3261 (2002), es el protocolo que hace posibles las llamadas VoIP, encargándose del intercambio de tono, descolgado y cuelgue. SIP no transporta el audio en sí; negocia la conexión y los medios fluyen por separado, normalmente como RTP.
El Protocolo de Inicio de Sesión (SIP) es el protocolo de señalización que establece, gestiona y finaliza sesiones de voz, vídeo y mensajería sobre redes IP. Estandarizado en el RFC 3261 en 2002, es la capa que hace posible una llamada moderna de VoIP: cuando un teléfono llama a otro por internet, SIP es el que gestiona el tono, el descolgado y el cuelgue. No transporta el audio en sí; negocia la conexión y, a continuación, los medios (normalmente RTP) fluyen por separado. SIP se ejecuta en el puerto 5060 sin cifrar, o en el 5061 sobre TLS; esa variante segura se denomina SIPS.
SIP, a veces llamado señalización SIP, es el lenguaje de control de la telefonía por internet. Piénselo como las instrucciones del sobre, no como la carta de dentro: indica a la red quién llama a quién, qué tipo de sesión desean y cómo encontrarse, pero la conversación real viaja por un flujo aparte. Esa separación es lo que hace a SIP tan flexible: el mismo protocolo puede establecer una llamada, una videoconferencia, una sesión de chat o una pantalla compartida, y el formato de los medios se negocia sobre la marcha.
Cómo funciona realmente SIP en una llamada
Cuando descuelga un teléfono SIP y marca, su terminal envía un mensaje INVITE a un servidor SIP, que lo enruta al destinatario. El teléfono del destinatario responde: primero con un 100 Trying, después 180 Ringing mientras suena y, finalmente, 200 OK una vez que se contesta. Su teléfono envía un ACK para confirmar y, en ese momento, la señalización ha cumplido su función. Los dos extremos conocen ahora la dirección IP del otro, el códec de audio acordado y a qué puerto enviar el audio. Los paquetes de voz empiezan a fluir como RTP, totalmente separados de los mensajes SIP.
Colgar es igual de estructurado: un extremo envía un BYE, el otro responde con 200 OK y la sesión termina. Toda esta conversación (INVITE, Ringing, OK, ACK, BYE) es lo que hace SIP. Todo lo demás (la calidad real de la voz, la grabación de la llamada, los tonos DTMF que pulsa la persona que llama) ocurre en una capa distinta.
Por qué SIP importa para los centros de contacto
BT desconectará las redes analógicas y RDSI del Reino Unido antes de enero de 2027, lo que significa que todos los centros de contacto que aún utilicen líneas heredadas tendrán que migrar. Casi todos están migrando a SIP, normalmente mediante SIP trunking, donde un proveedor entrega líneas telefónicas virtuales a través de su conexión a internet en lugar de cobre físico. Un centro de contacto moderno en la nube es, en esencia, una plataforma compatible con SIP con software de agente, gestión de colas e informes construidos sobre ella.
Esto importa para los pagos porque SIP es la capa donde se enrutan los tonos DTMF, los pitidos del teclado del autor de la llamada. SIP puede transportar el DTMF de dos formas: en banda (como tonos de audio reales dentro del flujo RTP) o fuera de banda (como mensajes SIP INFO o eventos telefónicos con nombre del RFC 4733). Saber qué método utiliza un centro de contacto es la primera pregunta que debe responder cualquier solución de enmascaramiento de DTMF, ya que la técnica de enmascaramiento es distinta en cada caso.
SIP, SBC y seguridad
La mayoría de los despliegues SIP empresariales se sitúan detrás de un Controlador de Borde de Sesión (SBC), que actúa como cortafuegos y gestor de tráfico para el tráfico SIP. Los SBC se ocupan de la parte engorrosa: la travesía de NAT, la traducción de códecs y la protección de la infraestructura SIP frente a ataques como las inundaciones de registro o el fraude tarifario. Además, suelen ser el punto donde se realiza el enmascaramiento de DTMF a nivel de red: el SBC intercepta el flujo RTP durante la captura de la tarjeta, sustituye los tonos del teclado por un tono plano para el agente y el grabador de llamadas, y reenvía los dígitos reales a la pasarela de pago.
Asegurar el propio SIP significa usar SIPS (SIP sobre TLS) para la señalización y SRTP para los medios. Sin ellos, un atacante decidido en la red puede leer los mensajes de señalización e incluso reconstruir el audio. Para los pagos telefónicos, eso obviamente no es aceptable, por lo que el SIP cifrado es la expectativa mínima en cualquier despliegue sujeto a PCI.
SIP frente al antiguo mundo de la PSTN
El protocolo al que SIP está sustituyendo (la PSTN heredada, con sus circuitos RDSI y su señalización asociada al canal) era un sistema cerrado controlado por las operadoras. SIP es un estándar abierto del IETF, razón por la que se extendió tan rápido. Cualquier teléfono, cualquier softphone, cualquier plataforma de centro de llamadas puede hablar SIP, y todos pueden interoperar. La contrapartida es la complejidad: SIP tiene decenas de tipos de mensajes, cientos de cabeceras y una larga lista de extensiones opcionales (solo el RFC 3261 tiene 269 páginas). La mayor parte de esa complejidad queda oculta para el usuario final, pero si está integrando una plataforma de pagos con un centro de contacto basado en SIP, pasará mucho tiempo leyendo RFC.
Paytia se conecta a la capa SIP de su plataforma de centro de contacto para ofrecer enmascaramiento de DTMF sin cambiar la forma de trabajar de sus agentes. Cuando una persona va a leer su tarjeta, el agente inicia una sesión de captura segura: en ese momento interceptamos el flujo RTP que transporta los tonos del teclado, los enmascaramos como un pitido plano para el agente y el grabador de llamadas, y enrutamos los dígitos reales directamente a la pasarela de pago a través de un canal cifrado.
Como la integración se produce en la capa SIP y de medios, no importa si utiliza un centro de contacto en la nube, una centralita IP local o un entorno híbrido. Damos soporte a SIP trunking, SBC y a las principales plataformas de centros de contacto, y gestionamos tanto el DTMF en banda como el del RFC 4733. El resultado es el mismo independientemente de la configuración subyacente: los datos de la tarjeta nunca llegan a los auriculares del agente ni al sistema de grabación de llamadas, lo que lleva a la mayoría de los centros de contacto de PCI DSS SAQ D a SAQ A.
Preguntas frecuentes
¿Es SIP lo mismo que VoIP?
No. VoIP es la categoría amplia de llamadas de voz por internet, mientras que SIP es un protocolo de señalización concreto utilizado para que VoIP funcione. Existen otros protocolos de señalización VoIP (H.323, IAX2, sistemas propietarios como el de Skype), pero SIP ha ganado la batalla de los estándares abiertos para la telefonía empresarial.
¿Cuál es la diferencia entre SIP y RTP?
SIP se encarga de la señalización: establece la llamada, gestiona el tono y el cuelgue. RTP transporta los paquetes de audio reales una vez conectada la llamada. Funcionan como flujos separados en puertos diferentes, por lo que se pueden hacer cosas como enmascarar los tonos DTMF en el flujo RTP sin tocar la señalización SIP.
¿Es SIP seguro?
El propio SIP envía la señalización en texto plano por defecto, por eso existen SIPS (SIP sobre TLS, puerto 5061) y SRTP para los medios. Cualquier despliegue moderno de centro de contacto que gestione pagos con tarjeta debería utilizar ambos: usar SIP sin cifrar en una red accesible para un atacante es un problema grave.
¿Qué puertos utiliza SIP?
SIP utiliza el puerto 5060 para la señalización sin cifrar y el 5061 para la cifrada con TLS (SIPS). Los flujos de medios RTP usan un rango distinto de puertos UDP negociados durante el intercambio SIP, normalmente entre el 10000 y el 20000 según la plataforma.
¿Cómo se relaciona SIP con DTMF y los pagos con tarjeta?
SIP transporta los tonos DTMF en banda como audio dentro del flujo RTP, o fuera de banda como mensajes SIP INFO o eventos con nombre del RFC 4733. Las soluciones de enmascaramiento de DTMF como la nuestra se conectan a las capas SIP y RTP para interceptar esos tonos durante la captura de la tarjeta, de modo que los dígitos del teclado nunca llegan al agente ni a la grabación de la llamada.
Ready to take secure payments?
Book a demo with our team. We'll show you DTMF masking live, talk through PCI DSS scope reduction, and put together pricing based on your call volume.
Trusted by law firms, insurers, healthcare providers and regulated businesses worldwide. Learn more about Paytia