Formatos de datos de transcripciones de llamada
Acerca de los formatos de datos de transcripciones de llamadas
XM Discover le permite llamar transcripciones (es decir, transcripciones de conversaciones de audio) a través de formato CSV, Excel, JSON o WebVTT. Las transcripciones de llamadas identifican a los participantes en una conversación y atribuyen cada mensaje a un participante.
Normalmente, las transcripciones de llamadas contienen una serie de campos de datos estructurados y no estructurados que representan una conversación entre un cliente y una entidad de su empresa (por ejemplo, la transcripción entre un cliente y su servicio telefónico automatizado, o la transcripción de la llamada entre un cliente y un representante de soporte en vivo). Los campos estructurados pueden contener fechas, números o datos de texto con un alto grado de organización (como nombres de marcas, nombres de participantes y productos). Los campos no estructurados contienen notas, comentarios y otros campos de texto libre.
Puede cargar la llamada a través de los siguientes formatos:
- CSV
- XLS o XLSX (Microsoft Excel)
- JSON
- WebVTT
Formato CSV y Excel para transcripciones de llamada
En esta sección se describe el formato de las transcripciones de llamadas para archivos CSV y Excel. El formato y los requisitos para ambos tipos de archivo son los mismos.
En los archivos CSV y Excel, las transcripciones de llamadas se definen utilizando varias filas. Así es como funciona:
- Cada fila contiene una línea individual de diálogo en una conversación junto con los datos del participante y un cronomarcador.
- Las filas separadas se enrollan en una única conversación compartiendo el mismo ID de conversación.
- Los valores de campo para toda la conversación (como Fecha de documento o atributos personalizados) se toman de la primera fila de la conversación.
Elemento | Descripción |
ID de conversación
(obligatorio) |
Un ID único para toda la conversación. Cada fila que tiene el mismo ID se trata como una línea separada dentro de una única conversación.
Puede asignar este campo al atributo natural_id para utilizarlo como el ID natural del documento. |
conversationTimestamp
(Obligatorio) |
La fecha y hora de toda la conversación. Utilice el formato ISO 8601 con precisión de segundos.
Puede asignar este campo al atributo document_date para utilizarlo como Fecha de documento. |
participantId
(obligatorio) |
El ID del participante. Debe ser único por conversación (documento). |
participantType
(obligatorio) |
El tipo de participante. Valores posibles:
Estos valores se transfieren al atributo Tipo de participante CB para la generación de informes y la visualización de participantes. Si no se especifica, el tipo de participante CB no tendrá ningún valor notificable. |
is_ivr
(Opcional) |
Un campo booleano que indica si un participante es un bot de respuesta de voz interactiva (IVR) o una persona.
Estos valores se transfieren al atributo CB Tipo de participante para la generación de informes y la visualización de participantes. Si no se especifica, la clase de participante CB no tendrá ningún valor notificable. |
texto
(obligatorio) |
Transcripción del discurso.
Atención: Una suma de todos los elementos de texto no puede superar los 100.000 caracteres. Si es así, se omite el documento.
|
inicio
(obligatorio) |
La hora de inicio del discurso (en milisegundos transcurridos desde el inicio de la conversación). |
fin
(obligatorio) |
El tiempo que termina el discurso (en milisegundos transcurridos desde el comienzo de la conversación). |
contentSegmentType
(obligatorio) |
Este parámetro identifica el formato de transcripción, que permite que el motor de procesamiento de lenguaje natural (NLP) procese los datos correctamente.
Valores posibles:
|
campos personalizados
(opcional) |
Puede proporcionar varios campos para añadir atributos estructurados a la conversación. |
Formato JSON para transcripciones de llamada
Esta sección contiene el formato JSON para las transcripciones de llamada.
Objetos de nivel superior
La siguiente tabla describe los objetos de nivel superior de un nodo de documento.
Elemento | Descripción |
ID de conversación | Un ID único para toda la conversación.
Puede asignar este campo al atributo natural_id para utilizarlo como el ID natural del documento. |
conversationTimestamp | La fecha y hora de toda la conversación. Utilice el formato ISO 8601 con precisión de segundos.
Puede asignar este campo al atributo document_date para utilizarlo como Fecha de documento. |
contenido | Un objeto que contiene el contenido de la conversación. Incluye estos objetos anidados:
|
campos personalizados (atributos) | Puede proporcionar varios pares clave-valor para añadir atributos estructurados a la conversación. |
Objeto de contenido
La siguiente tabla describe los objetos anidados dentro del objeto de contenido.
Elemento | Descripción |
participantes | Una matriz de objetos que proporciona información sobre los participantes de la conversación. Incluye estos campos:
|
conversationContent | Una matriz de objetos que contiene las líneas de la conversación. Incluye estos campos:
|
contentSegmentType
(obligatorio) |
Este parámetro identifica el formato de transcripción, que permite que el motor de procesamiento de lenguaje natural (NLP) procese los datos correctamente.
Valores posibles:
|
Objeto de participantes
La siguiente tabla describe los campos anidados dentro del objeto de participantes.
Elemento | Descripción |
participant_id
(obligatorio) |
El ID del participante. Debe ser único por conversación (documento). |
tipo
(obligatorio) |
El tipo de participante. Valores posibles:
Estos valores se transfieren al atributo Tipo de participante CB para la generación de informes y la visualización de participantes. Si no se especifica, el tipo de participante CB no tendrá ningún valor notificable. |
is_ivr
(Opcional) |
Un campo booleano que indica si un participante es un bot de respuesta de voz interactiva (IVR) o una persona.
Estos valores se transfieren al atributo CB Tipo de participante para la generación de informes y la visualización de participantes. Si no se especifica, la clase de participante CB no tendrá ningún valor notificable. |
Objeto conversationContent
La siguiente tabla describe los campos anidados dentro del objeto conversationContent.
Elemento | Descripción |
participant_id
(Obligatorio) |
El ID del participante que está hablando. Debe coincidir con uno de los ID proporcionados en la matriz de participantes. |
texto
(obligatorio) |
Transcripción del discurso.
Atención: Una suma de todos los elementos de texto no puede superar los 100.000 caracteres. Si es así, se omite el documento.
|
inicio
(obligatorio) |
La hora de inicio del discurso (en milisegundos transcurridos desde el inicio de la conversación). |
fin
(obligatorio) |
El tiempo que termina el discurso (en milisegundos transcurridos desde el comienzo de la conversación). |
Ejemplo
Este es un ejemplo de una transcripción de llamada entre un agente y un cliente.
[
{
"conversationId": "46289",
"conversationTimestamp": "2020-07-30T10:15:45.000Z",
"content": {
"participants": [
{
"participant_id":
"conversantENT",texto "
" "i" "isation_id":
"conversantENT": "AGENT",
texto "i" "isation_id":
"conversantENT": "AGENT",
texto "i" "isation_id",
"start": 22000,
"end": 32000
},
{
"participant_id": "2",
"text": "Hola, tengo un par de preguntas.",
"start": 32000,
"end": 42000
}
],
"contentSegmentType": "TUR] N"
},
"city": "source" "
Boston",
Formato WebVTT para transcripciones de llamada
Puede cargar transcripciones de llamada utilizando el formato WebVTT.
La Fecha de documento se toma automáticamente del nombre del archivo, si está disponible. Para fijar la fecha de documento automáticamente, asegúrese de que el nombre del archivo empiece con el siguiente prefijo
<Timezone><YYYY><MM><DD>:
Si los nombres de archivo utilizan un formato diferente, aplique una transformación de fecha al campo Fecha de documento en el paso de asignaciones. Para obtener más detalles, consulte Fijar una fecha de documento específica.
Ejemplo
Este es un ejemplo de una transcripción de llamada de Zoom en formato WebVTT.
WEBVTT
1
00:00:00.599 --> 00:00:02.280
John Smith: Alright so let me
2
00:00:04.230 --> 00:00:00&00&00&00&00&00&00&00 12.809 ->:13.t:13:
69