記事テンプレート
通話録音のデータ形式について
XM Discoverでは、CSV、Excel、JSON、またはWebVTT形式でトランスクリプト(音声会話のトランスクリプト)を呼び出すことができます。通話記録は、会話の参加者を特定し、各メッセージを参加者に属性付けする。
通常、通話トランスクリプトには、顧客と企業のエンティティ間の会話を表す、構造化および非構造化データフィールドが多数含まれています(たとえば、顧客と自動電話サービス間のトランスクリプト、または顧客とライブサポート担当者間の通話トランスクリプト)。構造化フィールドには、日付、数字、または高度に組織化されたテキストデータ(ブランド名、参加者名、製品名など)を含めることができる。非構造化フィールドには、メモ、コメント、その他自由記述のテキストフィールドが含まれます。
以下のフォーマットでコールをアップロードできます:
- CSV
- XLS または XLSx (Microsoft Excel)
- JSON
- ウェブヴイティーティー
通話録音のCSVおよびExcelフォーマット化
このセクションでは、CSVおよびExcelファイルの通話録音の書式設定について説明します。どちらのファイルタイプも書式と条件は同じです。
CSVおよびExcelファイルでは、通話記録は複数の行を使用して定義されます。ITの仕組みはこうだ:
- 各行には、参加者データおよびタイムスタンプとともに、会話の個々の行が含まれます。
- 別々の行は、同じ会話IDを共有することで、1つの会話にまとめられる。
- 会話全体のフィールド値(ドキュメント日付やカスタム属性など)は、会話の最初の行から取得されます。
要素 | 説明 |
conversationId
(必須) |
会話全体のユニークなID。同じIDを持つ各行は、1つの会話内で別々の行として扱われる。
このフィールドをnatural_id属性にマップすると、ドキュメントの Natural ID として使用できます。 |
会話タイムスタンプ
(必須) |
会話全体の日時。秒単位の精度でISO 8601フォーマットを使用する。
このフィールドをdocument_date属性にマッピングして、Document Dateとして使用することができます。 |
参加者ID
(必須) |
参加者のID。会話(文書)ごとにユニークでなければならない。 |
参加者タイプ
(必須) |
参加者のタイプ。可能な値:
これらの値は、レポートおよび参加者の図表のために、CB参加者タイプ属性に渡される。 未指定の場合、CB参加者タイプはレポート可能な値を持ちません。 |
is_ivr
(オプション) |
参加者がインタラクティブボイスレスポンス(IVR)ボットであるか、人であるかを示すブール値フィールド。
これらの値は、レポートと参加者の図表のために、CB Kind of Participant属性に渡される。 未指定の場合、参加者の種類は報告されない。 |
text
(必須) |
スピーチ原稿。
注意すべてのテキスト要素の合計が100,000文字を超えることはできません。その場合、ドキュメントはスキップされる。
|
開始
(必須) |
発話開始のタイミング(会話開始からの経過ミリ秒)。 |
終了
(必須) |
会話が終了したタイミング(会話開始からの経過ミリ秒)。 |
contentSegmentType
(必須) |
このパラメータはトランスクリプトのフォーマットを識別し、自然言語処理(NLP)エンジンがデータを正しく処理できるようにします。
可能な値:
|
カスタムフィールド
(オプション) |
会話に構造化属性を追加するために、複数のフィールドを提供することができます。 |
通話録音のJSONフォーマット
このセクションには、通話録音のJSONフォーマットが含まれています。
トップレベル・オブジェクト
次の表は、ドキュメント・ノードのトップレベル・オブジェクトについて説明したものです。
要素 | 説明 |
会話ID | 会話全体のユニークなID。
このフィールドをnatural_id属性にマップすると、ドキュメントの Natural ID として使用できます。 |
会話タイムスタンプ | 会話全体の日時。秒単位の精度でISO 8601フォーマットを使用する。
このフィールドをdocument_date属性にマッピングして、Document Dateとして使用することができます。 |
内容 | 会話の内容を含むオブジェクト。これらのネストされたオブジェクトを含む:
|
カスタムフィールド(属性) | 会話に構造化属性を追加するために、複数のキーと値のペアを提供することができます。 |
コンテンツオブジェクト
次の表は、コンテンツ・オブジェクトの内部に入れ子になっているオブジェクトについて説明したものである。
要素 | 説明 |
参加者 | 会話の参加者に関する情報を提供するオブジェクトの配列。これらのフィールドを含む:
|
会話内容 | 会話の行を含むオブジェクトの配列。これらのフィールドを含む:
|
contentSegmentType
(必須) |
このパラメータはトランスクリプトのフォーマットを識別し、自然言語処理(NLP)エンジンがデータを正しく処理できるようにします。
可能な値:
|
参加者 オブジェクト
以下の表は、参加者オブジェクトの中に入れ子になっているフィールドを説明している。
要素 | 説明 |
参加者ID
(必須) |
参加者のID。会話(文書)ごとにユニークでなければならない。 |
type
(必須) |
参加者のタイプ。可能な値:
これらの値は、レポートおよび参加者の図表のために、CB参加者タイプ属性に渡される。 未指定の場合、CB参加者タイプはレポート可能な値を持ちません。 |
is_ivr
(オプション) |
参加者がインタラクティブボイスレスポンス(IVR)ボットであるか、人であるかを示すブール値フィールド。
これらの値は、レポートと参加者の図表のために、CB Kind of Participant属性に渡される。 未指定の場合、参加者の種類は報告されない。 |
会話内容オブジェクト
以下の表は、conversationContentオブジェクトの中にネストされたフィールドを説明する。
要素 | 説明 |
参加者ID
(必須) |
発言している参加者のID。参加者配列で指定されたIDのいずれかと一致しなければならない。 |
text
(必須) |
スピーチ原稿。
注意すべてのテキスト要素の合計が100,000文字を超えることはできません。その場合、ドキュメントはスキップされる。
|
開始
(必須) |
発話開始のタイミング(会話開始からの経過ミリ秒)。 |
終了
(必須) |
会話が終了したタイミング(会話開始からの経過ミリ秒)。 |
例
{
"conversationId":"46289", "conversationTimestamp":"2020-07-30T10:15:45.000Z", "content":{ "参加者":[ { "participant_id":"1", "type":"AGENT", "is_ivr": false }, { "participant_id":"2", "type":"CLIENT", "is_ivr": false } ], "conversationContent":[ { "participant_id":"1", "text":"This is Emily, how may I help you?", "start": 22000, "end":32000 }, { "participant_id":"2", "text":"Hi, I have a couple of questions.", "start":32000, "end":42000 } ], "contentSegmentType":"TURN" }, "city":"Boston", "source":"Call Center" } ]。
通話録音のWebVTTフォーマット
WebVTTフォーマットを使用して通話記録をアップロードできます。
文書の日付は、ファイル名から自動的に取得されます。ドキュメントの日付を自動的に設定するには、ファイル名が以下の接頭辞で始まることを確認してください
<Timezone><YYYY><MM><DD>。
ファイル名が異なるフォーマットを使用している場合は、マッピングステップのDocument Dateフィールドに日付変換を適用する。詳しくは、「特定の文書の日付を設定する」をご覧ください。
例
以下は、WebVTTフォーマットによるZoom通話のトランスクリプトの例です。
WEBVTT
1
00:00:00.599 --> 00:00:02.280
ジョン・スミスです:
2
00:00:04.230 --> 00:00:05.339
John Smith: start sharing
3
00:00:12.809 --> 00:00:13.469
John Smith:
4
00:00:15.750 --> 00:00:18.119
ジョン・スミスです:
5
00:00:19.050 --> 00:00:28.890
Paul Jones:はい、見えます。