Диаризация (:ngjn[genx)

Диаризация (или разделение дикторов) — процесс разделения входящего аудиопотока на однородные сегменты в соответствии с принадлежностью аудиопотока тому или иному говорящему. Диаризация повышает качество текстов при автоматическом транскрибировании, а также может использоваться совместно с системой распознавания речи, значительно её улучшая. Диаризация используется для ответа на вопрос «Кто сейчас говорит?». Диаризация является сочетанием методов сегментации и кластеризации дикторов. Первый направлен на поиск точек смены диктора, второй — на группирование выделенных в речи диктора речевых сегментов.

Одним из популярных методов при диаризации является использование алгоритмов на основе гауссовых смесей для моделирования каждого из говорящих и закрепление выделенных фрагментов за каждым из дикторов с помощью скрытой марковской модели^[1].

Программное обеспечение

Программные средства для диаризации включают в себя^[2]:

ALIZE^[3]
LIUM_SpkDiarization^[4]
Audioseg — сегментация и классификация аудиопотоков^[5]
SHoUT^[6]
pyAudioAnalysis

Примечания

↑ Speaker Diarization: A Review of Recent Research Архивная копия от 4 января 2015 на Wayback Machine // icsi.berkeley.edu, 2012.
↑ Cultural and historical digital libraries dynamically mined from news archives Архивная копия от 5 марта 2016 на Wayback Machine D2.1: State of the Art, Project’s deliverable
↑ ALIZE Diarization System, University Of Avignon (неопр.). Дата обращения: 4 января 2015. Архивировано 4 января 2015 года.
↑ SpkDiarization (неопр.). Дата обращения: 11 сентября 2019. Архивировано из оригинала 28 января 2019 года.
↑ InriaForge: AudioSeg: Project Home (неопр.). Дата обращения: 4 января 2015. Архивировано 4 января 2015 года.
↑ SHoUT speech recognition toolkit (неопр.). Дата обращения: 4 января 2015. Архивировано 17 декабря 2014 года.

Литература

Будков В. Ю., Ронжин А. Л. Комбинированные методы диаризации речи дикторов. «Информационно-измерительные и управляющие системы» № 8, 2013.
Anguera, Xavier et al. Speaker diarization: A review of recent research // Audio, Speech, and Language Processing, IEEE Transactions on. — IEEE, 2012. — Vol. 20. — P. 356—370. — ISSN 1558-7916. — doi:10.1109/TASL.2011.2125954.
Beigi, Homayoon. Fundamentals of Speaker Recognition. — Springer, 2011. — 942 p. — ISBN 978-0-387-77591-3.

[1] Speaker Diarization: A Review of Recent Research Архивная копия от 4 января 2015 на Wayback Machine // icsi.berkeley.edu, 2012.

[2] Cultural and historical digital libraries dynamically mined from news archives Архивная копия от 5 марта 2016 на Wayback Machine D2.1: State of the Art, Project’s deliverable

[3] ALIZE Diarization System, University Of Avignon (неопр.). Дата обращения: 4 января 2015. Архивировано 4 января 2015 года.

[4] SpkDiarization (неопр.). Дата обращения: 11 сентября 2019. Архивировано из оригинала 28 января 2019 года.

[5] InriaForge: AudioSeg: Project Home (неопр.). Дата обращения: 4 января 2015. Архивировано 4 января 2015 года.

[6] SHoUT speech recognition toolkit (неопр.). Дата обращения: 4 января 2015. Архивировано 17 декабря 2014 года.

[1]

[2]

[3]

[4]

[5]

[6]