Интеграция распознавания речи по API. Speech to text AI. Инструкция по внедрению

Асинхронное распознавание

Автоматизация распознавания речи с использованием передовых технологий.

Асинхронное распознавание, подходит для распознавания аудиозаписей и видеозаписей.

Основные действия:
1. Загрузите файл для распознавания по протоколу HTTP в наше хранилище.
2. Запустите задачу на распознавание: в запросе передайте имя загруженного файла и параметры распознавания. В ответе придет распознанный текст.

Код загрузки файла:

curl https://yazapishu.ru/api/upload.php \

--header "Authorization: <api_token>" \

-F "upload=@<file_name>"

где:
api_token - уникальный идентификатор пользователя. Выдается после регистрации. Используется для авторизации.
file_name - имя вашего файла для распознавания(может содержать путь к вашему файлу).

Код запуска распознавания:

curl https://yazapishu.ru/api.php \

--header "Authorization: <api_token>" \

--header "Content-Type: application/json" \

--data '{

"audio_name": "<file_name>",

"language": "<language_cod>"

}'

Список дополнительных параметров:
file_name - имя загруженного файла для распознавания(только имя вашего файла с расширением. Пример: audio1.mp3).
"language": "<language_cod>" - язык распознавания
"speaker": "-l" - разделить текст на говорящих(спикеров)
"timecod": "yes" - указать таймкоды в тексте
"json": "yes" - получить данные в формате JSON

Доступные языки распознавания:
Русский - ru, Английский - en , Английский – Британский - en_uk, Английский – Американский - en_us, Английский – Австралийский - en_au, Испанский - es , Итальянский - it , Китайский - zh , Корейский - ko , Немецкий - de , Нидерландский - nl , Польский - pl , Португальский - pt , Турецкий - tr , Французский - fr , Финский - fi , Японский - ja
Пример параметра: "language": "ru"

Получение данных в формате Json

Код запуска распознавания:

curl https://yazapishu.ru/api.php \

--header "Authorization: <api_token>" \

--header "Content-Type: application/json" \

--data '{

"audio_name": "<file_name>",

"language": "<language_cod>",

"json": "yes"

}'

Результаты содержат распознанный текст целиком, разделение текста по параметрам и список распознанных слов.

В ответ придут данные в формате JSON, где:

Key	Type	Description
text	string	Расшифровка аудиофайла.
words	array	Массив, содержащий информацию о каждом слове
utterances	array	Массив, содержащий высказывания спикеров
utterances[i].speaker	string	Высказывание определенного спикера
words[i].text	string	Текст i-го слова в расшифровке
words[i].start	number	Начало произнесения этого слова в аудиофайле в миллисекундах.
words[i].end	number	Конец произнесения этого слова в аудиофайле, в миллисекундах.
words[i].confidence	number	Оценка достоверности для расшифровки i-го слова
words[i].speaker	string	Если включена функция «Разделение говорящих», то говорящий, произнесший i-е слово
status	string	Статус распознавания: completed или error
audio_duration	number	Продолжительность аудио
id	number	Идентификатор текущего распознавания

Запрос выполненных распознаваний по ID:

curl https://yazapishu.ru/api/api_request.php \

--header "Authorization: <api_token>" \

--header "Content-Type: application/json" \

--data '{

"id": "<id>"

}'

Пример выполнения распознавания в командной оболочке SHELL:

audio='myspeech.mp3'



curl https://yazapishu.ru/api/upload.php \

   --header "Authorization: 773fec3ac285bc7c9e9951ef7f7ddad8"  \

   -F "upload=@$audio"




text=$(curl https://yazapishu.ru/api.php \

--header "Authorization: 773fec3ac285bc7c9e9951ef7f7ddad8"  \

--header "Content-Type: application/json" \

--data '{

  "audio_name": "'$audio'",

"language": "ru",

"speaker": "-l",

"json": "yes"

}')




printf '%s\n' "$text"

Вы можете загрузить в систему аудио и видео файлы: mp3,wav,mp4,avi,aac,m4a, ac3,flac,ogg,wma,mov,flv,3gp,asf,wmv,mkv,webm.

Все результаты распознавания будут также доступны в вашем личном кабинете.

Вы можете запускать до 100 паралельныйх распознаваний.

API

Распознавание речи

Асинхронное распознавание

Получение данных в формате Json