API транскрибации: интеграция распознавания речи и субтитров

Распознавание речи через API

Сервис обрабатывает файлы в асинхронном режиме — вы загружаете аудио, запускаете задачу и получаете результат в удобном формате.

Пример запроса на загрузку и распознавание:

curl https://yazapishu.ru/upload_and_transcribe.php \
--header "Authorization: <API token>" \
-F "upload=@<file_name>" \
-F "language=<language_code>" \
-F "json=yes"

Дополнительные параметры:

file_name — имя загруженного файла (например: audio1.mp3)
language — язык распознавания (см. список ниже)
speaker — "-l" для разделения по говорящим
timecod — "yes", если нужны таймкоды
json — "yes" для получения JSON-ответа

Доступные языки распознавания:

ru, en, en_uk, en_us, en_au, es, it, zh, ko, de, nl, pl, pt, tr, fr, fi, ja

Пример параметра:

"language": "ru"

Формат JSON-ответа:

Ответ содержит полный текст, информацию по словам и высказываниям спикеров.

Поле	Тип	Описание
text	string	Распознанный текст
words	array	Информация по каждому слову
utterances	array	Высказывания отдельных спикеров
utterances[i].speaker	string	Идентификатор говорящего
words[i].text	string	Слово
words[i].start	number	Начало (мс)
words[i].end	number	Конец (мс)
words[i].confidence	number	Уверенность
words[i].speaker	string	Спикер (если включено)
status	string	Статус (completed или error)
audio_duration	number	Длительность аудио
id	number	ID распознавания

Запрос по ID распознавания:

curl https://yazapishu.ru/api/api_request.php \
--header "Authorization: <api_token>" \
--header "Content-Type: application/json" \
--data '{
  "id": "<id>"
}'

Пример в SHELL:

audio='test.mp3'

text=$(curl https://yazapishu.ru/upload_and_transcribe.php \
  --header "Authorization: 773fec3ac25bc87c9e5951ef7f7ddad8" \
  -F "upload=@$audio" \
  -F "language=ru" \
  -F "timecod=yes" \
  -F "json=yes")

printf '%s\n' "$text"

Пример на Python:


import requests

audio_file = 'test.mp3'
url = 'https://yazapishu.ru/upload_and_transcribe.php'
headers = {
    'Authorization': '773fec3ac25bc87c9e5951ef7f7ddad8'
}
files = {
    'upload': open(audio_file, 'rb')
}
data = {
    'language': 'ru',
    'timecod': 'yes',
    'json': 'yes'
}

response = requests.post(url, headers=headers, files=files, data=data)

if response.ok:
    print(response.text)
else:
    print(f'Ошибка: {response.status_code} — {response.text}')

Поддерживаемые форматы

mp3, wav, mp4, avi, aac, m4a, ac3, flac, ogg, wma, mov, flv, 3gp, asf, wmv, mkv, webm

Параллельные задачи

Возможен запуск до 100 параллельных распознаваний.

Стоимость

Текущая цена расшифровки — до 60 копеек за минуту.
Стоимость зависит от объёмов распознавания.