KZ_Scriptur by Speech Lab

Scriptur by Speech Lab
Тәжірибе жүзінде сөйлесу үшін қазақ, орыс және қазақ-орыс аралас сөйлеу тілдерін тану.
Scriptur by Speech Lab — бұл Kazdream командасы жасаған және адамдардың өмірде сөйлеу мәнеріне үйретілген сөйлеу тілін тану моделі: тез, анық емес дикциямен, тілдерді жиі араластырып, сапасыз желі байланысын қолданумен. Модель қазақ және орыс сөйлеу тілдерімен жақсы жұмыс істейді, аралас сөз тіркестерін дұрыс таниды және тіпті телефон арқылы шулы әңгімелерінде де диалог логикасын сақтайды.
Метрикалар
Технологиялар
АРТЫҚШЫЛЫҚТАРЫ
Scriptur by Speech Lab распознает
әдеттегі сөйлеу жағдайларында қазақ, орыс және қазақ-орыс сөйлеу тілдерін таниды.
Тірі сөйлеуде тілдер үнемі араласады. Сөз тіркестері үзіледі, сөздер жұтылады, сұхбаттасушылар бір-бірінің сөзін бөледі. Адамдар ережелер туралы ойланбастан және технологияға бейімделусіз әдеттегідей сөйлейді.
Scriptur by Speech Lab дәл осындай әңгімелерге арналған. Модель сөйлеуді "түзетуге" немесе оны стандартты шеңберге қоюға тырыспайды —оның орнына нақты тілдік тәртіпке бейімделеді.
Code-switching
Қазақ-орыс сөйлеу тілдерін мазмұнды жоғалтусыз бір сөйлем ішінде дұрыс таниды
Диалог құрылымы
Сөйлесу логикасын және әдеттегі сөйлесу ағынын сақтайды
Нәтижесінде транскрипция машиналық журнал сияқты емес, қалыпты әңгіме сияқты көрінеді. Мәтінді қосымша өңдеусіз аналитика, оқыту немесе мұрағаттау үшін бірден пайдалануға болады.
Тірі деректерде оқыту
Модель негізінде - 10 000 сағаттан астам нақты сөйлесулерді талдау. Бұл кәсіби дикциясы бар студиялық жазбалар емес, олардың барлық ерекшеліктерімен нақты диалогтар:
Байланыс сапасы әртүрлі байланыс орталықтарының қоңыраулары
Қазақ тілінің әртүрлі екпіндері мен диалектілері
Нашар байланыс, фондық шу және телефондық компрессия
Эмоциялықсөйлеу, жылдамқарқын, кідірістер және толтырғыштар
Оқыту кезінде телефон желілеріне тән бұрмаланудың 42 түрі ескерілді. Сондықтан модель қиын жағдайларда — басқа жүйелер дәлдігін жоғалта бастайтын шарттарда тұрақты жұмыс істейді.
Жылдам әрекет және тұрақтылық
Егер жүйе жүктемені көтере алмаса немесе жауапты кешіктірсе, танудың жоғары дәлдігі пайдасыз болады. Scriptur by Speech Lab өнеркәсіптік пайдалану үшін жобаланған:
200
Секунд аудио - 1 секундта
Өнімділік қорымен нақты уақыт режимінде өңдеу
99.99%
Uptime
Жоғары жүктеме мен ең жоғары мәндердегі тұрақты жұмыс
Метрики
Негізгі сандар және оларды қалай оқуға болады
WER (Word Error Rate) — — бұл сөйлеу тілін тану қателіктерінің көрсеткіші. Ол толық жазылудағы сөздердің қанша бөлігі дұрыс танылмағанын көрсетеді. WER мәні неғұрлым төмен болса, модель соғұрлым дәлірек жұмыс істейді.
Нақты датасеттердегі нәтижелер
Біз Scriptur by Speech Lab-ты ең танымал ашық модельдердің бірімен салыстырдық— OpenAI ұсынатын Whisper Turbo. Тестілеу сөйлеу тілінің үш түрінде жүргізілді: таза қазақ, аралас қазақ-орыс және таза орыс. Барлық сынақтар дайындалған студия деректерін емес, нақты сөйлесу жазбаларын қолданды.

Бұл іс жүзінде нені білдіреді
Модельдер арасындағы WER айырмашылығы аз сан болып көрінуі мүмкін, бірақ нақты қолданыста бұл өте маңызды:
Қазақ тіліндегі мағынаның бұрмалануы айтарлықтай аз - 15 есе дәлірек
Тілдерді араластыру кезінде айтарлықтай тұрақты тану - 5 есе жақсы
Артық өңдеусіз оқылатын және талдауға жарамды транскрипттер
Тану нәтижелерін аналитика мен бизнес-процестерде тікелей пайдалану мүмкіндігі
Техникалық сипаттамалары
Оқыту деректері
белгілермен ~ 10 000 сағаттық нақты әңгімелер
Бұрмалау түрлері
Оқыту кезінде телефон аудиосының бұрмалануының 42 түрі ескерілді
Тілдік қолдау
Қазақ және орыс тілдеріне бағдармен 15 тіл
Ашып жазу
Cloud, on-premises, hybrid — сіздің таңдауыңыз бойынша
ҚОЛДАНУ
Іс жүзінде қалай көрінеді
Scriptur by Speech Lab тану дәлдігі мен қиын жағдайларға төзімділігі маңызды жерде қолданылады. Модель нашар дыбыспен, үзілістермен және аралас сөйлеумен бірдей сенімді жұмыс істейді — салаға және қолдану сценарийіне қарамастан.
Колл және байланыс орталықтары
Сапаны бақылау, операторларды оқыту және тұтынушылардың өтініштерін талдау үшін қоңырауларды автоматты түрде толық жазу. Нақты уақыт режимінде және мұрағаттық жазбалармен жұмыс істейді.
Банктер және қаржылық қызметтер
Телефон арқылы кеңес беруді тану және талдау, тәуекелдерді анықтау және реттеуші талаптарға сәйкестік. Деректерді бақылау үшін on-рremises қолдауы.
Мемлекеттік сенім телефондары
Азаматтардың өтініштерінің үлкен ағымын өңдеу, талдау және статистика үшін мәтіндік мұрағаттар құру, көптілді қолдау.
Медиа мұрағаттар және аналитика
Аудио және бейне мазмұнын индекстеу, субтитрлер жасау, сөйлеу арқылы іздеу. Әсіресе қазақ тілді контент үшін тиімді.
Білім беру платформалары
Дәрістер мен семинарларды автоматты түрде транскрипциялау, мәтіндік материалдар жасау, қазақ тіліндегі білім беру контенті бойынша іздеу.
Телемедицина және денсаулық сақтау
Консультацияларды құжаттау, медициналық жазбаларды жасау, емделушігеке бағытталған қызмет көрсету сапасын талдау.
технологиялар
Технологиялық негіз
Scriptur by Speech Lab қазақ тілі мен аралас сөйлеу ерекшеліктеріне бейімделген машиналық оқыту технологияларының заманауи қиылысында құрылған. Модель құрылымы бірнеше компонентті біріктіреді, олардың әрқайсысы өңдеу тізбегіндегі өз міндеттерін шешеді.
Бұл көп сатылы құрылым дыбыстық сигналдан максималды ақпарат алуға, сөйлеудің мәні мен құрылымын сақтауға, содан кейін нәтижені әрі қарай жұмыс істеуге ыңғайлы форматта ұсынуға мүмкіндік береді.
Conformer Encoder
Контекст пен уақытша тәуелділікті ескере отырып, дыбыстық сигналдан акустикалық белгілерді шығарады
Whisper-Turbo Decoder
Тіл құрылымы мен семантикасын сақтай отырып, белгілерді мәтінге түрлендіреді
LLM Post-processing
Оқуды жақсартады, айқын қателерді түзетеді, форматты қалыпқа келтіреді
Қосымша мүмкіндіктер
Құрылымдық қорытынды
Интеграцияға дайын мета-ақпаратпен JSON-формат
Domain Adaptation
Белгілі бір салаға немесе терминологияға қосымша білім алу мүмкіндігі
API Integration
Қолданыстағы жүйелерге интеграциялау үшін REST API және WebSocket
Batch Processing
Үлкен аудио жазба мұрағаттарын тиімді өңдеу
ЖОБА ТАРИХЫ
Аздап тарихтан
Speech Lab бойынша жұмыс қарапайым міндеттен басталды — қазақ тілін тануды шынымен сенімді ету. 2018 жылы нарықта телефон қоңыраулары жағдайында жанды қазақ тілімен тұрақты жұмыс істейтін шешімдер болмады.
Kazdream командасы нөлден бастады: жеке деректер жиынтығын жинады, мыңдаған сағаттық аудионы қолмен белгіледі, әр гипотезаны нақты қоңырауларда тексерді. Модельдің алғашқы нұсқалары жігерлендіретін нәтижелер көрсетті, бірақ команда өнеркәсіптік сапаға дейін модельді жетілдіруді жалғастырды.
Бүгінгі таңда Scriptur by Speech Lab қазақ тілінде 92% және орыс тілінде 95% дәлдікке қол жеткізді — бұл оны аймақтағы осы тілдер үшін ең жақсы модельдердің біріне айналдыратын нәтижелер.
1
2018 — Алғашқы эксперименттер
Деректерді жинау, негізгі ASR-тәсілдерді сынау, команда және жобаның пайымын құру
2
2019 — Алғашқы прототип
Қазақстандық компаниялармен пилоттық жобаларды іске қосу, кері байланыс жинау, датасетті кеңейту
3
2021 — Құрылымдық ауысу
Conformer құрылымына көшу, аралас сөйлеу жұмысын жақсарту, дәлдікті арттыру
4
2023 — Өнеркәсіптік сапа
Whisper және LLM-кейінгі өңдеу интеграциясы, еnterprise-тұрақтылық деңгейіне қол жеткізу
5
2025 — Масштабтау
Көрсеткіштердің барлық түрлерін жақсарту, ірі ұйымдарға орналастыруға дайындық, тілдік қолдауды кеңейту, on-premises нұсқалары
Уақыт өте келе құрылым Conformer және Whisper негізіндегі заманауи модельдерге ерте ASR-тәсілдерден дамыды. Әрбір итерация дәлдікті ғана емес, сондай-ақ адамдардың қалай сөйлейтінін түсінуді де жақсартты — үзілістермен, кідірістермен, эмоциялармен және тілдердің араласуымен.
Бүгін Speech Lab - бұл жаңа деректер мен пайдалану сценарийлері жинақталған сайын жетілдіруді жалғастыратын жетілген технология. Команда пайдаланушылардан үнемі кері байланыс жинайды, күрделі жағдайларды талдайды және модельдің мүмкіндіктерін кеңейтеді.
Scriptur by Speech Lab зертханасын неліктен таңдайды
Нарықта сөйлеу тілін танудың көптеген шешімдері бар— ірі бұлттық қызметтерден мамандандырылған модельдерге дейін. Speech Lab қазақ тіліне және нақты пайдалану сценарийлеріне назар аударады.
Қазақ тілі үшін үздік дәлдік
Нақты деректерге тәуелсіз тест нәтижелері бойынша қазақ тіліне арналған ең дәл ASR-модельдердің бірі
Code-switching норма ретінде
Контекст пен мағынасын жоғалтусыз аралас қазақ-орыс сөйлеу тілімен сенімді жұмыс
Шуға төзімділік
Шулы және қысылған телефон аудио жағдайында тұрақты тану
Ұшқыштан enterprise-ке дейін
Шағын сынақ жобаларынан өнеркәсіптік орналастыруларға дейін масштабтау
Деректерді бақылау
Құпия ақпаратты толық бақылау үшін on-рremises орналастыру мүмкіндігі
Жергілікті қолдау
Қазақстандық нарықтың ерекшелігін және тілдік жағдайды түсінетін әзірлеу және қолдау тобы
«Сөйлеу тілін тану технологиясын таңдау— бұл көрсеткіштердің дәлдігі туралы ғана емес. Бұл тілді, мәдениетті, қолданудың нақты контекстін түсіну туралы. Speech Lab-ты күн сайын осы тұрғыда өмір сүретін топпен құрылды.»
ҚЫЗЫҚ
Scriptur by Speech Lab туралы қызық фактілер
Технологияның артында жылдар бойы зерттеу, жүздеген эксперименттер және мыңдаған сағаттық жұмыс бар. Міне, модельдің қалай жасалғанын және оны ерекше ететін бірнеше фактілер.
1
Дикторлар емес, нақты әңгімелер
Оқыту деректерінің басым бөлігі - олардың барлық ерекшеліктерімен нақты диалогтардың жазбалары: кідірістер, толтырғыштар, үзілістер, эмоциялар. Мінсіз студиялық жазбаларсыз.
2
Бұрмалаудың 42 түрі
Модель телефон желілерінде кездесетін бұрмаланудың 42 түрін ескере отырып оқытылды: кодектерді қысудан жаңғырық пен фондық шуға дейін.
3
Code-switching норма ретінде
Тілдерді араластыру ерекшелік немесе қате ретінде қарастырылмайды — бұл жобалау кезеңіне енгізілген модельдің негізгі жұмыс режимі.
4
Қазақ тілі алғашқы нұсқалардан бастап
Құрылым қазақ тіліне сәйкес ең алғашқы нұсқалардан бастап оңтайландырылып, әмбебап модельден кейін бейімделмеген.
Датасетті дамыту
Жұмыс істеген жылдары команда қазақ тіліндегі ең ірі датасеттердің бірін жинады. Әрбір жаңа жазба оқу үлгісіне кірмес бұрын сапаны тексерудің бірнеше кезеңдерінен өтеді.
Датасет әр түрлі диалектілерді, жас топтарын, әлеуметтануларды және кәсіби жаргондарды қамтиды. Бұл модельге әр түрлі адамдардың сөйлеу тілімен сенімді жұмыс істеуге мүмкіндік береді.
Миссия
Тірі тілге арналған технологияларды жасау
Қазақ тілімен және күнделікті жанды сөйлеумен бірдей дәл жұмыс істейтін — нақты әңгімелерде, қоңырауларда және диалогтарда естілетін сөйлеуді тану технологияларын жасау.
Біздің мақсатымыз— қазақ тілі өзін цифрлық сервистерде мағынасын бұрмалаусыз және егжей-тегжейлерін жоғалтусыз әдеттегідей және сенімді сезінуі үшін. Технология тілге бейімделуі керек, керісінше емес.
Біз сөйлеуді сапалы тану - тек техникалық міндет емес деп сенеміз. Бұл тілді сақтау және дамыту, ақпараттың қолжетімділігі, мүмкіндіктердің теңдігі мәселесі.
Қазақ тілі цифрлық жүйелерде ағылшын немесе қытай тілдері сияқты жұмыс істегенде, бұл бизнес, білім беру, мемлекеттік қызметтер үшін жаңа мүмкіндіктер ашады.
Speech Lab — бұл біздің болашаққа қосқан үлесіміз, онда технология адамдарды технологияға бейімделуге мәжбүрлеудің орнына адамдардың тілдерінде сөйлейді.
Тілдік теңдік
Барлық тілдер бірдей сапалы технологиялық қолдауға лайық
Қолжетімділік
Технология қарым-қатынас тіліне қарамастан, барлығына қолжетімді болуы керек
Ымырасыз дәлдік
Танудың жоғары сапасы - артықшылық емес, барлық тілдер үшін стандарт
СЫН-ҚАТЕР
Нарыққа сын-қатер
Сөйлеу тілін танудың заманауи жүйелері, әдетте, әмбебап тілдік модельдер негізінде жасалады, содан кейін ондаған тілдерге ауқымдалады. Бұл даму экономикасы тұрғысынан ақылға қонымды тәсіл — бір үлкен модель құру және оны әртүрлі нарықтарға бейімдеу.
Бұл тәсіл стандартты және ресми сценарийлер үшін жақсы жұмыс істейді: дикторлық сөйлеу, дайындалған мәтіндер, бақыланатын жазу шарттары. Бірақ тірі сөйлеу барысында - жылдам қарқынмен, тілдердің араласуымен және жергілікті контексттің ерекшеліктерімен — дәлдік айтарлықтай төмендейді.
Әмбебап модельдер мәселесі
Кейіннен бейімдеумен ағылшын тіліндегі деректерде басым оқыту
Оқыту деректерінде аралас сөйлеу тілінің нақты мысалдарының болмауы
Нақты әңгімелер үшін емес, "таза" сөйлеу үшін оңтайландыру
Жергілікті айтылу ерекшеліктері мен диалектілерді елемеу
Speech Lab тәсілі
Бірінші күннен бастап қазақ тілінің ерекшеліктерін ескере отырып жобалау
Синтетикалық деректерде емес, нақты әңгімелерде үйрету
Кодты ауыстыру ерекшелік емес, негізгі жұмыс режимі ретінде
Жергілікті контекст: екпіндер, диалектілер, сөйлеу ерекшеліктері
"Әмбебаптық ерекшелікке сүйенгенге дейін жақсы. Қазақ тілі мен қазақстандық нарық үшін кейінгі өңдеуден емес, құрылым деңгейіндегі жергілікті контекстті түсінетін шешімдер қажет.»
Scriptur by Speech Lab бастапқыда осы мүмкіндіктерді ескере отырып жасалған және жергілікті деректерге, нақты әңгімелерге және тәжірибелік пайдалану сценарийлеріне сүйенеді. Бұл басқа біреудің технологиясын бейімдеу емес - бұл белгілі бір тіл мен нарық үшін жасалған технология.
Speech Lab by Kazdream
Тірі тіл үшін сөйлеу тілін тану
Адамдардың күнделікті өмірде қалай сөйлейтінін түсінетін технология.
Дәлдік
WER 0.18 қазақ тілінде
Жылдамдық
Секундына 200 секунд аудио
Сенімділік
production-ға 99.99% uptime
Speech Lab туралы көбірек білу, демонстрацияны сұрау салу немесе сіздің жобаңызға интеграцияны талқылау үшін Kazdream командасына хабарласыңыз.
ЖАЗУ
БАЙЛАНЫС
Бізге хабарласыңыз
Біздің командамыз сіздің сұрақтарыңызға жауап беруге, Speech Lab ASR демонстрациясын өткізуге немесе ынтымақтастық мүмкіндіктерін талқылауға дайын.
Жалпы сұрақтар және қолдау
Электрондық пошта: info@kazdream.kz


Біздің орналасқан жеріміз
Мекенжайы: Астана қаласы, Момышұлы көшесі, 2/1
Кеңсе ашық: Дс-Жм, 09:00 - 18:00
Біз жеке қарым-қатынасқа және ынтымақтастыққа әрдайым қуаныштымыз!