AbstractPurpose The purpose of this study is to examine recent research trends regarding automatic speech recognition (ASR), which is used in the evaluation and intervention of speech disorders.
Methods Through a search engine, articles published in domestic journals were searched. A total of 27 papers were selected from the searched documents and analyzed according to the year, research subject, speech task, and ASR system.
Results The years with the most research was done in 2019~2021. The subjects who most frequently underwent speech evaluation and treatment using ASR system were those with dysarthria. The speech production tasks used to utilize ASR were at the word and sentence level, and commercialized and non-commercialized ASR systems were used similarly.
INTRODUCTION자동음성인식(automatic speech recognition, ASR) 시스템은 인공 지능(artificial intelligence, AI)과 자연어 처리 기술을 활용하여 인간의 음성을 텍스트로 변환하는 기술이다. 과학의 발전으로 최근 자동음성인식 시스템은 눈에 띄는 발전을 보이면서 다양한 방면에 자동음성인식 기술이 사용되고 있다. 2010년대부터 딥러닝 기술이 발전하여 음성 인식의 정확도가 획기적으로 향상되었다. 2015년부터는 음향 모델, 발음 사전, 언어 모델을 하나의 딥러닝 모델로 표현하는 종단간(end-to-end) 모델이 등장하여 주목받고 있다(Son et al. 2024). 그러나 현재 국내외 서비스 중인 자동음성인식 시스템의 음성데이터 대부분은 성인 남녀 음성을 중심으로 엔진을 개발하고 있으며, 발음이 정확한 화자들을 기준으로 데이터셋이 구성되어 있으므로(Mun et al, 2023), 아동기, 노년기에 있는 사람들이나 의사소통에 장애를 가진 사람들은 정상 성인 화자와는 다른 음성 특징을 가지고 있어 자동음성인식을 사용하는 데 한계가 있을 수밖에 없다. 그 한계를 극복하기 위해서는 아동, 노인이나 의사소통장애를 가진 화자들의 음성 데이터를 충분히 확보하여 그들에게 맞는 자동 음성인식 시스템을 구축하는 것이 필요하다.
말장애 대상자의 평가는 화자의 구조적인 문제에 대한 구강조음기관 검사와 호흡, 발성 및 조음에 대한 평가로 이루어진다. 청자가 화자의 말을 알아듣는 과정에서 가장 핵심적인 요소는 말 명료도 평가이다. 말 명료도는 청자가 청지각적으로 측정하는 방식이므로 주관적인 평가이다 보니 화자나 청자의 여러 요인에 의해 영향을 받게 되어 검사의 신뢰도 확보에 어려움 있다. 주관적인 청지각적 평가에 대한 객관적인 근거를 뒷받침하기 위해 이전에는 음향학적인 수치들이 주로 사용되었지만 최근 ASR 시스템의 발달로 말장애 평가와 치료에 활용되고 있다. 화자의 음성 인식 정확도를 수치화하고 중증도를 파악하는 평가 및 진단에 도움을 줄 수 있으며 의사소통장애를 가진 대상자에게 치료 과정에서 ASR 시스템이 피드백으로 작용하여 환자 스스로 연습할 수 있는 기회를 제공하기도 하고 중재 진전 정도를 수치화하여 중재 효과를 파악하여 대상자의 동기 부여에도 긍정적인 작용을 할 수 있다. 아직 중증도가 심한 말장애에 대한 ASR 인식 정도는 낮은 편이지만 말장애에 대한 ASR 시스템에 대한 인식 정도를 명확하게 이해함으로써 이를 사람의 청지각적 평가와 비교해서 말장애 대상자들에게 평가 및 치료 도구로 적합한지에 대해 알아볼 필요가 있다.
국외에서는 실어증, 말소리장애, 청각장애, 마비말장애, 언어발달장애 등 다양한 의사소통장애를 가진 화자들의 음성 데이터를 확보하고 딥러닝 기술을 이용하여 의사소통장애 화자들의 음성인식 정확도를 높이기 위한 공학적인 연구들이 활발이 이루어지고 있으며(Mengistu & Rudzicz, 2011; Vachhani et al., 2018), 이를 평가나 치료에 적용하는 연구들도 많아지고 있다. 국내에서도 마비말장애 및 아동언어장애를 대상으로 ASR 시스템을 활용한 연구가 이루어지고는 있으나(Hwang et al., 2011; Park & Yim, 2021) 주로 ASR 시스템을 개발하는 컴퓨터 공학 관련 연구들이 주를 이루고 있어 의사소통장애를 중심으로 ASR을 활용한 평가 및 중재 연구는 매우 부족한 실정이다(Bae et al., 2015).
ASR 시스템의 성능과 정확도는 시스템적인 요소에 따라 차이를 보일 수 있는데, Mustafa et al.(2015)에 따르면 주로 두 가지 주요 구성 요소에 의해 영향을 받는다고 하였다. 첫 번째 요소는 특징 추출 프로세스로 음성 입력을 분석하여 주요 특성을 식별하는 과정을 포함하며 화자의 특성, 언어학적 단위, 어휘 크기, 발음과 억양, 환경적인 조건에 따라 영향을 받게 된다. 기존의 연구들에 따르면, 연령에 대해서는 청년층 발화의 ASR 정확도가 노년층에 비해 높았으며(Dimauro et al., 2017), 말장애 중증도에 대해서는 말장애 정도가 심할수록 ASR 정확도가 저하되는 경향을 보였다(Gutz, 2022; Jefferson, 2019). 발화 길이에 따라서는 긴 발화보다 짧은 발화에서 정확도가 높아지는 경향을 보였으며(Calvo et al., 2021; Moya-Galé et al., 2022), 환경적으로 주변 소음이 있으면 ASR 시스템의 성능이나 정확도는 저하되었다(Moya-Galé et al., 2022).
또다른 구성 요소는 시스템이 학습되는 방식으로, 이는 화자 의존(speaker dependent)과 화자 독립(speaker independent), 화자 적응(speaker adaptive) 방식으로 분류할 수 있다. 화자 독립 방식은 특성 사용자에 맞게 훈련된 시스템으로 사용자에 특화된 데이터로 훈련되어 정확도가 비교적 높다. 화자 독립 방식은 다양한 사용자의 음성을 인식할 수 있도록 훈련되어 어떤 사용자가 사용하더라도 별도의 훈련 과정 없이 사용할 수 있으며 화자 적응 방식은 화자 독립 방식을 사용하지만 특정 사용자의 음성에 맞게 사용자 특성에 적응하여 인식할 수 있도록 하여 사용자가 시스템을 사용할수록 성능이 향상되는 방식이다.
ASR 시스템은 어떤 알고리즘과 어떤 데이터를 가지고 학습했느냐에 따라 다른 특징을 가진다고 할 수 있다(Yoo et al., 2020). 누구나 접근 가능한 상업용(commercial) 시스템과 대상과 목적에 적합한 방식으로 접근하는 비상업용(non-commercial) 시스템으로 나눌 수 있다. 국외에서 많이 사용되고 있는 Commercial 시스템은 Google Cloud (Google home, Mountain View, CA, USA), IBM Watson (IBM, Armonk, NY, USA), Amazon Transcribe (Amazon, Seattle, WA, USA), Microsoft Azure (Microsoft, Redmond, WA, USA) 등이 있고, 국내에서는 Naver (Naver, Seongnam, Korea), Kakao (Kakao, Seoul, Korea) 등이 많이 사용되고 있다. Non-commercial 시스템은 음성 인식의 처리 방법에 따라 전통적 방식과 딥러닝 기반의 두 가지 방식으로 나뉘는데, 전통적 방식인 hidden markov model (HMM), gaussian mixture model (GMM)은 간단하고 소규모 데이터셋에서 효과적이지만 계산 복잡도가 높고 대규모 데이터셋에서는 성능이 저하되는 반면, 딥러닝 기반 모델인 deep neural network (DNN), recurrent neural networks, convolutional neural networks 및 end-to-end ASR은 높은 정확도와 성능을 제공하지만, 많은 계산 자원과 데이터를 필요로 한다. Commercial ASR 시스템은 대부분 화자 독립 방식을 주로 사용하는데(Jaddoh et al., 2023), 이는 접근성이 좋고 사용이 편리하고 정상 성인들의 말소리 인식 능력은 높은 편이지만 아동이나 노인, 말장애를 가진 사람들의 말에 대한 정확도는 저하된다. 그리하여 일부 연구자들은 대상자의 특성이나 연구 목적에 따라 non-commercial ASR 시스템을 선택하여 적용하기도 하였다.
ASR 시스템이 의사소통장애 화자들을 대상으로 한 평가에 사용된 연구들이 많으나 점차 중재에도 ASR 시스템이 활용한 연구들이 늘어나고 있는 추세이다. 의사소통장애에 대한 치료는 가정에서의 훈련이 중요한데 ASR 시스템을 활용하면 가정에서 편안하게 집중적인 치료가 가능하게 하는 것이 장점으로 작용한다. 말장애 치료에 있어서는 대상자가 목표음을 말하게 하고 ASR 시스템을 통해 정반응 여부를 체크하여 연습하게 함으로써 중재에 사용될 수도 있고 중재 전후의 상태를 비교하여 훈련 효과를 점검할 수 있는 수단으로도 활용할 수 있다.
ASR을 대상자의 말평가 및 치료에 대한 임상 도구로 사용하기 위해서는 그 사용에 대한 검증이 필요하다. 사람이 측정하는 청지각적 평가와 비슷한 수준의 신뢰성을 충족하기 위해서는 치료에 있어서 화자가 어떤 방식으로 발화를 해야 ASR 정확성이 높아지는지에 대한 정보를 가지고 이를 양적으로 측정하여 분석적인 자료와 근거들을 가지고 특정 대상자에 대한 ASR 성능을 지각적, 정량적으로 평가를 해야 할 필요가 있다(Gutz, 2022). 본 연구를 통해 현재 자동음성인식 시스템이 말장애에 사용되는 상황에 대한 개요와 지금까지의 1) ASR을 말장애 평가와 치료에 어떻게 사용되고 있는지, 2) ASR 시스템을 사용하고 있는 말장애 대상이 누구인지, 3) 말장애 평가나 치료에 사용하고 있는 ASR 시스템이 무엇인지, 4) 말평가 및 치료에 사용되는 말산출 과제 단위가 무엇인지 등을 중심으로 및 ASR 정확성과 지속적인 사용 방안에 대해 논의를 통해 이를 실제 임상에서 어떻게 활용할 수 있을지와 향후 개발에 대한 요구 사항 등을 살펴보고자 하였다.
MATERIALS AND METHODS문헌 선정최근까지 이루어진 말장애 화자의 연구 동향을 분석하기 위해 최종 검색일인 2024년 7월을 기준으로 해당 장애군에 대해 2010년~2024년 6월 31일 사이에 발간된 관련 문헌들을 검색하여 선정하였다. 생명과학, 공학, 자연과학 및 기술에 이르는 다양한 연구 분야에서 포괄적이고 신뢰성 있는 자료를 확보하고자 “PubMed”, “IEEE Xplore”, “Google Scholar”, “Science Direct”을 검색 데이터베이스를 사용하였다. 문헌 검색 시 핵심어는 자동음성인식과 말장애로 핵심 검색어는 “Automatic speech recognition”, “Artificial Intelligence Speaker”, “AI speakers”, “speech therapy”, “speech evaluation” & “speech disorders”, “speech impairment”로 하였고 말소리 장애의 구조적 원인과 관련된 검색 용어 “hearing loss”, “cleft palate”, “Apraxia”, “dysarthria”까지 포함하였다. 문헌에 포함된 연구들 간에 말장애로 제한하였지만 다양한 원인에 의한 말장애 대상자군이 포함되어 화자들의 특성이 다양하고 ASR을 활용한 평가와 치료에 대한 연구를 모두 포함시킴으로써 평가 방법이나 중재 방법에 차이가 커서 연구들 간의 이질성이 크므로 메타 분석 결과의 신뢰성이 저하될 수 있으므로 체계적 리뷰를 통해 연구 결과들을 비교하여 종합하는 것이 향후 연구의 방향성을 제시하는데 더 효과적이다.
검색된 9,180편의 문헌에서 다음과 같은 단계를 거쳐 제외하였다. 첫째, 중복된 문헌은 제외하였다. 둘째, 2010년 이전의 연구와 한국어 혹은 영어로 작성되지 않은 문헌은 제외하였다. 셋째, 제목과 초록을 통해 말소리장애의 자동음성인식과 관련이 없는 논문은 제외하였다. 넷째, full text를 확인할 수 없는 논문은 제외하였다. 다섯째, 본 연구는 자동음성인식을 활용한 말 평가와 치료를 살펴보기 위한 논문이므로 공학적인 자동인식 시스템과 관련된 경우는 제외하였다. 여섯째, 말소리장애와 직접적으로 관련이 없는 언어장애, 유창성장애, 읽기장애 대상자에 대한 음성인식 활용 연구는 제외하였다. 일곱째, 단일 사례를 보고하는 형식으로 작성된 사례 연구와 문헌 연구는 제외하였다.
말장애를 가진 화자를 대상으로 하여 ASR 시스템이 적용된 연구를 중심으로 하였으며, 말장애 평가에서는 ASR 알고리즘이 사람의 청지각적 판단과 비교하여 정확성에 대한 정량적 데이터를 제공하고, 말장애 치료에 있어서는 상호작용적이고 게임 기반의 자극 제시를 제공하면서 치료 효과나 발음 명료도, 단어 정확성 또는 발음 정확성의 변화에 대한 데이터를 제공하는 연구들을 포함하였다. 그리하여 최종적으로 선정된 논문은 27편이었다(Figure 1).
문헌 분석 절차 및 방법자동음성인식을 활용한 말장애 평가와 치료 연구 동향을 살펴보기 위해 최종적으로 27편의 문헌을 연도별, 연구 대상별, 말산출 과제별, 자동음성인식 시스템별로 나누어 분석하였다.
첫째, 연도별 분석의 경우 2010년부터 2024년까지의 논문을 3년 단위로 나누어 연구가 이루어진 연구 편수를 분석하였다. 둘째, 연구 대상별 분석의 경우, 장애 유형과 장애 중증도로 구분하여 연령과 대상자 수를 확인하였고 장애군과 대조군으로 정상 화자의 발화와 비교 여부를 확인하였다. 두 가지 이상의 말장애 유형은 중복하여 계수하지 않고 따로 항목을 구분하여 분석하였고 특정 말장애 유형을 밝히지 않고 다양한 말장애군을 대상으로 한 연구들은 기타 항목으로 분류하였다. 셋째, 말산출 과제별 분석의 경우, 과제별로 연구에서 활용된 말산출 단위를 세부적으로 살펴보았다. 문헌에서 두 가지 이상의 영역에서 말산출 단위를 분석하는 경우 가장 많이 사용되었던 단어와 문장 조합은 따로 계수하였고, 다른 산출 단위의 조합은 기타로 분류하여 분석하였다. 넷째, 자동음성인식 시스템별 분석의 경우, 우선 non-commercial ASR 시스템과 commercial ASR 시스템의 두항목으로 나누었고, 각 항목별로 사용된 기술이나 회사를 분류하여 계수하였다. 하나의 연구 안에서 두 가지 이상의 ASR 시스템을 사용한 연구는 시스템별로 중복하여 계수되었기에 실제 분석 논문 편수보다 더 많이 집계되어 연구 편수와 최종 문헌 편수에 차이가 있을 수 있다.
RESULTS연도별 분석연도별 분석은 출판된 년도에 따라 2010년 이후 3년 단위로 분석하였고, 보고된 편수는 Figure 2와 같다. 총 27편 중 2019~2021년에 10편으로 가장 많이 보고되었고 2013~2015년에는 1편만 보고되었다.
연구 대상별 분석먼저 연령에 따라 아동과 성인으로 구분하였을 때, 성인 20편, 아동은 7편으로 아동을 대상으로 한 연구보다 성인을 대상으로 한 연구가 더 많았다. 장애 유형에 따라 분석하였을 때, 마비말장애를 대상으로 한 연구가 15편으로 가장 많았으며 마비말장애를 다양한 원인과 유형으로 나누었을 때 Parkinson’ disease에 대한 연구가 4편으로 많았다. 마비말장애 다음으로 많은 연구 대상은 말소리장애 아동(4편), 말실행증(3편), 구개열, 청각장애가 각각 1편씩이었으며 여러 말장애군을 대상으로 한 연구가 4편이었다(Figure 3).
27편 중 11편은 말장애 대상과 함께 정상 대조군의 발화를 연구에 포함시켜 자동음성인식의 정확도를 비교하였다.
말산출 과제별 분석연구에서 말장애 평가나 치료에서 자동음성인식을 활용할 때 사용한 말산출 과제의 단위를 분석하였다. ASR을 활용하기 위해 사용된 과제는 단어와 문장 수준이 각각 9편으로 가장 높게 나타났으며, 문단을 사용한 연구가 2편, 단어와 문장을 같이 사용해서 비교한 연구가 3편이었고, 대화 과제를 사용한 연구는 Tobin et al.(2024)의 연구에서만 사용되었다. 그 외에 사용된 과제로는 무의미 단어 읽기, 그림 설명하기, 대화하기 과제 등의 과제를 같이 사용하여 과제나 언어학적 단위에 따른 자동음성인식 능력을 비교한 연구들도 3편 있었다(Figure 4).
단어는 24~300개, 문장은 5~50개 등 사용된 단어나 문장의 수는 연구마다 차이가 컸다. 일부 연구들에서는 사용된 낱말이나 문장의 수를 밝히지 않은 경우도 있었다. 말장애 평가에서는 다양한 과제들이 사용되었으나 ASR을 사용한 치료 체계에서는 모두 단어 수준의 과제를 사용하여 치료 전후의 수행을 비교하였다.
ASR 시스템별 분석ASR 시스템은 대중적으로 상용화된 상업용(commercial) ASR 시스템과 비상업용(non-commercial) ASR 시스템으로 나누어 분석하였다. 말장애 분석을 위해 한가지 ASR 시스템을 사용한 연구도 있었지만 2가지 이상의 시스템을 사용하여 비교한 연구들(De Russis & Corno, 2019; Schultz et al., 2021)도 있었으므로 사용한 시스템들을 모두 각각 세어서 중복 기재하였다. 여러 가지 시스템을 사용한 연구에서는 주로 commercial ASR 시스템의 정확도를 비교하였는데 Dimauro et al.(2017) 연구와 Green et al.(2021) 연구에서는 시스템과 commercial ASR 시스템의 인식 정도를 비교하기도 하였다. Non-commercial ASR 시스템으로는 HMMs이 많이 사용되었고 그 다음으로 end to end 형태가 많이 사용되었다. commercial ASR 시스템은 Google Cloud (Google home), Amazon Transcribe (Amazon), IBM Watson (IBM), Microsoft Azure (Microsoft)를 사용하는데 가장 많이 사용되는 것은 Google Cloud (Google home)였고, 국내 연구에서는 Kakao (Kakao, Seoul, Korea)를 사용하기도 하였다. 또한 말장애 평가에 사용되는 ASR 시스템에 대해서는 연구에서 시스템 형태를 자세히 밝히고 있으나 치료에 사용된 ASR 시스템에 대해서는 명확하게 밝히지 않은 연구들(Ahmed et al., 2018; Findley & Gasparyan, 2022)도 있었다(Table 1).
DISCUSSIONS말장애를 대상으로 ASR을 이용한 평가 및 치료에 대한 연구가 이루어지고 있으나 이에 대한 국내외 연구 동향을 분석하여 살펴보았다는 데 의의가 있다. 본 연구의 결과에 대해 요약과 논의를 보면 다음과 같다.
연도별 분석에서는 최근 10여 년 넘는 기간 동안 말장애의 ASR 연구가 꾸준히 이루어져왔지만 2019~2021년에 급격하게 많아졌다. 이는 2018년 Google Research에서 Project Europhonia를 시작하여 말장애를 가진 사람들의 말인식을 향상시키고자 하는 연구 프로그램으로 이에 대한 연구가 많아진 것으로 생각된다. 물론 말장애를 가진 사람들의 음성 데이터를 확보하고 개별화된 말인식 모드를 확장시키면서 ASR 인식의 정확도가 향상되었으나 아직 일반 성인의 인식 정확도와는 차이가 있다.
말장애를 대상으로 한 ASR 연구에서는 아동에 대한 연구보다 성인에 대한 연구가 더 많았다. 음성은 해부학적 구조의 영향을 받기 때문에 음의 높낮이, 성도, 포먼트와 같은 음성의 음향학적 상관성은 나이에 따른 체계적인 구조를 따른다. 기존 ASR 시스템이 주로 일반 성인 화자를 대상으로 하여 기술을 개발시켜 왔으므로 성인 중심으로 구축된 음성 데이터로 학습된 모델을 이용하여 유아의 음성을 인식할 경우 인식률 저하가 일어날 수밖에 없다(Son et al., 2024). 유아의 음성 특징은 아이가 성장함에 따라 해부학적, 생리학적 변화로 인해 급속도로 발달하게 된다. 그러므로 절대적인 음성학적 수치나 언어적 다양성이 성인의 것과 달라 ASR 시스템을 활용하기에 더 어려움이 많다(Gerosa, et al., 2009). Kennedy et al.(2017)의 연구에서 만 4~5세 아동의 발화를 Google, Microsoft, CMU sphinx의 음성인식률로 비교한 결과, Google이 가장 높게 나타났으나 인식률이 40%를 넘기지 못했으며, 아동의 말에서 나타난 문법적 오류로 인해 인식률이 저하되었다고 보고했다. 그리하여 지금까지 아동에 대한 ASR 연구는 성인만큼 활발히 이루어지지 않은 것으로 보인다. 또한 아동을 대상으로 한 연구들은 평가보다 중재에 ASR 시스템을 사용하는 연구가 더 주를 이루었다.
말평가나 치료에 ASR 시스템을 이용하여 연구되고 있는 주된 말장애는 마비말장애였다. 마비말장애는 다양한 질병을 원인으로 호흡, 발성, 조음, 운율, 공명 같은 말산출 체계 전반에 걸쳐 영향을 미친다. 신경학적 손상 부위에 따라 여러 가지 유형으로 분류되며 유형에 따른 특징도 다양하며 주관적인 평가자의 청지각적 평가에 주로 의존해야 하는 실정이다. ASR 시스템을 보조적으로 사용함으로써 말평가의 신뢰도나 객관성을 확보하는 데 도움을 줄 수 있고 ASR 시스템을 통해 마비말장애 대상자의 말을 알아들을 수 있게 연습함으로써 대상자의 치료 동기 부여에도 긍정적인 영향을 미칠 수 있다. 이를 위해 지속적으로 마비말장애 화자의 말소리 데이터를 늘리고 마비말장애 화자의 발화를 인식할 수 있는 딥러닝 기술을 발전시키기 위해 지속적으로 연구하고 있는 것으로 보인다(Jaddoh et al., 2023). 점차 다양한 말장애 대상자에게 ASR 시스템을 통한 연구를 진행하면서 말장애 대상자들의 객관적이고 일관적인 측정치를 통해 작은 변화를 정확하고 정밀하게 추적하여 평가뿐만 아니라 치료에도 반영시킬 수 있을 것이다(Gutz, 2022).
ASR 시스템의 인식 능력을 측정하는 데 가장 많이 사용된 언어학적 단위는 낱말과 문장 수준이었다. ASR 시스템에 대한 정확도는 주로 낱말 단위의 단어오류비율(word error rate, WER)로 측정하므로 측정이 쉬운 과제들을 사용하는 것으로 보인다. 대부분의 연구들에서 유도하기 쉬운 낱말이나 문장 읽기 과제를 사용하였고 긴 발화를 사용한 연구들도 주로 문단 읽기 등의 읽기 과제를 통해 정확도를 측정하였고, 문장 길이에 따른 ASR 정확도를 비교하기도 하였다. Tobin et al.(2024)의 연구에서만 자연스러운 대화 과제를 사용하였는데, 대화 과제의 ASR 정확도는 읽기와 비교하였을 때 저하된다고 보고하였다. 낱말이나 문장 수준에서 ASR 정확도는 높아지는 추세이지만 대화와 같은 영역은 발음이 부정확하고 말속도도 빨라지는 경향을 보이며, 문법적으로도 불완전한 부분이 많아 ASR의 정확도를 높이기에 장벽이 높다고 하였다(Tobin et al., 2024). 궁극적인 중재의 목표는 자연스러운 상황에서 의사소통 효율을 높이는 것이므로 ASR을 개선하는 것은 말장애를 가진 사람들의 접근성과 의사소통 문제를 해결하기 위해 필수적이다. 또한 다양한 말장애를 가진 사람들이 일상생활에서 ASR 시스템을 활용할 수 있도록 하기 위해서는 다양한 언어 자극에 대해 음성 데이터넷을 확보하고 대상자들 개인에 맞춰 인식률을 높일 수 있는 화자 독립적인 ASR 방식들도 더더욱 발전시켜야 할 필요가 있다.
말장애의 음성인식 시스템으로 commercial ASR 시스템과 non-commercial ASR 시스템이 비슷하게 사용되었다. Commercial ASR 시스템 중에서는 Google speech to text가 가장 많이 사용되었고, non-commercial ASR 시스템으로는 순차적인 데이터, 특히 시간에 따라 변화하는 데이터를 모델링하는데 자주 사용되는 전통적인 음성인식 시스템인 HMM이 많이 사용되었다. Non-commercial ASR 시스템에서는 2010~2018년까지는 HMM 방식을 사용한 연구들이 많았으나 2019년부터 end to end 방식을 사용한 연구들이 대부분이었다. 이는 음성인식이 확률 기반 통계 방식에서 심층 신경망 DNN을 이용한 딥러닝 방식으로 전환되어 가고 있는 현 상황을 반영하고 있으며, 대규모 데이터베이스를 통한 음성 인식기의 성능 향상이 더욱 강조되고 있는 듯하다(Kim, 2022). 이는 ASR 시스템이 말장애 평가와 치료에서 commercial 시스템과 noncommercial 시스템에 대한 차이와 성능에 대한 구체적인 데이터가 아직 부족하다는 것을 시사하며, 치료에 사용되는 시스템의 구체적인 특성과 성능에 대한 추가적인 연구가 필요하다는 것으로 해석할 수 있다.
ASR 시스템을 말장애 평가에 이용한 대부분의 연구에서는 ASR 시스템의 정확성과 청자의 명료도를 비교하였는데, 명료도와 ASR의 정확도가 상관관계를 보이기는 하였지만 아직까지 말장애를 가진 화자들의 ASR 정확도는 청자가 평가하는 명료도에 비해 단어오류비율(WER)이 높았다. 특히 의사소통장애가 있는 화자의 음성인식은 commercial ASR 시스템에서 더 낮은 정확도를 보였는데, Green et al.(2021)의 연구에서 commercial ASR과 non-commercial ASR을 비교하였을 때, end to end 모델을 사용한 ASR 시스템이 Google에 비해 WER이 더 낮다고 보고하였다. 이는 아무래도 non-commercial ASR 시스템은 화자 의존적 혹은 화자 적응형 모델을 이용하다 보니 말장애를 가진 화자의 음성 데이터를 학습하여 말장애 특성에 대해 높은 수행력을 보이는 것으로 보인다. 여러 회사의 commercial ASR들을 사용해서 정확도를 비교한 연구들(De Russis & Corno, 2019; Shulttz et al., 2021; Tröger et al., 2024)도 있었는데, Shulttz et al.(2021) 연구에서는 Google이나 Amazon 시스템이 MS에 비해 조금 더 높은 수행을 보였다고 하였고, De Russis & Corno(2019) 연구에서는 Google의 WER이 가장 낮다고 보고하였으나, Tröger et al.(2024)에서는 언어마다 ASR 시스템의 수행 정도에서 차이를 보인다고 하였다. 국내 연구에서는 commercial ASR 시스템으로 Kakao를 사용하였는데 Yoo et al.(2020)에 따르면, 방송 뉴스 데이터에 대해 Google, IBM, Amazon 등 6개의 정확도를 비교하였을 때 한국어 사용자에 대해 정확도가 가장 높은 것은 Kakao라고 하였다. 현재 연구는 단어오류비율(WER)을 기반으로 양적인 측면에서 모델 성능을 평가하는 데 중점을 두었지만, 실질적인 ASR 의사소통 시스템은 잘못 전사된 오류로 인해 의사소통에 미치는 영향, 전체 사용자 경험, 사용자 수용률과 같은 다른 요소들에서도 평가되어야 할 필요가 있을 것이다.
이 분야에 대해서는 의료 전문가들, 공학 연구자들, 기술자들이 의사소통장애를 가진 대상자들의 조기 진단과 중재를 위해 계속 노력해오면서 진전을 나타내고 있으며 가장 활발하게 이루어지고 있는 분야는 시스템적인 기술 분야였다. 본 연구의 가장 큰 제한점은 공학 분야의 연구들을 제외하였으므로 자료의 편향성이 존재할 가능성이 있으며 이는 더 넓은 주제나 다양한 관점을 충분히 포함하지 못했을 가능성이 있다. 또한 최신 자료를 포함하는 논문을 선정하는 과정에서 연구 대상을 말장애로 광범위하게 접근함으로써 연구 방법의 투명성이나 신뢰도를 확보하지 못하였으므로 후속 연구에서는 이를 개선하여 좀 더 체계적인 문헌 연구가 이루어질 필요가 있다.
공학자들의 시스템을 계속 발전시켜 나가고 있으며 이를 의사소통장애 측면에서 의사소통장애를 가진 화자들의 평가 및 치료에도 활용되고 있다. 말장애 평가에서 언어 재활사의 전문적인 평가도 중요하지만 이에 대한 객관적인 보조 수단으로 ASR의 사용은 지속적으로 연구되어야 할 것이며, 중재에서도 ASR 시스템을 활용한다면 훈련된 전문가의 귀 못지않게 정확한 피드백으로 적용할 수 있으리라 생각된다. 말장애는 발음 문제뿐만 아니라 음성의 강도, 음성의 질, 운율과 같은 요소들이 복합적으로 작용하기 때문에 이에 대한 한계가 있을 수 있으며 ASR 시스템을 사용하는 과정에서 개인 정보 보호와 데이터 관리의 문제도 중요한 고려 사항이다. 윤리적, 방법론적 문제들이 잠재하지만, 의사소통장애를 가진 대상자들의 삶과 미래를 개선하기 위해 ASR을 활용한 말장애 평가와 중재에 대한 연구가 계속 이루어지고 발전되어야 할 필요가 있다.
REFERENCESAhmed, B., Monroe, P., Hair, A., Tan, C. T., Gutierrez-Osuna, R., & Ballard, K. J. (2018). Speech-driven mobile games for speech therapy: User experiences and feasibility. International Journal of Speech-Language Pathology, 20(6), 644-658.
Bae, I. H., Kim, K., Park, H. J., Kim, J. D., & Kwon, S. B. (2015). Development of a speech recognition threshold application using voice recognition technology: Pilot study. Journal of Speech-Language and Hearing disorders, 24(4), 103-112.
Ballard, K. J., Etter, N. M., Shen, S., Monroe, P., & Tien Tan, C. (2019). Feasibility of automatic speech recognition for providing feedback during tablet-based treatment for apraxia of speech plus aphasia. American Journal of Speech-Language Pathology, 28(2S), 818-834.
Calvo, I., Tropea, P., Viganò, M., Scialla, M., Cavalcante, A. B., Grajzer, M., et al. (2021). Evaluation of an automatic speech recognition platform for dysarthric speech. Folia Phoniatrica et Logopaedica, 73(5), 432-441.
De Russis, L. & Corno, F. (2019). On the impact of dysarthric speech on contemporary ASR cloud platforms. Journal of Reliable Intelligent Environments, 5, 163-172.
Dimauro, G., Di Nicola, V., Bevilacqua, V., Caivano, D., & Girardi, F. (2017). Assessment of speech intelligibility in Parkinson’s disease using a speech-to-text system. IEEE Access, 5, 22199-22208.
Findley, B. R. & Gasparyan, D. (2022). Use of speech-to-text biofeedback in intervention for children with articulation disorders. Perspectives of the ASHA Special Interest Groups, 7(3), 926-937.
Gerosa, M., Giuliani, D., Narayanan, S., & Potamianos, A. (2009). Proceedings of the 2nd Workshop on Child, Computer and Interaction: A Review of ASR Technologies for Children’s Speech. Cambridge, MA. ICMI-MLMI.
Goudarzi, A. & Moya-Galé, G. (2021). Automatic speech recognition in noise for Parkinson’s disease: A pilot study. Frontiers in Artificial Intelligence, 4, 809321.
Green, J. R., MacDonald, R. L., Jiang, P. P., Cattiau, J., Heywood, R., Cave, R., et al. (2021). Automatic speech recognition of disordered speech: Personalized models outperforming human listeners on short phrases. Interspeech, 2021, 4778-4782.
Gutz, S. E. (2022). Automatic speech recognition as a clinical tool: Implications for speech assessment and intervention (Unpublished master’s thesis). Cambridge, MA: Harvard University.
Gutz, S. E., Stipancic, K. L., Yunusova, Y., Berry, J. D., & Green, J. R. (2022). Validity of off-the-shelf automatic speech recognition for assessing speech intelligibility and speech severity in speakers with amyotrophic lateral sclerosis. Journal of Speech, Language, and Hearing Research, 65(6), 2128-2143.
Hwang, Y., Kim, S., & Chung, M. (2011). Proceedings of the HCI conference: Comparison between Intelligibility and Speech Recognition Accuracy of Dysarthric Speech. Pyeongchang. HCIK.
Jacks, A., Haley, K. L., Bishop, G., & Harmon, T. G. (2019). Automated speech recognition in adult stroke survivors: Comparing human and computer transcriptions. Folia Phoniatrica et Logopaedica, 71(5-6), 286-296.
Jaddoh, A., Loizides, F., & Rana, O. (2023). Interaction between people with dysarthria and speech recognition systems: A review. Assistive Technology, 35(4), 330-338.
Jefferson, M. (2019). Usability of automatic speech recognition systems for individuals with speech disorders: Past, present, future, and a proposed model. University Digital Conservancy. Retrieved from https://conservancy.umn.edu/items/dd67b8c5-b5ff-4e66-a00c9397ad8b8236.
Kennedy, J., Lemaignan, S., Montassier, C., Lavalade, P., Irfan, B., Papadopoulos, F., et al. (2017). Child speech recognition in human-robot interaction: Evaluations and recommendations. Proceedings of the 2017 ACM/IEEE International Conference on HumanRobot Interaction, 2017, 82-90.
Kim, A. (2022). A phonological study in the error types of Korean automatic speech recognition (Unpublished master’s thesis). Seoul, Seoul National University.
Lee, S. H., Kim, M., Seo, H. G., Oh, B. M., Lee, G., & Leigh, J. H. (2019). Assessment of dysarthria using one-word speech recognition with hidden markov models. Journal of Korean Medical Science, 34(13), e108.
Lilley, J., Nittrouer, S., & Bunnell, H. T. (2014). Fifteenth Annual Conference of the International Speech Communication Association: Automating an Objective Measure of Pediatric Speech Intelligibility. Singapore: ISCA.
Maier, A., Haderlein, T., Stelzle, F., Nöth, E., Nkenke, E., Rosanowski, F., et al. (2010). Automatic speech recognition systems for the evaluation of voice and speech disorders in head and neck cancer. EURASIP Journal on Audio, Speech, and Music Processing, 2010, 1-7.
Mengistu, K. T. & Rudzicz, F. (2011). Comparing humans and automatic speech recognition systems in recognizing dysarthric speech. Advances in Artificial Intelligence, 24, 291-300.
Moro-Velazquez, L., Cho, J., Watanabe, S., Hasegawa-Johnson, M. A., Scharenborg, O., Kim, H., et al. (2019). Study of the performance of automatic speech recognition systems in speakers with Parkinson’s disease. Interspeech, 9, 3875-3879.
Moya-Galé, G., Walsh, S. J., & Goudarzi, A. (2022). Automatic assessment of intelligibility in noise in Parkinson disease: Validation study. Journal of Medical Internet Research, 24(10), e40567.
Mun, J., Kang, J., Kim, K., Bae, J., Lee, H., & Lim, C. (2023). Deep learning-based speech recognition for Korean elderly speech data including dementia patients. The Korean Journal of Applied Statistics, 36(1), 33-48.
Mustafa, M. B., Rosdi, F., Salim, S. S., & Mughal, M. U. (2015). Exploring the influence of general and specific factors on the recognition accuracy of an ASR system for dysarthric speaker. Expert Systems with Applications, 42(8), 3924-3932.
Park, H., Park, B., Song, B., Kwon, S., & Shin, B. (2020). The effects of home training for children with speech sound disorders using artificial intelligence speakers. Korean Speech Therapy Association Conference Proceedings, 21, 319-322.
Park, W. J. & Yim, D. S. (2021). Effects of using a communication maintenance strategy in the context of AI speaker and preschoolers’ conversation and book reading interaction: Comparison of group differences on the levels of expressive language development. Journal of Speech-Language and Hearing Disorders, 30(2), 1-8.
Rosdi, F., Mustafa, M. B., Salim, S. S., & Hamid, B. A. (2017). The effect of changes in speech features on the recognition accuracy of ASR system: A study on the Malay speech impaired children. Malaysian Journal of Computer Science, 30(1), 48-62.
Salim, S. S., Mustafa, M. B. B. P., Asemi, A., Ahmad, A., Mohamed, N., & Ghazali, K. B. (2016). A speech pronunciation practice system for speech-impaired children: A study to measure its success. Research in Developmental Disabilities, 56, 41-59.
Schultz, B. G., Tarigoppula, V. S. A., Noffs, G., Rojas, S., van der Walt, A., Grayden, D. B., et al. (2021). Automatic speech recognition in neurodegenerative disease. International Journal of Speech Technology, 24(3), 771-779.
Schuster, M., Maier, A., Haderlein, T., Nkenke, E., Wohlleben, U., Rosanowski, F., et al. (2006). Evaluation of speech intelligibility for children with cleft lip and palate by means of automatic speech recognition. International Journal of Pediatric Otorhinolaryngology, 70(10), 1741-1747.
Son, G., So., J., Ko, J., Lee, J., Lee, J., & Shin, W. (2024). Enhanced AI model to improve child speech recognition. Journal of Digital Contests Society, 25(2), 547-555.
Tobin, J., Nelson, P., MacDonald, B., Heywood, R., Cave, R., Seaver, K., et al. (2024). Automatic speech recognition of conversational speech in individuals with disordered speech. Journal of Speech, Language, and Hearing Research, 1-10.
Tomanek, K., Seaver, K., Jiang, P. P., Cave, R., Harrell, L., & Green, J. R. (2023). An analysis of degenerating speech due to progressive dysarthria on ASR performance. ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing, 1-5.
Tröger, J., Dörr, F., Schwed, L., Linz, N., König, A., Thies, T., et al. (2024). An automatic measure for speech intelligibility in dysarthrias—validation across multiple languages and neurological disorders. Frontiers in Digital Health, 6, 1-10.
Tu, M., Wisler, A., Berisha, V., & Liss, J. M. (2016). The relationship between perceptual disturbances in dysarthric speech and automatic speech recognition performance. The Journal of the Acoustical Society of America, 140(5), 416-422.
APPENDICESAppendix 1.Summary of literature survey based on disorders type, subject, technology, & speech unitPD: Parkinson’s disease, HC: healthy control, DNN-HMM: deep neural network-hidden markov model, AOS: apaxia of speech, GMM: gaussian mixture model, ASR: automatic speech recognition, API: application programming interface, YHC: young healthy control, EHC: elder healthy control, TBI: traumatic brain injury, SLP: speech-kanguage pathologist, APAC: assessment of phonology & articulation for children, HD: huntington’s disease, PSP: progressive supranuclear palsy, ALS: amyotrophic lateral sclerosis, CP: cerebral palsy, STT: speech to text, LE: laryngectomees, FA: friedreich ataxia, MS: multiple sclerosis, SSD: speech sound disorders |
|