To discriminate and/or perceive phonemes is one of the most important abilities in human communication. The purpose of current study was to measure the confusing matrix, similarity, and distance of Korean phonemes based on Shepard’s law and to provide Korean speech-perceptual map.
To measure the similarity and distance, twenty young listeners with normal hearing conducted the speech discrimination task, which randomly assigned consonant-vowel (CV) combinations of 18 Korean consonants with /a/ vowel under quiet environment and two signal-to-noise ratio (SNR) noisy conditions (i.e., +3 and 0 dB SNR). The data of each participant was analyzed by classic confusion matrix. Based on the data of confusion matrix, the similarity and distance were calculated using the Shepard’s law. After calculating the distance, the speech-perceptual map was designated.
In general, the CV similarity was increased as a level of the background noise increased. The CV distance was also decreased as the noise levels increased. In quiet condition, only 18 pairs were showed confusing to discriminate. For the most confusing CV pair was /p/-/t/ which showed similarity of 0.14. With background noise, however, the +3 and 0 dB SNR conditions showed total 61 pairs and 64 pairs, respectively. The /ph/-/th/ was most confusing pair in both +3 (1.00 for similarity) and 0 dB SNR (0.98 for similarity).
The results of current study suggest that the development of speech-perceptual map should be considered in the clinical settings in terms of rehabilitation for the hearing impaired listeners.
음성언어를 통한 의사소통 능력은 교육과 재활이라는 측면에서 그 중요성이 강조되며(
유사한 음소의 분별 및 인지는 타인과의 의사소통이라는 관점에서 중요한 요인이며
정상 청력을 가진 20대 성인 20명(남녀 각각 10명; 평균 연령: 22.05세, 표준 편차: ± 1.43)이 본 연구에 참여하였다. 연구 대상자는 과거 이과적 병력이 없고, 고막운동성 검사에서는 A 유형을 나타냈다. 또한 0.5, 1, 2, 4 kHz의 4분법 순음평균역치는 우측 1.94 dB HL, 좌측 2.56 dB HL이었으며, 기도-골도 차는 양측 귀 모두 2.13 dB HL로 모든 대상자들은 20 dB HL 이하의 정상 청력 기준을 충족하였다. 실험에 참여하기 전 대상자들은 연구의 목적과 방법에 대하여 자세한 설명을 듣고 이해한 후 참여 동의서에 서명을 하였다.
본 연구에서는 한국어의 18개 자음과 1개의 /a/ 모음으로 결합된 총 18개의 자모음을 사용하였다. 구체적으로 자음은 /p/, /p*/, /ph/, /t/, /t*/, /th/, /k/, /k*/, /kh/, /ts/, /ts*/, /tsh/, /s/, /s*/, /m/ , /n/, /l/, /h/였다. 조음 위치에 따른 분류로 /p/, /p*/, /ph/, /m/는 두 입술을 사용하여 조음하는 양순음이었으며, /t/, /t*/, /th/, /n/는 혀끝이나 혓날을 윗잇몸에 붙이거나 간격을 좁혀 조음하는 치조음이었다. /k/, /k*/, /kh/는 혀의 뒷부분과 연구개 사이에서 조음하는 연구개음이었으며, /ts/, /ts*/, /tsh/는 혀의 앞 부분과 경구개 사이에서 조음하는 경구개음이었다. 또한, /s/, /sh/, /l/와 /h/는 각각 치경음과 성문음이었다(
자극음은 총 4명의 화자(남녀 각각 2명)가 발화한 자모음을 음성분석 프로그램인 Computerized Speech Lab (CSLTM; Kay-PENTAX, Montvale, NJ, USA)을 사용하여 마이크로 녹음하였고 Adobe Audition 프로그램(Ver. CC 2014.2; Adobe Systems Complex, San Jose, CA, USA)으로 자극음의 실효값(rootmean square)을 조절하였다. 이를 조용한 환경과 +3, 0 dB signal-to-noise ratio (SNR)의 2가지 백색잡음(white noise) 조건에 적용하여 검사를 실시하였다.
자극음 제시는 두 개의 스피커와 연결된 노트북(NT910S3GK32B, Samsung, Seoul, Korea)과 Superlab 프로그램(version 5.0, Cedrus Corporation, San Pedro, CA, USA)을 통해 각 대상자가 원하는 크기의 최고 쾌적 수준(most comfortable level)에서 재생하였다. 두 개의 스피커를 대상자의 양 옆 각각 45° 방향에서 1 m 거리에 두었고 대상자는 의자에 앉아 제시되는 자극음을 듣고 들은 자극음과 가장 비슷한 자모음을 18개의 보기에서 고르도록 요청하였다. 실험 시작 전, 각 대상자에게는 들은 자극음에 대한 반응을 기입하는 오차행렬 기록지가 제공되었다. 실험은 배경소음 유무와 강도에 따라 쉬움(quiet), 보통(+3 dB SNR), 어려움(0 dB SNR)으로 구분되었으며 순차적으로 진행되었다. 자극음은 각 난이도에서 1개의 자모음당 20번의 반복을 무작위(pseudo-randomized)로 제시하였으며 20명의 연구 대상자의 총 제시 횟수는 자모음 1개당 400회였다.
제시된 18개의 자모음에 대한 20명의 연구 대상자들의 응답은 18 × 18의 오차행렬을 통해 자극음 제시 횟수와 대상자의 정/오반응 횟수에 따른 백분율로 계산되었다. 오차행렬에서 대각선상에 표기되는 반응은 정반응으로 간주하였으며, 대각선상에 표기되지 않은 모든 반응은 오반응으로 간주하였다. 정반응과 오반응에 대한 기준은 제시되는 자극음과 대상자가 인지한 자모음이 일치할 경우에는 정반응으로, 일치하지 않을 경우에는 오반응으로 처리하였다. 백분율로 계산한 오차행렬에서의 반응은 Shepard’s law에 근거하여 말지각 유사성을 확인 및 분석하였다.
유사성(similarity, Sij)은 오반응을 보인 반응의 총합을 정반응을 보인 전체 반응의 총합으로 나누는 것으로 계산하였고[1], 유사성과 자극음의 혼동은 정비례 관계, 즉 유사성이 높을수록 자극음의 혼동 역시 높게 나타나며, 유사성이 낮을수록 자극음의 혼동은 낮게 나타난다.
*Sij는 i 범주와 j 범주 간 유사성을 의미하고, P는 probability를 뜻한다.
이후, 유사성 결과를 근거로 말지각 거리를 분석하였다. 거리(dij)는 계산된 유사성에 음의 자연로그(-ln)를 취하였다[2]. 유사성과 자극음의 혼동 간의 관계와는 다르게, 거리는 자극음의 혼동과 반비례 관계, 즉 거리가 짧을수록 자극음의 혼동은 높게 나타나며, 거리가 멀수록 자극음의 혼동은 낮게 나타난다.
18개의 한국어 자모음에 따른 유사성 분석 결과, 소음이 증가함에 따라 음소 간 유사성의 빈도와 정도가 증가되는 것을 확인하였다. 조용한 환경에서는 /t/와 /p/ (0.14), /m/와 /p*/ (0.05), /ph/와 /p/ (0.04) 등 총 17회(평균: 0.03, 표준편차: 0.03)의 유사성을 보였으나(
18개의 한국어 자모음에 따른 유사성 결과에 근거하여 말지각 거리를 분석한 결과를
본 연구는 20대의 정상 청력을 가진 성인 남녀를 대상으로 오차행렬과 Shepard’s law에 근거하여 배경소음 정도에 따른 한국어 자모음의 유사성과 거리를 측정하고, 이를 기반으로 말지각 지도를 제시하였다. 음소 간 유사성을 확인한 결과, 배경소음이 증가함에 따라 음소 간 유사성은 증가함을 확인하였다. 이는 배경소음이 증가함에 따라 정상 청력 성인의 어음인지 오류율이 증가함을 보고한
난청은 개인의 의사소통 능력을 저하시키며 나아가 개인의 삶의 질이라는 측면에도 부정적인 영향을 미치기 때문에(
N/A
All participants singed an informed consent form before conducting the experiments. The protocol of this study had been approved by Institutional Review Board of Hallym University (#HIRB-2014-40; #HIRB2018-009).
There are no conflict interests.
This work was supported by the Ministry of Education of the Republic of Korea and the National Research Foundation of Korea (NRF-2018 S1A3A2074932).
All authors contributed equally to this work. C.K. designed performed experiments, analyzed data and wrote the paper; S.Y. analyzed data and performed experiments; W.H. designed experiments, analyzed data, and wrote the paper; D.L. and S.M. designed and performed experiments; S.P. and Y.K. designed and analyzed data. Also, the authors discussed the results altogether and implications and commented on the manuscript at each stage.
Speech perceptual-map for 18 Korean consonants as a function of SNR. A: Quiet. B: +3 dB SNR. C: 0 dB SNR. SNR = signal-tonoise ratio, d = distance.
Results of speech perceptual similarity from 20 normal hearing listeners at quiet condition
Stimuli | Responses |
|||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
p | p* | ph | t | t* | th | k | k* | kh | ts | ts* | tsh | s | s* | m | n | l | h | |
p | 1.00 | |||||||||||||||||
p* | 0.01 | 1.00 | ||||||||||||||||
ph | 0.04 | 1.00 | ||||||||||||||||
t | 0.14 | 1.00 | ||||||||||||||||
t* | 0.01 | 1.00 | ||||||||||||||||
th | 0.03 | 1.00 | ||||||||||||||||
k | 0.01 | 0.01 | 1.00 | |||||||||||||||
k* | 1.00 | |||||||||||||||||
kh | 0.02 | 1.00 | ||||||||||||||||
ts | 1.00 | |||||||||||||||||
ts* | 1.00 | |||||||||||||||||
tsh | 1.00 | |||||||||||||||||
s | 0.02 | 1.00 | ||||||||||||||||
s* | 0.01 | 1.00 | ||||||||||||||||
m | 0.05 | 1.00 | ||||||||||||||||
n | 0.00 | 0.05 | 0.00 | 0.00 | 1.00 | |||||||||||||
l | 1.00 | |||||||||||||||||
h | 0.00 | 0.03 | 1.00 |
Results of speech perceptual similarity from 20 normal hearing listeners at +3 dB SNR
Stimuli | Responses |
|||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
p | p* | ph | t | t* | th | k | k* | kh | ts | ts* | tsh | s | s* | m | n | l | h | |
p | 1.00 | |||||||||||||||||
p* | 0.01 | 1.00 | ||||||||||||||||
ph | 0.03 | 1.00 | ||||||||||||||||
t | 0.62 | 0.01 | 1.00 | |||||||||||||||
t* | 0.04 | 0.01 | 1.00 | |||||||||||||||
th | 1.00 | 0.01 | 0.01 | 1.00 | ||||||||||||||
k | 0.26 | 0.26 | 0.01 | 1.00 | ||||||||||||||
k* | 0.08 | 0.10 | 1.00 | |||||||||||||||
kh | 0.00 | 0.12 | 0.20 | 0.01 | 1.00 | |||||||||||||
ts | 0.23 | 0.70 | 0.01 | 0.11 | 0.03 | 1.00 | ||||||||||||
ts* | 0.15 | 0.02 | 1.00 | |||||||||||||||
tsh | 0.17 | 0.31 | 0.07 | 1.00 | ||||||||||||||
s | 0.07 | 0.48 | 0.07 | 0.50 | 0.10 | 0.08 | 0.12 | 1.00 | ||||||||||
s* | 0.02 | 0.25 | 0.12 | 0.30 | 1.00 | |||||||||||||
m | 0.07 | 0.00 | 0.01 | 0.00 | 0.01 | 0.01 | 1.00 | |||||||||||
n | 0.01 | 0.06 | 0.01 | 0.01 | 0.01 | 0.01 | 0.08 | 1.00 | ||||||||||
l | 0.01 | 0.03 | 1.00 | |||||||||||||||
h | 0.34 | 0.01 | 0.55 | 0.08 | 0.50 | 0.12 | 0.14 | 0.01 | 0.13 | 0.30 | 1.00 |
SNR: signal-to-noise ratio
Results of speech perceptual similarity from 20 normal hearing listeners at 0 dB SNR
Stimuli | Responses |
|||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
p | p* | ph | t | t* | th | k | k* | kh | ts | ts* | tsh | s | s* | m | n | l | h | |
p | 1.00 | |||||||||||||||||
p* | 0.02 | 1.00 | ||||||||||||||||
ph | 0.08 | 1.00 | ||||||||||||||||
t | 0.88 | 1.00 | ||||||||||||||||
t* | 0.08 | 1.00 | ||||||||||||||||
th | 0.03 | 0.98 | 1.00 | |||||||||||||||
k | 0.26 | 0.03 | 0.36 | 0.02 | 1.00 | |||||||||||||
k* | 0.07 | 0.17 | 1.00 | |||||||||||||||
kh | 0.23 | 0.31 | 0.02 | 1.00 | ||||||||||||||
ts | 0.36 | 0.01 | 0.85 | 0.02 | 0.12 | 1.00 | ||||||||||||
ts* | 0.15 | 0.03 | 1.00 | |||||||||||||||
tsh | 0.26 | 0.01 | 0.30 | 0.13 | 1.00 | |||||||||||||
s | 0.13 | 0.43 | 0.16 | 0.57 | 0.01 | 0.19 | 0.09 | 1.00 | ||||||||||
s* | 0.02 | 0.22 | 0.17 | 0.37 | 1.00 | |||||||||||||
m | 0.01 | 0.08 | 0.02 | 0.02 | 1.00 | |||||||||||||
n | 0.02 | 0.05 | 0.01 | 0.02 | 0.01 | 0.00 | 0.00 | 0.11 | 1.00 | |||||||||
l | 0.00 | 0.01 | 0.07 | 1.00 | ||||||||||||||
h | 0.27 | 0.57 | 0.06 | 0.76 | 0.16 | 0.29 | 0.12 | 0.30 | 1.00 |
SNR: signal-to-noise ratio