Beszédtudomány - Speech Science https://ojs.mtak.hu/index.php/besztud <p>A Beszédtudomány - Speech Science nevű folyóirat a Beszédkutatás című folyóirat utódja.</p> <p>A Beszédkutatás 2019-ben megjelent utolsó, 27. száma és a megelőző online kiadványok itt elérhetők: <a href="https://ojs3.mtak.hu/index.php/beszkut/">https://ojs3.mtak.hu/index.php/beszkut/</a></p> Hungarian Research Centre for Linguistics hu-HU Beszédtudomány - Speech Science 2732-3773 Comparing formant extraction methods according to speaking style and added noise in Forensic Voice Comparison https://ojs.mtak.hu/index.php/besztud/article/view/7419 <p>In forensic voice comparison, formant measurements are a “traditional” way of comparing speaker identities. Deep learning may offer a new way of estimating formant values; therefore, it is essential to compare its performance in a forensic way of use. In this study, four formant estimation methods are compared: three based on LPC and one on deep learning. Several aspects of formant modelling in forensic voice comparison were investigated: comparisons according to utterance lengths, speaking styles, samples corrupted with various noises: reverberation and white noise. Results are reported according to Cllr, AUC and EER metrics. It was found that the length of recording used as suspect samples influences performance to a large extent. Additionally, formant tracking based on deep learning lags behind the other methods in all metrics. Same and different speaking styles also have a measurable effect on performance. Samples corrupted with reverberation do not deteriorate results but white noise does. There are no exact results on which method is better and which is to be used in studies and works. Cllr values shows that the three LPC based methods perform similarly. They all make large mistakes when samples are corrupted with white noses. Although deepformants performs slightly worse than the other used in this study, it seems to have more resilience to white noise.</p> Dávid Sztahó Attila Fejes György Szaszák Copyright (c) 2023 Nyelvtudományi Kutatóközpont 2023-05-10 2023-05-10 3 1 7 35 10.15775/Besztud.2022.7-35 A mássalhangzókra ható prozódiai erősítés vizsgálata a magyarban https://ojs.mtak.hu/index.php/besztud/article/view/9013 <p>Prosodic strengthening is the spatial and/or temporal extension of articulatory gestures that occurs at&nbsp; prosodically salient locations, such as the edges of larger prosodic units or stressed syllables. Hungarian consonants have not been analysed with reference to traits of prosodic strengthening so far. In a material of pseudowords with the structure pV 1 pV 1 pV 1 pV 1 forming independent utterances (recorded previously for the examination of prosodic strengthening in vowels), bilabial voiceless plosive consonants were analyzed in terms of the number of bursts, duration, VOT, spectral moments and intensity, as a function of syllable position (first and stressed, internal and final) and adjacent vowels’ quality (/i/, /u/, /6/ and /a:/). The presence and the number of bursts indicated prosodic strengthening (especially) at the domain-initial edge of the phrase. A lack of burst was not detected in the first, stressed syllable. Realizations containing one burst were also most typical for the first syllable, and the occurrence of more than one burst was the least typical here. As for VOT, the interaction of syllable position and vowel quality had a significant effect, and the model explained the data to a large extent. In the first syllable, shorter VOT was measured; however, the difference between the syllable positions (first vs. final) reached the significance level only in close vowels. CoG and SD were lower, while skewness and kurtosis were higher in the first syllable than in the final syllable, reaching the significance level only in open vowels. The intensity of bursts was also higher in the first syllable with a gradual and significant decrease towards the end of the phrase, independently of vowel quality. In general, prosodic strengthening was observed in the first and also stressed syllables’ consonant; however, in most parameters, this effect was dependent on the height of the adjacent vowel. Furthermore, in the analysed parameters the final syllable differed significantly from the first one, which may serve as a clue for boundary perception. Results support the theory that different languages use different combinations of acoustic keys to indicate stress and prosodic boundaries.</p> Alexandra Markó Andrea Deme Kornélia Juhász Márton Bartók Tamás Gábor Csapó Tekla Etelka Gráczi Copyright (c) 2023 Nyelvtudományi Kutatóközpont 2023-05-10 2023-05-10 3 1 36 74 10.15775/Besztud.2022.36-74 Az önjavítási jelenségek magyar nyelvű spontán, baráti társalgásokban https://ojs.mtak.hu/index.php/besztud/article/view/9160 <p>In spontaneous, everyday conversations, we can observe regularities and patterns that are repeatedly produced by the speakers during the conversation (Iványi, 2001). Such regularities can also be observed in the repair mechanism.</p> <p>The study seeks to answer whether the ten repair operations described by Schegloff (2013), namely, replacing, inserting, parenthesizing, deleting, aborting, recycling, searching, sequence-jumping, reformatting and reordering, appear in Hungarian spontaneous conversations, and if so, how; and whether or not variations can be observed in each operation compared to Schegloff’s definitions. In addition, the study also examines the frequency of each repair operation. I researched this using spontaneous, casual everyday conversations.</p> <p>The study revealed that replacing, inserting, parenthesizing, deleting, aborting, recycling, searching and sequence-jumping in Hungarian correspond to the English observations. There were, however, some discrepancies, which are the following: reformatting did not appear in my corpus. Furthermore, in the English <em>delicate</em> type of searching, the speaker deliberately delays a potentially offensive term (Schegloff, 2013), whereas in my example, the speaker searches for a word that is appropriate to the situation and does not produce an offensive, unpleasant term. In sequence-jumping, the current speaker interrupts the turn-constractional-unit by producing an inappropriate unit, thereby interrupting the action and exiting the sequence (Schegloff, 2013). In contrast, in my study, the turn of the current speaker is interrupted by his partners, the original speaker produces a response reaction to this, and thus he himself abandons the previous turn and exits the sequence. In the case of the reordering, it was suggested that the reordered form is an inherent recycling. However, in this case, the inserting required a change in word order, since the inserted element was in a focal position, and therefore the affix had to be reordered after the verb. The frequency order of repair operations is as follows: recycling, searching, replacing, inserting, aborting, parenthesizing, sequence-jumping, deleting and reordering.</p> Cintia Tar Copyright (c) 2023 Nyelvtudományi Kutatóközpont 2023-05-10 2023-05-10 3 1 75 104 10.15775/Besztud.2022.75-104 A dajkanyelv tagolódása 6 hónapos csecsemőkhöz szóló történetmesélésben https://ojs.mtak.hu/index.php/besztud/article/view/8518 <p>The occurrence of pauses serves as an aid for children with speech parsing and, hence, language acquisition. Thus, understanding temporal patterns of infant-directed speech (IDS) is of crucial importance. However, there is only sparse data available in the literature on the frequency of pauses and their relationship with clause boundaries.</p> <p>In this study, we investigated the semi-spontaneous speech of 14 mothers – native speakers of Hungarian – directed to their 6-month-old infant. First, mothers were asked to tell a story based on pictures to an adult, then to their child. Although they had to incorporate prescribed sentences into their stories in the experiment, only the spontaneous parts of their speech were considered for the present work.</p> <p>The results have shown that the articulation rate of IDS was generally lower, and the clause and IPU durations were higher than in the case of adult-directed speech (ADS). The duration of pauses was largely affected by whether they occurred within or between clauses in both registers. Although&nbsp; the pause duration&nbsp; between clauses did not show substantial differences between the two registers, the pauses within clauses were found to be longer in IDS than in ADS. Moreover, pauses appeared more frequently at clause boundaries than within the clauses in both registers, but this difference was more pronounced in IDS. The results may drive attention to the observation that the inter- or intra-clause position of pauses affects their duration and frequency in infant-directed speech.</p> Anna Kohári Veronika Harmati-Pap Katalin Mády Copyright (c) 2023 Nyelvtudományi Kutatóközpont 2023-05-10 2023-05-10 3 1 105 137 10.15775/Besztud.2022.105-137 A logopédiai terápia hatása az óvodások fonológiai tudatosságára https://ojs.mtak.hu/index.php/besztud/article/view/8294 <p>One predictive factor in successful reading acquisition is the phonological awareness, which is influenced by several factors. Speech sound disorders are a risk factor for the development of phonological awareness. In the present research, which involved 5- and 6-year-old preschoolers, I was looking for an answers to the question of whether articulation disorders and speech therapy affect phonological awareness and its three levels (rhyme, syllable, phoneme awareness). The survey found that children with articulation disorders and receive speech therapy, achieved the best results at all levels of phonological awareness regardless of age, as well as 6-year-old children with pure articulation who, although not articulation disorders, but they are still receive speech therapy development. Speech therapy for 5-year-old children, who have no articulation disorders has been shown to be less effective in terms of phonological awareness. Based on the results of the research, it would be important to develop speech therapy for all children, not just those with articulation disorders, especially during in the last pre-school period, which can lay the foundation for successful written language acquisition.</p> <p><em>Keywords</em>: phonological awareness, rhyme, syllable, phoneme awareness, speech disorders, speech therapy</p> Andrea Anna Zemán Copyright (c) 2023 Nyelvtudományi Kutatóközpont 2023-05-10 2023-05-10 3 1 138 161 10.15775/Besztud.2022.138-161 Afáziás személyek lexikai hozzáférésének vizsgálata olvasás közben https://ojs.mtak.hu/index.php/besztud/article/view/8516 <p>A nyelvi képességek működését feltáró kutatási eredmények hatására formálódott a nyelvről alkotott gondolkodásmód. A legújabb nézeteket a kognitív funkciók egységes architektúrájának megközelítése uralja, amely szerint a nyelvi és kognitív folyamatok mögött közös neurális hálózatok állnak (Lambon Ralph et al., 2017; Blumstein &amp; Amso, 2013; Kunert et al., 2015; Tóth, 2021; Tóth, 2018a; 2018b). Ennek megfelelően az olvasási zavarok feltárása a nyelvi, az olvasási és a kognitív folyamatok átfogó vizsgálata révén történik. A felnőttkori szerzett nyelvi zavarhoz, vagyis az afáziához, mint szindrómához társuló olvasási zavarok jellegzetességeinek feltárása kiemelt jelentőségű nemcsak a diagnosztikus folyamat, de az egyénre szabott, szindróma-specifikus terápiás folyamat megtervezéséhez is. Tanulmányunkban a felnőttkori szerzett olvasászavarok vizsgálatára kialakított mérőeszközünk első eredményeit mutatjuk be. A lexikai hozzáférés központi szerepet tölt be az olvasási folyamatok során (Perfetti, 1999; Perfetti &amp; Stafura, 2014), ennek megfelelően jelen közleményben olvasástesztünk lexikai hozzáférést mérő szubtesztjének első eredményeit prezentáljuk. Kutatásunkban afáziás személyek (n=19) nyelvi képességprofilját, valamint olvasási képességeit vizsgáltuk, az elemzések során korrelációs próbákat végeztünk. Első eredményeink alapján a lexikai hozzáférést mérő feladatok szignifikáns együttjárást mutattak több nyelvi és olvasást mérő komponenssel is, továbbá erős hatásokat tapasztaltunk a feladatok belső szerkezete szerint is. Mindezek alapján úgy tűnik, olvasástesztünk lexikai hozzáférést mérő próbái jól képesek differenciálni az afáziához társuló olvasászavarok főbb jellegzetességei között.</p> Orsolya Kis János Steklács Katalin Jakab Péter Klivényi Copyright (c) 2023 Nyelvtudományi Kutatóközpont 2023-05-10 2023-05-10 3 1 162 187 10.15775/Besztud.2022.162-187 A megakadásjelenségek és a temporális paraméterek szerepe a borderline személyiségzavar felismerésében https://ojs.mtak.hu/index.php/besztud/article/view/8985 <p><span style="font-weight: 400;">Borderline personality disorder (BPD) is characterized by a pervasive pattern of instability of identity, emotions, and interpersonal relationships, and difficulty with emotional and impulse control. Due to the complex system of diagnostic criteria and frequent comorbid disorders, borderline population is relatively heterogeneous, making it difficult for psychiatrists to diagnose individuals. As speech is a form of behavior, it is one of the objects of psychiatric examination, and its characteristics can be considered symptoms. Our goal is to differentiate borderline individuals (</span><em><span style="font-weight: 400;">N </span></em><span style="font-weight: 400;">= 27) from healthy controls (</span><em><span style="font-weight: 400;">N </span></em><span style="font-weight: 400;">= 27) based on the patterns of disfluencies and temporal parameters of spontaneous speech. We have built a classification model that predicts the likelihood of BPD in an individual with 0.834 AUROC based on the frequency of silent pauses, filled pauses, and disturbances of grammatical encoding (grammatical errors and blendings).</span></p> Fanni Felletár Gábor Gosztolya Ildikó Hoffmann Anna Babarczy Copyright (c) 2023 Nyelvtudományi Kutatóközpont 2023-05-10 2023-05-10 3 1 188 224 10.15775/Besztud.2022.188-224 Ybl a Google-ön https://ojs.mtak.hu/index.php/besztud/article/view/8523 <p>Tanulmányunkban a magyar kölcsönszavak fonológiájának egy eddig feltáratlan részét vizsgáljuk, mégpedig a szillabikus l-t tartalmazó szavak adaptációját, és e szavak szerepét a magyar magánhangzó-harmónia rendszerében. A magyarban nincsenek szillabikus mássalhangzók, és szóvégi mássalhangzó-l torlódások is alig. Egy laboratóriumi kísérletben azt vizsgáltuk, hogy a magyar beszélők hogyan ejtik a szótagvégi l-re végződő kölcsönszavakat, és hogy milyen toldalékalternánsokat választanak hozzájuk.<br>A 28 beszélőnek 6 célszót kellett kiejtenie nominutivusi, superessivusi (SUE, -on/-ɛn/-øn) és allativusi (ALL, hoz/-hɛz/-høz) alakokat kikényszerítő szintaktikai környezetekben. A célszavak között két német eredetű családnév ([ibl̩], [ʃtroːbl̩]) és négy újabb kölcsönszó ([duːdl̩], [ɡuːɡl̩], [lidl̩], [pazl̩]) szerepelt.<br>A kísérlet után a célszóhoz kapcsolt toldalékok magánhangzóminőségét és a realizált szótagok számát vizsgáltuk, ezt követően az l és a beillesztett magánhangzók formánsszerkezetét és hosszát elemeztük Praat és R segítségével.<br>Eredményeink a következők. Kimutattuk, hogy a beszélők a célszavakat két szótagban ejtették. Bizonyítékul az igen/nem kérdéseknél az intonációs csúcs szolgált.<br>Előfordulnak mind a betoldott magánhangzóval, mind a szillabikus l-lel ([ɡuːɡVl] ∼ [ɡuːɡl̩]) ejtett szóalakok. A betoldás gyakoribb az igen/nem kérdésekben, mint a kijelentő módúakban, a SUE alakokban, mint az ALL alakokban, továbbá mindkét szuffixált alakban, mint a tőalakban.<br>A semleges tövek elsősorban elülső alternánsokat választanak ([ibl̩-høz], [lidl̩-øn]), míg a hátsó tövek esetében, mind hátsó, mind elülső toldalékok előfordulnak ([pazl̩-øn], [ʃtroːbl̩-hoz]), még egy beszélő és egy célszó esetében is ([ʃtroːbl̩-hoz], [ʃtroːbl̩-øn]). A szillabikus l tehát átlátszó lehet az elölségi harmóniára.<br>A célszavak harmóniai viselkedése azonban nem magyarázható a redukált magánhangzó beszúrásával. A tapasztalt tendenciák ellenére az elülső toldalékkal ellátott alakoknak csak 60%-a tartalmazott redukált magánhangzót, és a redukált magánhangzó nélküli alakok 78%-a is az elülső toldalékot választotta. Ezt regressziós módszerek is megerősítik.<br>Következésképpen tehát más tényezők is szerepet játszhatnak, például az [ø] és az alveoláris mássalhangzók akusztikai hasonlósága.</p> Ákos Blaskovics Ambrus Ittzés Copyright (c) 2023 Nyelvtudományi Kutatóközpont 2023-05-10 2023-05-10 3 1 225 272 10.15775/Besztud.2022.225-272 Audiovizuális beszédszintézis nyelvultrahang alapon https://ojs.mtak.hu/index.php/besztud/article/view/8283 <p>In this study, we present our initial results in audiovisual speech synthesis (AV-TTS), which is a subfield of the more general areas of speech synthesis and computer facial animation. The goal of the visible speech synthesis is typically to generate face motion or articulatory related information (e.g., lip, tongue movement or velum position). We conduct experiments in text-to-articulation prediction, using ultrasound tongue image targets. We extend a traditional DNN-TTS framework with predicting ultrasound tongue images, of which the continuous tongue motion can be reconstructed in synchrony with synthesized speech. The final output is speech and ultrasound tongue video in 'wedge' orientation. We use the data of eight English speakers (roughly 200 sentences from each of them) from the UltraSuite-TaL dataset, train several types of deep neural networks (DNNs), and show that simple DNNs are more suitable for the prediction of sequential articulatory data, as we have limited training material. Objective experiments and visualized predictions show that the proposed solution is feasible and the generated ultrasound videos are mostly close to natural tongue movement, but are sometimes oversmoothed. A specific application of audiovisual speech synthesis and text-to-articulation prediction is computer-assisted pronunciation training / computer-aided language learning, which can be beneficial for learners of second languages. With such an AV-TTS, by giving an arbitrary input text, one is able to hear the synthesized speech and, in synchrony with it, see how to move the tongue in 2D or 3D to produce target speech sounds. This visual feedback can be helpful for pronunciation training in L2 learning, especially when the target language contains speech sounds which are difficult to articulate (e.g., significantly different from the speaker's mother tongue).</p> Tamás Gábor Csapó Copyright (c) 2023 Nyelvtudományi Kutatóközpont 2023-05-10 2023-05-10 3 1 273 291 10.15775/Besztud.2022.273-291 A FilmHír adatbázis fejlesztése régi filmhíradókban elhangzó beszéd vizsgálatához https://ojs.mtak.hu/index.php/besztud/article/view/8297 <p>Ez a tanulmány egy olyan adatbázis fejlesztésének első lépéseit mutatja be. amely a Magyarországon készült első hangos filmhíradók beszédanyagának kutatását segíti. Mivel ebben az esetben nem volt felvételi protokoll, és a felvételek nem kontrollált környezetben készültek, az adatbázis fejlesztése több szempontból is eltér más, tervezett adatbázisokétól, mint például a BEA Spontánbeszéd-adatbázistól. A beszélők és a beszédtípusok kiválasztása sem volt kiegyensúlyozott, emellett a beszédanyag számos, a fejlesztő számára előre megjósolhatatlan elemet tartalmazhat. A fejlesztés első fázisában 1931-ben és 1932-ben készült, beszédet tartalmazó 140 filmhírt annotáltunk, csak beszédszakasz szintjén. Készítettünk egy egyszerű, metaadatokat tartalmazó táblázatot. A filmhírek többféle beszédtípust tartalmaztak, mint például beszélgetéseket, nyilvános beszédeket, narrációkat, vezényszavakat, interjúkat. A fejlesztés második szakaszában további metaadatokat építettünk be a táblázatba, például háttérzajra, zenére, idegennyelvű közlésekre, torzulásokra stb. vonatkozóan. A tanulmány megtárgyalja a kutatási tapasztalatokat és az adatbázis által kínált lehetőségeket, illetve a továbbfejlesztés lehetséges irányait is.&nbsp;</p> Ákos Gocsál Copyright (c) 2023 Nyelvtudományi Kutatóközpont 2023-05-10 2023-05-10 3 1 292 319 10.15775/Besztud.2022.292-319