•  
  •  
 

e-Scripta Romanica

Title

Suggestions for building an accurate oral corpus to phonetics analysis

Spanish Title

Recomendaciones para la confección de un corpus oral válido para el análisis fonético

Abstract

Mistakes are often made when an oral corpus is collected and sometimes these mistakes could make impossible a future phonetic analysis of the data. To avoid this happen some advices are proposed in this paper regarded to participants, to recordings, and to available tools in order to build an oral corpus. The purpose of this paper is to advice future researchers in building this kind of corpus. These advices will help them to build an accurate corpus to phonetics analysis following current scientific quality standards.

Spanish Abstract

A menudo se cometen errores en la recogida y tratamiento de datos para la confección de un corpus oral, que en ocasiones pueden llegar hasta imposibilitar un posible análisis fonético posterior. Para evitar esto se proponen en estas páginas una serie de consejos previos relativos a los participantes, a las grabaciones y a las herramientas de construcción del corpus; todo ello con la idea de aconsejar al investigador a la hora de construir un corpus oral. Estos consejos le ayudarán a construir un corpus que permita el análisis fonético adecuado con los estándares de calidad científica actuales.

Keywords

oral corpus, analysis of phonetics, natural speech, recordings, data-mining

Spanish Keywords

corpus orales, análisis fonético, habla real, grabaciones, explotación de los datos.

References

BLUM-KULKA, S., J. HOUSE & G. KASPER (1989): Cross-cultural Pragmatics: Requests and Apologies. Norwood, NJ: Alblex Publishing Corporation.

BOERSMA, P. & D. WEENINK (2016): Praat: Doing Phonetics by Computer, (versión 6.0.17) .

BRUYNINCKX, M., B. HARMEGNIES, J. LLISTERRI & D. POCH (1994): Language-Induced voice quality variability in bilinguals. Journal of Phonetics, 22(1), pp. 19-31.

DURAND, J., U. GUT & G. KRISTOFFERSEN (eds.) (2014): The Oxford Handbook of Corpus Phonology. Oxford: Oxford University Press.

ESCUDERO, D., L. AGUILAR, M. M. VANRELL & P. PRIETO (2012): “Analysis of intertranscriber consistency in the Cat_ToBI prosodic labelling system”. Speech Communication, 54, pp. 566‐582.

ANDERSON, A.H., M. BADER, E.G. BARD, E. BOYLE, G. DOHERTY, S. GARROD, S. ISARD, J. KOWTKO, J. MCALLISTER, J. MILLER, C. SOTILLO, H.S. THOMPSON & R. WEINERT (1991): “The HCRC Map Task corpus”. Language and Speech, 34, 4, pp. 351-366.

KOCK, J. de (2001): Lingüística con corpus. Catorce aplicaciones sobre el español. Salamanca: Universidad de Salamanca.

KENNEDY, G. D. (1998): An Introduction to Corpus Linguistics. Londres: Longman.

LÓPEZ MORALES, H. (1994): Métodos de investigación lingüística. Salamanca: Colegio de España.

MACWHINNEY, B. (2010): Introduction to CHILDES and TalkBank. Presentación de Powerpoint en la página web: http://childes.psy.cmu.edu/intro/ .

MCENERY, T. & A. WILSON (1996): Corpus Linguistics. Edinburgh: Edinburgh University Press.

ORTEGA, J., J. GONZÁLEZ & V. MARRERO (2000): “Ahumada: A large corpus in Spanish for speaker characterization and identification”. Speech Communication, 31, 2, pp. 255-264.

ROSE, Y., B. MACWHINNEY, R. BYRNE, G. HEDLUND, K. MADDOCKS, P. O’BRIEN & T. WAREHAM (2006): “Introducing Phon: A Software Solution for the Study of Phonological Acquisition”. Proceedings of the 30th Annual Boston University Conference on Language Development. D. BAMMAN, T. MAGNITSKAIA & C. ZALLER (eds.). Somerville: Cascadilla Press, pp. 489-500.

SILVA-CORVALÁN, C. (2001): Sociolingüística y pragmática del español. Washington D.C.: Georgetown University Press.

SCHMIDT, T., K. WÖRNER, H. HEDELAND & T. LEHMBERG (2011): “New and future developments in EXMARaLDA. Multilingual Resources and Multilingual Applications. Proceedings of GSCL Conference 2011 Hamburg. T. SCHMIDT & K. WÖRNER (eds.).

SVEC, J.G. & S. GRANQVIST (2010): “Guidelines for selecting microphones for human voice production research”. American Journal of Speech- Language Pathology, 19,4, pp. 356-368.

TORRUELLA, J. & J. LLISTERRI (1999): “Diseño de corpus textuales y orales”. Filología e informática. Nuevas tecnologías en los estudios filológicos. J.M. BLECUA, G. CLAVERÍA, C. SÁNCHEZ & J. TORRUELLA (eds.). Barcelona: Seminario de Filología e Informática, Departamento de Filología Española, Universidad Autónoma de Barcelona - Editorial Milenio, pp. 45-77.

WITTENBURG, P., H. BRUGMAN, A. RUSSEL, A. KLASSMANN & H. SLOETJES (2006): “ELAN: a Professional Framework for Multimodality Research”. Proceedings of LREC 2006, Fifth International Conference on Language Resources and Evaluation.

First Page

71

Last Page

79

Language

spa

Share

COinS