Corpus Oral de Español como Lengua Extranjera (ELE)






1. Objetivos

2. Participantes

3. Tipología de las lenguas maternas

4. Grabaciones y datos

5. Diseño de la entrevista

6. Convenciones de transcripción

7. Etiquetado de errores

8. Recuentos de palabras y listas de frecuencias

9. Referencias

10. Acceso a la guía didáctica

11. Actividades para profesores

12. Contacto

13. Agradecimientos

14. Glosario de términos







1. Objetivos

La finalidad de recoger un corpus de habla de estudiantes de español como lengua extranjera ha sido el análisis de errores de la producción oral.

Dicho análisis permitirá conocer en mayor grado factores relacionados con la enseñanza/aprendizaje de lenguas extranjeras, como el grado de influencia de la lengua materna (L1, en adelante) o la frecuencia de cada tipo de error.

El estudio pretende mejorar la enseñanza de español a extranjeros considerando los errores y dificultades de cada tipo de aprendiz según su L1.






2. Participantes

Los aprendices son cuarenta (N = 40) estudiantes extranjeros de español de niveles A2 y B1 (MCER) del programa ERASMUS y otros convenios.

Estudiaban en el Servicio de Idiomas de la Universidad Autónoma de Madrid, y unos pocos en los cursos de español de la Universidad Complutense de Madrid.

Participaron 12 hombres y 28 mujeres, en su mayoría entre los 20 y los 25 años de edad. Más información se muestra en la tabla más abajo.






3. Tipología de las lenguas maternas

Participaron 4 estudiantes de nueve grupos de lenguas maternas, cuya tipología se muestra en el gráfico inferior.


Tipología de las lenguas maternas de los estudiantes


Un grupo mixto de 4 estudiantes tenía otras lenguas maternas diferentes: coreano, finés, húngaro y turco.






4. Grabaciones y datos

Las entrevistas han sido recogidas con una grabadora DAT (Digital Audio Tape) TASCAM con dos micrófonos, y otra grabadora digital Edirol (Roland).

La grabación se ha realizado a una frecuencia de muestreo de 16 kHz (16 bits por muestra), suficiente para recoger la calidad del habla humana. En la interfaz el formato de los archivos de sonido es MP3 para permitir la compresión de datos.

Ciertas grabaciones han sido editadas para amplificar partes del sonido en volumen bajo, o para segmentar fragmentos con ruidos excesivos o información personal que consideramos inadecuado mostrar.

En todas las entrevistas, el aprendiz sabía que estaba siendo grabado, lo cual ha podido afectar a la fluidez de la producción oral, especialmente en el caso de los estudiantes más tímidos.

La duración de las entrevistas ronda los 15 minutos, sumando más de 1 hora de grabación aproximadamente para cada grupo de hablantes con la misma L1.

En total, se ha grabado un total de 13 horas y 36 minutos.

En la tabla inferior figuran desglosados los datos de cada entrevista del corpus.

Grabaciones y datos

*Nivel según Marco Común Europeo de Referencia para las lenguas






5. Diseño de la entrevista

Se trata de un diálogo semiespontáneo entre el investigador y el aprendiz.

La entrevista consta de las siguientes partes:

  1. Presentación del estudiante.

  2. Narración resumida de la historia que se presenta en unas viñetas.

  3. El objetivo de esta prueba es incitar al aprendiz a usar mecanismos narrativos para resumir la historia, sobre la cual, además, se realiza una pregunta relacionada con una función comunicativa.

    Las viñetas son las empleadas en los exámenes DELE y se han tomado del libro siguiente: Alzugaray, P., M. J. Barrios y C. Hernández (2006) Preparación al Diploma intermedio Español Lengua Extranjera. 1ª edición. Madrid: Edelsa.

    En una de las historias (figura inferior) se le pide al informante que se ponga en el lugar del hombre de la corbata en la última viñeta, para que exprese una sugerencia o propuesta.

    Viñetas de la prueba de narración

    En la otra historia (figura inferior), el informante tiene que ponerse en el lugar del cliente para realizar una petición.

    Viñetas de la prueba de narración

  4. Descripción de dos fotos.

  5. El propósito de esta prueba es conocer el nivel de vocabulario específico relacionado con la alimentación.

    Fotos de la prueba de descripción

  6. Opinar sobre el tema de la alimentación actual.

  7. La parte final de la entrevista pretende obtener lengua puramente espontánea.

    El tema de conversación es más libre, aunque se ha tendido a preguntar la opinión sobre asuntos relacionados con la alimentación actual (diferencias en el tipo de comida, hábitos, horarios para comer, la influencia en la salud, etc.).






6. Convenciones de transcripción

Las entrevistas han sido transcritas manualmente incluyendo marcas para registrar fenómenos del habla (disfluencias, pausas, repeticiones, etc.).

Se ha empleado una adaptación del formato de transcripción CHAT (como fue empleado en el proyecto C-Oral-Rom; Cresti and Moneglia, 2005) y de las convenciones usadas en el proyecto SPLLOC (Mitchell et al., 2008).

Un resumen esquemático acompañado de ejemplos se puede consultar pulsando aquí.

Se ha evitado transcribir o revelar abiertamente cualquier información personal relacionada con la identidad del participante, para preservar la confidencialidad de los datos.






7. Etiquetado de errores

Los errores de producción oral han sido marcados siguiendo una tipología basada en estudios previos para el inglés (James, 1998; Granger, 2003; Nicholls, 2003) y el español (Fernández, 1997; Bustos Gisbert, 1998; Vázquez, 1999).

La información y los criterios según los que se han marcado los errores son los siguientes:

Para el propósito del análisis, se ha distinguido entre errores no ambiguos y errores ambiguos (p. ej., un error de pronunciación que también se podría considerar como una deformación en el nivel léxico).







8. Recuentos de palabras y listas de frecuencias

Recuento de palabras y unidades léxicas

Vocabulario más frecuente

Lista de lemas (ordenados por frecuencia)

Uso de categorías morfológicas







9. Referencias

Alzugaray, P., M. J. Barrios y C. Hernández (2006) Preparación al Diploma intermedio Español Lengua Extranjera. 1ª edición. Madrid: Edelsa.

Bustos Gisbert, J. M. (1998) "Análisis de errores: problemas de categorización". Dicenda: Cuadernos de filología hispánica, nº 16, págs. 11-40. Accesible en: http://revistas.ucm.es/fll/02122952/articulos/DICE9898110011A.PDF

Corder, P. (1971) "Idiosyncratic Dialects and Error Analysis", en International Review of Applied Linguistics, nº 9, 2, pp. 147-60. Traducción al español: "Dialectos idiosincrásicos y análisis de errores", en J. Muñoz Liceras (comp.) (1991) La adquisición de las lenguas extranjeras, pp. 63-77. Madrid: Visor.

Cresti, E., y Moneglia, M. (2005) C-Oral-Rom: Integrated Reference Corpora for Spoken Romance Languages. Amsterdam-Philadelphia: John Benjamins. Studies in Corpus Linguistics, 13.

Fernández, S. (1997) Interlengua y análisis de errores en el aprendizaje del español como lengua extranjera. Edelsa: Grupo Didascalia

Granger, S. (2003) "Error-tagged Learner Corpora and CALL: a promising synergy", CALICO Journal, 20 (3), pp. 465-480. Disponible en: https://www.calico.org/html/article_289.pdf

James, C. (1998) Errors in Language Learning and Use. Exploring Error Analysis. London/ New York: Longman. Applied Linguistics and Language Study Series.

Mitchell, R., Domínguez, L., Arche, Mª., Myles, F. y Marsden, E. (2008) "Research Report: Linguistic Development in L2 Spanish: Creation and analysis of a learner corpus". Disponible en: http://www.splloc.soton.ac.uk/doc/SPLLOC_1_Report_Final.pdf

Myles, F. (2005) "Interlanguage corpora and second language acquisition research". Second Language Research, 21 (4), pp. 373-391.

Nicholls, D. (2003) "The Cambridge Learner Corpus – error coding and analysis for Lexicography and ELT". In Archer et al. (eds) Proceedings of the Corpus Linguistics 2003 Conference (CL2003). Lancaster University: University Centre for Computer Corpus Research on language, pp. 572-581. Disponible en: http://ucrel.lancs.ac.uk/publications/CL2003/papers/nicholls.pdf

Vázquez, G. (1999) Errores, ¡sin falta!. Madrid: Edelsa






10. Acceso a la guía didáctica

Para recibir la guía didáctica que complementa la consulta del corpus, contacte con:

leonardo (punto) campillos (@) uam (punto) es

leonardo (punto) campillos (@) gmail (punto) com

Una muestra de los contenidos de la guía se puede descargar aquí.






11. Actividades para profesores

Actividad 1. ¿Qué corregir?

Actividad 2. La explicación del error

Actividad 3. Los errores de cada grupo de alumnos

Actividad 3.1. Estudiante 1

Actividad 3.2. Estudiante 2

Actividad 3.3. Estudiante 3

Actividad 3.4. Estudiante 4

Actividad 3.5. Estudiante 5

Actividad 3.6. Estudiante 6

Actividad 3.7. Estudiante 7

Resumen de fenómenos de pronunciación más prominentes de cada grupo:

Alemán

Chino

Francés

Japonés

Inglés

Italiano

Neerlandés

Polaco

Portugués






12. Contacto

Para más información, contacte con:

leonardo (punto) campillos (@) uam (punto) es

leonardo (punto) campillos (@) gmail (punto) com






13. Agradecimientos

Este proyecto ha sido financiado por la Consejería de Educación de la Comunidad de Madrid y el Fondo Social Europeo (FSE) mediante un contrato predoctoral.

Logo Comunidad de Madrid Logo Fondo Social Europeo

Agradecemos a todos los estudiantes su participación en las entrevistas, así como a los revisores de las transcripciones por haber participado en este proyecto.

Esta interfaz de consulta ha sido desarrollada gracias a una estancia doctoral en la Facultad de Informática (School of Computing) de Dublin City University. Damos las gracias a la Dra. Monica Ward y al personal investigador del National Center for Language Technology por su ayuda prestada.

Agradecemos también la colaboración del Dr. José Mª. Guirao y de Antonio Pastor Cuevas, de la Universidad Autónoma de Madrid, en la instalación de la herramienta en el servidor.