Convenciones de transcripción

@Title: Premio MAVIR
@File: mavir08.xml
@Participants: RAN, Francisco M., (man, B, 3, computer  specialist, lecturer, xxx)
@Date: 16/11/2007
@Place: Madrid
@Situation: Conference (II Jornadas MAVIR), conference room at university, not hidden, researcher as observer
@Topic: Language Technologies
@Source: MAVIR 
@Class: formal in natural context, conference, monologue
@Length: 18' 55''
@Words: 3356
@Acoustic_quality: A
@Transcriber: María Cristina Tovar
@Revisor: Marta Garrote
@Comments:

RAN &eh la tesis va sobre clasificación de páginas web en dominios específicos  00:03

RAN ha sido dirigida / como digo / por el doctor don Anselmo Peñas 00:06

RAN y en primer lugar / &eh hablar de qué significa esto de [/] de clasificación / en estos dominios específicos 00:12

RAN en Internet tenemos mucha información 00:14

RAN la primera clasificación de esta información podría ser / en dominios genéricos como páginas sobre academias / &eh páginas académicas / información académica / páginas de blog / páginas corporativas / de empresas / de información / de administraciones públicas / de entretenimiento / personales / tiendas / etcétera 00:30

RAN dominios &específios [/] específicos sería entrar en [/] en un grano más fino de [/] de clasificación / sobre este &do [/] sobre toda esta información 00:38

RAN &eh sobre / uno de ellos por ejemplo / entretenimiento / tendríamos un dominio específico que sería el teatro 00:44

RAN dentro de teatro existen una serie de categorías / revistas / compañías / festivales / salas / que hablan de teatro 00:50

RAN entonces el marco de la tesis se ha {%alt: s'a} [/] se ha {%alt: s'a} [/] se ha centrado en esto // en [/] en obtener una clasificación dentro de [/] de -> [/] de estos [/] &eh de este dominio específico del teatro / ¿ no ? 01:00

RAN podría ser aplicable / es una de las líneas de investigación que se deberá seguir / aplicable a otros dominios / pero siempre dentro de un marco específico 01:07

RAN el porqué / a lo largo de la tesis lo veremos / %eh pero hhh {%act: click} adelantar un poco que es [/] básicamente son las líneas de futuro 01:15

RAN %eh -> / los buscadores cada vez más / pretenden dar información que sea útil al usuario / y para que sea útil tiene que ser de grano fino 01:22

RAN no puedes decirle a una persona que una página es de teatro o es de [/] o es de -> / &eh / de una universidad 01:27

RAN eso ya lo sabe 01:28

RAN tienes que darle información que él esté buscando / ¿ vale ? 01:32

RAN estructuramos la -> [/] la presentación y la investigación en tres grandes puntos / definiendo primero el problema / y los objetivos que se han seguido para intentar darle solución / los experimentos que se han realizado para guiar esta [/] esta investigación / y las conclusiones a las que se han llegado / y las aplicaciones y líneas de investigación futuras que requeriría 01:50

RAN / la web es -> [/] es muy grande 01:54

RAN es el mayor repositor de información en la actualidad 01:56

RAN es -> una información muy dinámica / ¿ eh ? 01:59

RAN se utiliza para consultar [/] hoy será / de lo que más se utiliza para [/] para realizar consultas por parte del usuario // para obtener / &in [/] información válida a partir de esta maraña de información se necesita dar orden 02:10

RAN como es tan grande y es tan dinámica / no se puede dar orden de manera &na [/] &eh manual / por lo que se necesita / métodos de clasificación automática 02:17

RAN por otro lado / otro problema que está surgiendo con el acercamiento tecnológico a la [/] a la población / es que cada vez más hay grupos sociales que deben de estar protegidos 02:25

RAN el ejemplo más directo es el de los niños / que están en un colegio / empiezan sus clases de informática / &eh tienen un ordenador con conexión a Internet / y no deberían de poder ver contenidos perniciosos pues de [/] de pornografía / de violencia o [/] o de juegos 02:39

RAN además / la web está evolucionando 02:42

RAN &eh la web 2.0 / está muy de moda 02:45

RAN &eh está marcando las tendencias de futuro 02:47

RAN toda la colaboración entre usuarios para ir creando servicios avanzados 02:50

RAN y cómo no los blogs 02:52

RAN los blogs &eh están teniendo una auge bestial 02:54

RAN todo el mundo / prácticamente todo el mundo ya tiene un blog // hoy en día 02:57

RAN esto se traduce en necesidad de buscadores específicos de esta información 03:01

RAN Google tiene un buscador de blogs / que no es realmente un buscador de blogs / porque te encuentra / &eh todas aquellas páginas que tienen una suscripción / una suscripción RSS ATOM / de este estilo / que tengan que ver con tu -> [/] con tus palabras 03:14

RAN / no son realmente blogs 03:21

RAN entonces todo esto &eh / hhh {%act: click} también necesita una clasificación de este tipo de páginas 03:26

RAN con ello / se llega a los objetivos de la -> [/] de la -> [/] de la investigación 03:31

RAN proponer una representación general de las páginas para clasificarlas en el dominio específico / y proponer una representación específica / para el tipo de páginas blog / &eh para alcanzar una [/] una representación mucho más eficiente 03:46

RAN todo ello / además se debe de trasladar / los resultados a otros dominios para / &eh validar la [/] la potencia del método 03:54

RAN y para guiar &eh / toda esta investigación pues {%alt: pos} se fijan unos objetivos secundarios / que es crear una colección de pruebas sobre la que realizar los experimentos / determinar un marco de evaluación / un [/] unas necesidades &eh básicas de [/] de tratamiento de la [/] de la información / un pretratamiento en todo proceso de [/] de minería / y fijar un marco de comparativo / una baseline / sobre la que / poder / validar / nuestros resultados 04:15

RAN hhh {%act: click} &eh los experimentos de clasificación el &eh / hhh {%act: click} empezamos con la [/] con la creación de la colección de pruebas 04:22

RAN no se ha utilizado una colección de pruebas estándar 04:24

RAN no -> [/] en primer lugar no había ninguna colección de pruebas / en un dominio específico como éste 04:29

RAN existen muchas genéricas / pero en dominio específico no habría 04:31

RAN / y se realiza un crawl 04:39

RAN se obtienen todas las páginas que nos servirán tanto para entrenamiento como para validación / teniendo un conjunto de cuatro mil ochocientas páginas 04:45

RAN hhh {%act: click} ¿ eh ? la disparidad entre -> [/] entre -> la presencia da cada una de las -> / &eh categorías / es bastante grande 04:53

RAN esto afectará a los resultados / pero también servirá para ver &eh la [/] la fortaleza del método cuando / los entrenamientos son defectuosos 05:07

RAN hhh {%act: doubt} la colección de pruebas se ha dividido 05:10

RAN // pero básicamente las páginas de un mismo sitio / en cierto modo tienen relación entre ellas 05:24

RAN han sido creadas / seguramente por un mismo diseñador 05:27

RAN &eh hablan más o menos de lo mismo 05:29

RAN / va a dar / &eh valores más altos de los que en realidad debería de dar 05:38

RAN además se ha obtenido una colección de pruebas extendida / para realizar la [/] la [/] el traspaso de [/] del método fuera del dominio del teatro 05:47

RAN para ello / esto sólo ha sido para -> las páginas de tipo blog 05:50

RAN se han obtenido / &eh tres mil seiscientas noventa y seis páginas de tipo blog / &eh clasificadas manualmente de &mane [/] de manera previa 05:57

RAN / y además se han introducido páginas en diferentes idiomas // para intentar que el [/] que el método sea independiente tanto del contenido como del idioma 06:09

RAN y se ha obtenido un crawl de [/] del directorio de Yahoo / para obtener las [/] las páginas de [/] de alimentación negativa / las que no son tipo blog / obteniendo en total cerca de [/] de nueve mil doscientas páginas 06:19

RAN hhh {%act: click} la necesidad del crawl / el primer experimento &eh / pasarlo rápidamente 06:24

RAN hhh {%act: click} el marco de evaluación &eh es importante 06:39

RAN nos hemos basado en una evaluación típica de -> [/] de precisión donde los [/] el entrenamiento se realiza intentando maximizar / el -> número de aciertos / minimizar el número de errores 06:48

RAN no se ha introducido coste 06:50

RAN y además se -> [/] se ha aportado relevancia estadística en cuanto a intervalo de confianza del error real a partir del error muestral que hemos cometido // de manera que los resultados tengan cierta &eh / importancia estadística 07:02

RAN el método de validación que se ha utilizado / &eh ha sido uno / que hemos propuesto / específicamente para [/] para esto 07:09

RAN es el [/] el denominado dos por dos 07:11

RAN el problema está en que la validación cruzada / se realiza / el entrenamiento / &eh moviendo bloques entre los datos de entrenamiento y los de validación 07:18

RAN como ya decimos estos bloques son difíciles / porque las páginas están extraídas de un mismo sitio y tienen bastante relación entre ellas 07:24

RAN por lo tanto hemos partido / &eh lo que comentaba / la colección de pruebas en dos / &eh / atendiendo a que cada parte de la colección de pruebas / tuviera páginas de un sólo sitio 07:34

RAN y se ha realizado una validación / &eh cruzada entre ellas 07:37

RAN primero se ha entrenado con una se ha validado con la otra se ha hecho la inversa y se ha sacado la media 07:40

RAN un método como el de Dietterich / cinco por dos / &eh pero con menos iteraciones 07:45

RAN hhh {%act: click} &eh con este marco de evaluación / un experimento sencillo para ver si teníamos razón / fue éste 07:52

RAN realizamos una validación cruzada y obtuvimos unos resultados 07:55

RAN esto es un método por bolsa de palabras estándar sin realizar -> / filtros sin realizar pretratamiento de nada 08:01

RAN y con una validación cruzada hemos obtenido casos hasta del noventa por ciento de un estadístico efe 08:05

RAN eso de entrada es [/] seguramente es falso 08:07

RAN casi todos los estudios que hay están en el treinta al cuarenta por cien 08:10

RAN entonces {%alt: tonces} con el método dos por dos / nos da -> algo más realista / el treinta / el cinco / el diez por cien 08:17

RAN hhh {%act: click} a las necesidades de pro [/] procesamiento / están claras en todos los proyectos de minería 08:22

RAN en éste / %eh básicamente son &eh / tratamiento del corpus y tratamiento lingüístico 08:27

RAN una aplicación de un stem / sería la parte más sencilla / un stem de Porter / y una selección de un corpus general o un corpus específico 08:33

RAN los experimentos también &eh / han sido / claros con esto 08:37

RAN el [///] no es necesario / para aumentar el rendimiento / pero sí para reducir la dimensionalidad // cosa que quizá es más importante aún 08:43

RAN hhh {%act: click} &eh determinar un baseline / es [/] es necesaria 08:48

RAN con todo esto ya estaríamos fijando el marco de trabajo sobre el que hacer una propuesta y poder compararla 08:52

RAN la baseline es la -> [/] la -> clásica de [/] del Bag of Words / la bolsa de palabras / a la que además se le han añadido / dos mejoras / una introduciendo / métodos contextuales / como el título las -> [/] las URLs o los [/] o los elementos enmarcados / y otro en el que únicamente se obtienen las palabras que aparecen en la URL 09:10

RAN es un método que [/] que está en el estado del arte / que obtiene resultados muy interesantes / y que los hemos querido comparar 09:15

RAN hhh {%act: click} los resultados también son claros 09:18

RAN ninguna de ellas mejora / a la baseline // &eh significativamente / a nivel de [/] de significación de un noventa y cinco por cien incluso 09:25

RAN pero sí que / se encontró que [/] que el método de las URLs / en algunos casos puntuales daba mucha certeza 09:32

RAN esto es fácil de entender 09:33

RAN una página que en su URL tenga la palabra festivales / seguramente / y casi cien por cien de seguridad / va a ser de la categoría festivales 09:41

RAN una página que tenga blog spot / va a ser un blog 09:44

RAN a partir de todo ello / a partir de estudios que [/] que realizamos / uno de los métodos que más nos interesó / &eh por ser de los que mejores resultados conseguía / era un método que obtenía una clasificación a partir de un resumen / de la página web 09:58

RAN el resumen se puede hacer de dos maneras 10:00

RAN o lo puede hacer una persona / y entonces ya no estaríamos en este proyecto porque / ya que haces el resumen / haces la clasificación 10:07

RAN o utilizas un -> [/] un método de resumen automático / por la xxx semantic analysis o algún otro método / que son bastante complejos / y es otro proyecto de investigación 10:16

RAN / ¿ eh ? 10:25

RAN el problema de la cabecera es que no siempre está informada 10:27

RAN el problema de los enlaces [/] hay muchos enlaces del tipo pincha aquí 10:30

RAN entonces por sí solos no [/] no ofrecen información 10:33

RAN combinándolos / una ponderación podría fastidiar a la otra 10:36

RAN entonces decidimos triplicar esta característica 10:38

RAN / ¿ vale ? 10:51

RAN los resultados son -> [/] son bastante claros 10:53

RAN &eh en las tablas se muestran en [/] en negrita 10:56

RAN &eh / no sé si se ven las negritas 10:58

RAN pero vamos / la mayoría de los resultados / el método propuesto / que es el de la derecha tiene mejores &eh [/] mejoras significativas en [/] en cuanto a la prueba efe // mejoras de hasta setenta puntos / en [/] en este estadístico 11:10

RAN como se puede ver / en [/] en rojo {%com: points the screen} lo que acabo de comentar 11:29

RAN este sería el intervalo de confianza 11:31

RAN con otro cálculo 11:34

RAN pero / &eh tenemos lo mismo 11:36

RAN el error de confianza -> / el error / &eh cometido / es bastante inferior en el caso de [/] del método que [/] que se propone 11:43

RAN ahora las conclusiones son directas 11:46

RAN se ha obtenido una [/] una mejora significativa 11:48

RAN pero también hay que tener en cuenta &eh los problemas / la sensibilidad / a páginas que no tengan suficientemente información 11:54

RAN es bastante sensible // estos casos 11:57

RAN / ¿ eh ? 12:03

RAN le [/] cualquier persona que vea un blog / nada más verlo / da igual en qué idioma esté / qué colores tenga / quién lo haya escrito y de qué &funci [/] &funci [/] &eh sea ese blog / sabe que es un blog 12:13

RAN eso son características visuales / que si pudiéramos plasmarlas de algún modo de manera formal / y utilizarlas para clasificar / podríamos obtener / bastante eficiencia y ser independientes tanto de contenido como de idioma 12:24

RAN el método / es / que se han obtenido quince características / &eh específicas / &eh a partir de la estructura HTML / de los blogs 12:32

RAN y básicamente es eso 12:34

RAN tú ves un blog / tiene un apartado de [/] de POST / es un diario donde / el usuario va escribiendo POST 12:40

RAN estos POSTs están encabezados con el título del POST 12:42

RAN pueden ser etiquetas / &eh H1 H2 / diferentes etiquetas HTML 12:46

RAN suele tener una fecha de publicación 12:48

RAN y suele tener un enlace -> feedback / para tener retroalimentación con el usuario 12:53

RAN hhh {%act: click} además aparecen un conjunto de enlaces / &eh siempre juntos / &eh que se -> [/] donde se enlazan a otros blogs de -> [/] denominados blogs amigos / o hacia páginas de dentro del propio archivo de [/] del blog 13:05

RAN hhh {%act: click} además palabras &com [/] palabras clave o palabras reservadas que suelen aparecer bastante en el contenido / son la palabra POST / y la propia palabra blog 13:13

RAN y además / los blogs suelen tener &eh suscripción RSS/ATOM 13:17

RAN no es exclusiva de ellos / no la tienen todos / pero es un [/] otra característica que da certeza 13:22

RAN todas estas características se combinan mediante ratios obteniendo las quince características que [/] que utilizamos 13:28

RAN los resultados son / bastante -> [/] bastante claros 13:32

RAN &eh / en la prueba efe / se ha obtenido / muy por encima del noventa por ciento 13:38

RAN en el caso de [/] de que no sea blog una página / casi en el noventa y nueve por cien / de los casos se [/] se indica así 13:45

RAN &eh / comparándolo con la baseline / &eh son bastante elevados 13:50

RAN &eh la estándar / está alrededor del treinta por cien 13:53

RAN el nuestro ha sacado el noventa y dos por cien 13:54

RAN la que propusimos de [/] del encabezado / sacó un sesenta y seis por cien / cuando es pertenencia a los blogs / y un noventa y cuatro cuando no lo es / también inferior / a ésta 14:03

RAN por &eh [/] y en / los intervalos de error lo mismo 14:06

RAN están muy por debajo del dos por cien // el error real con un [/] un intervalo de un uno por cien / de confianza 14:12

RAN hhh {%act: click} la conclusiones que se ha obtenido una representación novedosa y eficiente / y que supera el -> rendimiento de las estudiadas en el estado del arte 14:20

RAN esta representación nos interesaba mucho sacarla fuera del [/] del [/] del ámbito del teatro 14:26

RAN / ¿ eh ? 14:34

RAN los resultados también son / bastante claros ¿ no ? 14:37

RAN seguimos / manteniéndonos por encima del noventa por cien en [/] en el estadístico efe 14:41

RAN %eh / hhh {%act: click} / el error / se mantiene / en el caso de que sea blog / incluso se disminuye 14:48

RAN se queda por debajo del [/] del uno por cien 14:51

RAN / está en el doce por cien / de error 14:55

RAN &eh / ha aparecido un pequeño problema 14:57

RAN en la matriz de contingencia / se ve 15:00

RAN hay falsos positivos 15:01

RAN es decir / hay páginas que no son blogs / que se clasifican como blogs // aproximadamente el doce por ciento de ellas 15:07

RAN y estudiando / fueron páginas que eran grupos de noticias con estructuras muy muy similares a los blogs 15:12

RAN entonces las conclusiones son claras 15:14

RAN el rendimiento se ha mantenido en &tros [/] en otros dominios 15:17

RAN se ha demostrado que se -> [/] que se [/] que es independiente del contenido de los blogs 15:21

RAN da igual de [/] de que se escriba en el blog 15:23

RAN incluso / es independiente del idioma en el que esté escrito 15:26

RAN el -> problema que aparece es que se incrementan los falsos positivos 15:30

RAN se catalogan noticias como blogs 15:32

RAN una recapitulación de experimentos / y las conclusiones 15:36

RAN la principal conclusión / se ha fijado -> / el -> marco de [/] de trabajo / con la colección de pruebas / la evaluación y el baseline 15:42

RAN que mejora la baseline / hasta en setenta puntos / del estadístico efe en algunos de los casos / en entrenamientos defectuosos como [/] como veíamos 15:56

RAN pero que es sensible a determinados entrenamientos y validaciones cuando las páginas no tienen suficientemente información 16:02

RAN páginas flash / que no tienen enlaces / y el -> [/] el que lo creó no puso nada en la cabecera 16:08

RAN y encima la URL es muy genérica 16:11

RAN esas páginas no [/] no suelen tener / buenos resultados 16:14

RAN el método de los blogs / obtiene un estadístico efe por encima del noventa por cien / mejora significativamente el estado del arte / es aplicable a cualquier dominio / independiente del contenido y del idioma // pero presenta ciertos problemas con grupos de noticias 16:28

RAN todo esto nos da lugar a líneas de investigación futuras / y a posibles aplicaciones de esto 16:33

RAN &eh / en cuanto al primer método / &eh habría que extenderlo fuera del dominio / de [/] del teatro / lo mismo que se ha realizado con los blogs / para comprobar que se adecua a otros dominios y ver su [/] su veracidad 16:45

RAN &eh habría que introducir alguna nueva característica 16:48

RAN habría que investigar / para estas páginas que no tienen suficientemente información 16:52

RAN quizás habría que meter tratamiento lingüístico 16:55

RAN habría que probarlo en otros idiomas y ver si es necesario / realizar stemmers o realizar alguna cosa así 17:00

RAN podría ser interesante analizar imágenes / &eh desde el texto alternativo que casi nadie pone / hasta el tamaño de las imágenes o incluso ya meterse en histogramas / pero bueno / eso habría que investigarlo 17:11

RAN los [/] los clientes / lo que principalmente nos han pedido son [/] son gerentes de clínicas / clínicas privadas / pequeñas de ocho o diez médicos / &eh nos quieren controlar a los trabajadores / porque en horas de trabajo se han puesto a buscar ofertas de trabajo / por ejemplo 17:31

RAN entonces lo primero que quieren es un filtro / contra &eh búsqueda de empleo 17:35

RAN / estamos trabajando en ello 17:38

RAN &eh / el tema de la pederastia {%alt: pederastía} / es un tema en la actualidad bastante / peliagudo / bastante / jodido 17:46

RAN &eh / estamos dentro de un dominio específico / el dominio del sexo / el dominio de las páginas pornográficas / pero / con páginas / que [/] que están buscando un tema &ile [/] un tema ilegal / contacto con menores 17:59

RAN &eh / la aplicación debería ser directa / pero habría que investigar a ver si se adapta 18:04

RAN y bueno / combinándolo con el análisis de la página / &eh las técnicas de -> antispam &ah xxx / están haciendo / todo lo posible porque los índices de los buscadores no incluyan cosas como lo de -> los políticos sudando en Sudán y cosas así ¿ no ? 18:18

RAN si se analiza todo el contenido de la página y dice que la página va de una cosa / y el autor / quiere decir / en su meta-información que va de otra cosa / ahí se está dando una discordancia 18:29

RAN es posible que eso sirva 18:30

RAN / eso es una especulación 18:32

RAN por otro lado el método de los blogs / &eh / directamente habría que mejorar la diferenciación entre blogs y noticias / para que obtuviera resultados &eh mejores 18:41

RAN pues / incorporarlo en algún buscador / &eh que sea un buscador real de blogs // que los contenidos que te devuelva realmente sean blogs 18:49

RAN {%alt: click} ¿ vale ? 18:51

RAN con todo ello terminaría 18:52

RAN si tienen alguna pregunta 18:53