@Title: Premio MAVIR
@File: mavir08.xml
@Participants: RAN, Francisco M., (man, B, 3, computer specialist, lecturer, xxx)
@Date: 16/11/2007
@Place: Madrid
@Situation: Conference (II Jornadas MAVIR), conference room at university, not hidden, researcher as observer
@Topic: Language Technologies
@Source: MAVIR
@Class: formal in natural context, conference, monologue
@Length: 18' 55''
@Words: 3356
@Acoustic_quality: A
@Transcriber: María Cristina Tovar
@Revisor: Marta Garrote
@Comments:
RAN &eh la tesis va sobre clasificación de páginas web en dominios específicos 00:03
RAN ha sido dirigida / como digo / por el doctor don Anselmo Peñas 00:06
RAN y en primer lugar / &eh hablar de qué significa esto de [/] de clasificación / en estos dominios específicos 00:12
RAN en Internet tenemos mucha información 00:14
RAN la primera clasificación de esta información podría ser / en dominios genéricos como páginas sobre academias / &eh páginas académicas / información académica / páginas de blog / páginas corporativas / de empresas / de información / de administraciones públicas / de entretenimiento / personales / tiendas / etcétera 00:30
RAN dominios &específios [/] específicos sería entrar en [/] en un grano más fino de [/] de clasificación / sobre este &do [/] sobre toda esta información 00:38
RAN &eh sobre / uno de ellos por ejemplo / entretenimiento / tendríamos un dominio específico que sería el teatro 00:44
RAN dentro de teatro existen una serie de categorías / revistas / compañías / festivales / salas / que hablan de teatro 00:50
RAN entonces el marco de la tesis se ha {%alt: s'a} [/] se ha {%alt: s'a} [/] se ha centrado en esto // en [/] en obtener una clasificación dentro de [/] de -> [/] de estos [/] &eh de este dominio específico del teatro / ¿ no ? 01:00
RAN podría ser aplicable / es una de las líneas de investigación que se deberá seguir / aplicable a otros dominios / pero siempre dentro de un marco específico 01:07
RAN el porqué / a lo largo de la tesis lo veremos / %eh pero hhh {%act: click} adelantar un poco que es [/] básicamente son las líneas de futuro 01:15
RAN %eh -> / los buscadores cada vez más / pretenden dar información que sea útil al usuario / y para que sea útil tiene que ser de grano fino 01:22
RAN no puedes decirle a una persona que una página es de teatro o es de [/] o es de -> / &eh / de una universidad 01:27
RAN eso ya lo sabe 01:28
RAN tienes que darle información que él esté buscando / ¿ vale ? 01:32
RAN estructuramos la -> [/] la presentación y la investigación en tres grandes puntos / definiendo primero el problema / y los objetivos que se han seguido para intentar darle solución / los experimentos que se han realizado para guiar esta [/] esta investigación / y las conclusiones a las que se han llegado / y las aplicaciones y líneas de investigación futuras que requeriría 01:50
RAN / la web es -> [/] es muy grande 01:54
RAN es el mayor repositor de información en la actualidad 01:56
RAN es -> una información muy dinámica / ¿ eh ? 01:59
RAN se utiliza para consultar [/] hoy será / de lo que más se utiliza para [/] para realizar consultas por parte del usuario // para obtener / &in [/] información válida a partir de esta maraña de información se necesita dar orden 02:10
RAN como es tan grande y es tan dinámica / no se puede dar orden de manera &na [/] &eh manual / por lo que se necesita / métodos de clasificación automática 02:17
RAN por otro lado / otro problema que está surgiendo con el acercamiento tecnológico a la [/] a la población / es que cada vez más hay grupos sociales que deben de estar protegidos 02:25
RAN el ejemplo más directo es el de los niños / que están en un colegio / empiezan sus clases de informática / &eh tienen un ordenador con conexión a Internet / y no deberían de poder ver contenidos perniciosos pues de [/] de pornografía / de violencia o [/] o de juegos 02:39
RAN además / la web está evolucionando 02:42
RAN &eh la web 2.0 / está muy de moda 02:45
RAN &eh está marcando las tendencias de futuro 02:47
RAN toda la colaboración entre usuarios para ir creando servicios avanzados 02:50
RAN y cómo no los blogs 02:52
RAN los blogs &eh están teniendo una auge bestial 02:54
RAN todo el mundo / prácticamente todo el mundo ya tiene un blog // hoy en día 02:57
RAN esto se traduce en necesidad de buscadores específicos de esta información 03:01
RAN Google tiene un buscador de blogs / que no es realmente un buscador de blogs / porque te encuentra / &eh todas aquellas páginas que tienen una suscripción / una suscripción RSS ATOM / de este estilo / que tengan que ver con tu -> [/] con tus palabras 03:14
RAN / no son realmente blogs 03:21
RAN entonces todo esto &eh / hhh {%act: click} también necesita una clasificación de este tipo de páginas 03:26
RAN con ello / se llega a los objetivos de la -> [/] de la -> [/] de la investigación 03:31
RAN proponer una representación general de las páginas para clasificarlas en el dominio específico / y proponer una representación específica / para el tipo de páginas blog / &eh para alcanzar una [/] una representación mucho más eficiente 03:46
RAN todo ello / además se debe de trasladar / los resultados a otros dominios para / &eh validar la [/] la potencia del método 03:54
RAN y para guiar &eh / toda esta investigación pues {%alt: pos} se fijan unos objetivos secundarios / que es crear una colección de pruebas sobre la que realizar los experimentos / determinar un marco de evaluación / un [/] unas necesidades &eh básicas de [/] de tratamiento de la [/] de la información / un pretratamiento en todo proceso de [/] de minería / y fijar un marco de comparativo / una baseline / sobre la que / poder / validar / nuestros resultados 04:15
RAN hhh {%act: click} &eh los experimentos de clasificación el &eh / hhh {%act: click} empezamos con la [/] con la creación de la colección de pruebas 04:22
RAN no se ha utilizado una colección de pruebas estándar 04:24
RAN no -> [/] en primer lugar no había ninguna colección de pruebas / en un dominio específico como éste 04:29
RAN existen muchas genéricas / pero en dominio específico no habría 04:31
RAN / y se realiza un crawl 04:39
RAN se obtienen todas las páginas que nos servirán tanto para entrenamiento como para validación / teniendo un conjunto de cuatro mil ochocientas páginas 04:45
RAN hhh {%act: click} ¿ eh ? la disparidad entre -> [/] entre -> la presencia da cada una de las -> / &eh categorías / es bastante grande 04:53
RAN esto afectará a los resultados / pero también servirá para ver &eh la [/] la fortaleza del método cuando / los entrenamientos son defectuosos 05:07
RAN hhh {%act: doubt} la colección de pruebas se ha dividido 05:10
RAN // pero básicamente las páginas de un mismo sitio / en cierto modo tienen relación entre ellas 05:24
RAN han sido creadas / seguramente por un mismo diseñador 05:27
RAN &eh hablan más o menos de lo mismo 05:29
RAN / va a dar / &eh valores más altos de los que en realidad debería de dar 05:38
RAN además se ha obtenido una colección de pruebas extendida / para realizar la [/] la [/] el traspaso de [/] del método fuera del dominio del teatro 05:47
RAN para ello / esto sólo ha sido para -> las páginas de tipo blog 05:50
RAN se han obtenido / &eh tres mil seiscientas noventa y seis páginas de tipo blog / &eh clasificadas manualmente de &mane [/] de manera previa 05:57
RAN / y además se han introducido páginas en diferentes idiomas // para intentar que el [/] que el método sea independiente tanto del contenido como del idioma 06:09
RAN y se ha obtenido un crawl de [/] del directorio de Yahoo / para obtener las [/] las páginas de [/] de alimentación negativa / las que no son tipo blog / obteniendo en total cerca de [/] de nueve mil doscientas páginas 06:19
RAN hhh {%act: click} la necesidad del crawl / el primer experimento &eh / pasarlo rápidamente 06:24
RAN hhh {%act: click} el marco de evaluación &eh es importante 06:39
RAN nos hemos basado en una evaluación típica de -> [/] de precisión donde los [/] el entrenamiento se realiza intentando maximizar / el -> número de aciertos / minimizar el número de errores 06:48
RAN no se ha introducido coste 06:50
RAN y además se -> [/] se ha aportado relevancia estadística en cuanto a intervalo de confianza del error real a partir del error muestral que hemos cometido // de manera que los resultados tengan cierta &eh / importancia estadística 07:02
RAN el método de validación que se ha utilizado / &eh ha sido uno / que hemos propuesto / específicamente para [/] para esto 07:09
RAN es el [/] el denominado dos por dos 07:11
RAN el problema está en que la validación cruzada / se realiza / el entrenamiento / &eh moviendo bloques entre los datos de entrenamiento y los de validación 07:18
RAN como ya decimos estos bloques son difíciles / porque las páginas están extraídas de un mismo sitio y tienen bastante relación entre ellas 07:24
RAN por lo tanto hemos partido / &eh lo que comentaba / la colección de pruebas en dos / &eh / atendiendo a que cada parte de la colección de pruebas / tuviera páginas de un sólo sitio 07:34
RAN y se ha realizado una validación / &eh cruzada entre ellas 07:37
RAN primero se ha entrenado con una se ha validado con la otra se ha hecho la inversa y se ha sacado la media 07:40
RAN un método como el de Dietterich / cinco por dos / &eh pero con menos iteraciones 07:45
RAN hhh {%act: click} &eh con este marco de evaluación / un experimento sencillo para ver si teníamos razón / fue éste 07:52
RAN realizamos una validación cruzada y obtuvimos unos resultados 07:55
RAN esto es un método por bolsa de palabras estándar sin realizar -> / filtros sin realizar pretratamiento de nada 08:01
RAN y con una validación cruzada hemos obtenido casos hasta del noventa por ciento de un estadístico efe 08:05
RAN eso de entrada es [/] seguramente es falso 08:07
RAN casi todos los estudios que hay están en el treinta al cuarenta por cien 08:10
RAN entonces {%alt: tonces} con el método dos por dos / nos da -> algo más realista / el treinta / el cinco / el diez por cien 08:17
RAN hhh {%act: click} a las necesidades de pro [/] procesamiento / están claras en todos los proyectos de minería 08:22
RAN en éste / %eh básicamente son &eh / tratamiento del corpus y tratamiento lingüístico 08:27
RAN una aplicación de un stem / sería la parte más sencilla / un stem de Porter / y una selección de un corpus general o un corpus específico 08:33
RAN los experimentos también &eh / han sido / claros con esto 08:37
RAN el [///] no es necesario / para aumentar el rendimiento / pero sí para reducir la dimensionalidad // cosa que quizá es más importante aún 08:43
RAN hhh {%act: click} &eh determinar un baseline / es [/] es necesaria 08:48
RAN con todo esto ya estaríamos fijando el marco de trabajo sobre el que hacer una propuesta y poder compararla 08:52
RAN la baseline es la -> [/] la -> clásica de [/] del Bag of Words / la bolsa de palabras / a la que además se le han añadido / dos mejoras / una introduciendo / métodos contextuales / como el título las -> [/] las URLs o los [/] o los elementos enmarcados / y otro en el que únicamente se obtienen las palabras que aparecen en la URL 09:10
RAN es un método que [/] que está en el estado del arte / que obtiene resultados muy interesantes / y que los hemos querido comparar 09:15
RAN hhh {%act: click} los resultados también son claros 09:18
RAN ninguna de ellas mejora / a la baseline // &eh significativamente / a nivel de [/] de significación de un noventa y cinco por cien incluso 09:25
RAN pero sí que / se encontró que [/] que el método de las URLs / en algunos casos puntuales daba mucha certeza 09:32
RAN esto es fácil de entender 09:33
RAN una página que en su URL tenga la palabra festivales / seguramente / y casi cien por cien de seguridad / va a ser de la categoría festivales 09:41
RAN una página que tenga blog spot / va a ser un blog 09:44
RAN a partir de todo ello / a partir de estudios que [/] que realizamos / uno de los métodos que más nos interesó / &eh por ser de los que mejores resultados conseguía / era un método que obtenía una clasificación a partir de un resumen / de la página web 09:58
RAN el resumen se puede hacer de dos maneras 10:00
RAN o lo puede hacer una persona / y entonces ya no estaríamos en este proyecto porque / ya que haces el resumen / haces la clasificación 10:07
RAN o utilizas un -> [/] un método de resumen automático / por la xxx semantic analysis o algún otro método / que son bastante complejos / y es otro proyecto de investigación 10:16
RAN / ¿ eh ? 10:25
RAN el problema de la cabecera es que no siempre está informada 10:27
RAN el problema de los enlaces [/] hay muchos enlaces del tipo pincha aquí 10:30
RAN entonces por sí solos no [/] no ofrecen información 10:33
RAN combinándolos / una ponderación podría fastidiar a la otra 10:36
RAN entonces decidimos triplicar esta característica 10:38
RAN / ¿ vale ? 10:51
RAN los resultados son -> [/] son bastante claros 10:53
RAN &eh en las tablas se muestran en [/] en negrita 10:56
RAN &eh / no sé si se ven las negritas 10:58
RAN pero vamos / la mayoría de los resultados / el método propuesto / que es el de la derecha tiene mejores &eh [/] mejoras significativas en [/] en cuanto a la prueba efe // mejoras de hasta setenta puntos / en [/] en este estadístico 11:10
RAN como se puede ver / en [/] en rojo {%com: points the screen} lo que acabo de comentar 11:29
RAN este sería el intervalo de confianza 11:31
RAN con otro cálculo 11:34
RAN pero / &eh tenemos lo mismo 11:36
RAN el error de confianza -> / el error / &eh cometido / es bastante inferior en el caso de [/] del método que [/] que se propone 11:43
RAN ahora las conclusiones son directas 11:46
RAN se ha obtenido una [/] una mejora significativa 11:48
RAN pero también hay que tener en cuenta &eh los problemas / la sensibilidad / a páginas que no tengan suficientemente información 11:54
RAN es bastante sensible // estos casos 11:57
RAN / ¿ eh ? 12:03
RAN le [/] cualquier persona que vea un blog / nada más verlo / da igual en qué idioma esté / qué colores tenga / quién lo haya escrito y de qué &funci [/] &funci [/] &eh sea ese blog / sabe que es un blog 12:13
RAN eso son características visuales / que si pudiéramos plasmarlas de algún modo de manera formal / y utilizarlas para clasificar / podríamos obtener / bastante eficiencia y ser independientes tanto de contenido como de idioma 12:24
RAN el método / es / que se han obtenido quince características / &eh específicas / &eh a partir de la estructura HTML / de los blogs 12:32
RAN y básicamente es eso 12:34
RAN tú ves un blog / tiene un apartado de [/] de POST / es un diario donde / el usuario va escribiendo POST 12:40
RAN estos POSTs están encabezados con el título del POST 12:42
RAN pueden ser etiquetas / &eh H1 H2 / diferentes etiquetas HTML 12:46
RAN suele tener una fecha de publicación 12:48
RAN y suele tener un enlace -> feedback / para tener retroalimentación con el usuario 12:53
RAN hhh {%act: click} además aparecen un conjunto de enlaces / &eh siempre juntos / &eh que se -> [/] donde se enlazan a otros blogs de -> [/] denominados blogs amigos / o hacia páginas de dentro del propio archivo de [/] del blog 13:05
RAN hhh {%act: click} además palabras &com [/] palabras clave o palabras reservadas que suelen aparecer bastante en el contenido / son la palabra POST / y la propia palabra blog 13:13
RAN y además / los blogs suelen tener &eh suscripción RSS/ATOM 13:17
RAN no es exclusiva de ellos / no la tienen todos / pero es un [/] otra característica que da certeza 13:22
RAN todas estas características se combinan mediante ratios obteniendo las quince características que [/] que utilizamos 13:28
RAN los resultados son / bastante -> [/] bastante claros 13:32
RAN &eh / en la prueba efe / se ha obtenido / muy por encima del noventa por ciento 13:38
RAN en el caso de [/] de que no sea blog una página / casi en el noventa y nueve por cien / de los casos se [/] se indica así 13:45
RAN &eh / comparándolo con la baseline / &eh son bastante elevados 13:50
RAN &eh la estándar / está alrededor del treinta por cien 13:53
RAN el nuestro ha sacado el noventa y dos por cien 13:54
RAN la que propusimos de [/] del encabezado / sacó un sesenta y seis por cien / cuando es pertenencia a los blogs / y un noventa y cuatro cuando no lo es / también inferior / a ésta 14:03
RAN por &eh [/] y en / los intervalos de error lo mismo 14:06
RAN están muy por debajo del dos por cien // el error real con un [/] un intervalo de un uno por cien / de confianza 14:12
RAN hhh {%act: click} la conclusiones que se ha obtenido una representación novedosa y eficiente / y que supera el -> rendimiento de las estudiadas en el estado del arte 14:20
RAN esta representación nos interesaba mucho sacarla fuera del [/] del [/] del ámbito del teatro 14:26
RAN / ¿ eh ? 14:34
RAN los resultados también son / bastante claros ¿ no ? 14:37
RAN seguimos / manteniéndonos por encima del noventa por cien en [/] en el estadístico efe 14:41
RAN %eh / hhh {%act: click} / el error / se mantiene / en el caso de que sea blog / incluso se disminuye 14:48
RAN se queda por debajo del [/] del uno por cien 14:51
RAN / está en el doce por cien / de error 14:55
RAN &eh / ha aparecido un pequeño problema 14:57
RAN en la matriz de contingencia / se ve 15:00
RAN hay falsos positivos 15:01
RAN es decir / hay páginas que no son blogs / que se clasifican como blogs // aproximadamente el doce por ciento de ellas 15:07
RAN y estudiando / fueron páginas que eran grupos de noticias con estructuras muy muy similares a los blogs 15:12
RAN entonces las conclusiones son claras 15:14
RAN el rendimiento se ha mantenido en &tros [/] en otros dominios 15:17
RAN se ha demostrado que se -> [/] que se [/] que es independiente del contenido de los blogs 15:21
RAN da igual de [/] de que se escriba en el blog 15:23
RAN incluso / es independiente del idioma en el que esté escrito 15:26
RAN el -> problema que aparece es que se incrementan los falsos positivos 15:30
RAN se catalogan noticias como blogs 15:32
RAN una recapitulación de experimentos / y las conclusiones 15:36
RAN la principal conclusión / se ha fijado -> / el -> marco de [/] de trabajo / con la colección de pruebas / la evaluación y el baseline 15:42
RAN que mejora la baseline / hasta en setenta puntos / del estadístico efe en algunos de los casos / en entrenamientos defectuosos como [/] como veíamos 15:56
RAN pero que es sensible a determinados entrenamientos y validaciones cuando las páginas no tienen suficientemente información 16:02
RAN páginas flash / que no tienen enlaces / y el -> [/] el que lo creó no puso nada en la cabecera 16:08
RAN y encima la URL es muy genérica 16:11
RAN esas páginas no [/] no suelen tener / buenos resultados 16:14
RAN el método de los blogs / obtiene un estadístico efe por encima del noventa por cien / mejora significativamente el estado del arte / es aplicable a cualquier dominio / independiente del contenido y del idioma // pero presenta ciertos problemas con grupos de noticias 16:28
RAN todo esto nos da lugar a líneas de investigación futuras / y a posibles aplicaciones de esto 16:33
RAN &eh / en cuanto al primer método / &eh habría que extenderlo fuera del dominio / de [/] del teatro / lo mismo que se ha realizado con los blogs / para comprobar que se adecua a otros dominios y ver su [/] su veracidad 16:45
RAN &eh habría que introducir alguna nueva característica 16:48
RAN habría que investigar / para estas páginas que no tienen suficientemente información 16:52
RAN quizás habría que meter tratamiento lingüístico 16:55
RAN habría que probarlo en otros idiomas y ver si es necesario / realizar stemmers o realizar alguna cosa así 17:00
RAN podría ser interesante analizar imágenes / &eh desde el texto alternativo que casi nadie pone / hasta el tamaño de las imágenes o incluso ya meterse en histogramas / pero bueno / eso habría que investigarlo 17:11
RAN los [/] los clientes / lo que principalmente nos han pedido son [/] son gerentes de clínicas / clínicas privadas / pequeñas de ocho o diez médicos / &eh nos quieren controlar a los trabajadores / porque en horas de trabajo se han puesto a buscar ofertas de trabajo / por ejemplo 17:31
RAN entonces lo primero que quieren es un filtro / contra &eh búsqueda de empleo 17:35
RAN / estamos trabajando en ello 17:38
RAN &eh / el tema de la pederastia {%alt: pederastía} / es un tema en la actualidad bastante / peliagudo / bastante / jodido 17:46
RAN &eh / estamos dentro de un dominio específico / el dominio del sexo / el dominio de las páginas pornográficas / pero / con páginas / que [/] que están buscando un tema &ile [/] un tema ilegal / contacto con menores 17:59
RAN &eh / la aplicación debería ser directa / pero habría que investigar a ver si se adapta 18:04
RAN y bueno / combinándolo con el análisis de la página / &eh las técnicas de -> antispam &ah xxx / están haciendo / todo lo posible porque los índices de los buscadores no incluyan cosas como lo de -> los políticos sudando en Sudán y cosas así ¿ no ? 18:18
RAN si se analiza todo el contenido de la página y dice que la página va de una cosa / y el autor / quiere decir / en su meta-información que va de otra cosa / ahí se está dando una discordancia 18:29
RAN es posible que eso sirva 18:30
RAN / eso es una especulación 18:32
RAN por otro lado el método de los blogs / &eh / directamente habría que mejorar la diferenciación entre blogs y noticias / para que obtuviera resultados &eh mejores 18:41
RAN pues / incorporarlo en algún buscador / &eh que sea un buscador real de blogs // que los contenidos que te devuelva realmente sean blogs 18:49
RAN {%alt: click} ¿ vale ? 18:51
RAN con todo ello terminaría 18:52
RAN si tienen alguna pregunta 18:53