Post on 18-Aug-2020
Review Tarea2 + Intro LSA & LDA para content-‐based RecSys
IIC3633 RecSys 2do semestre 2014 25 de SepDembre
Denis Parra
Tópicos
• Aviso: Notas control 2 publicadas: hjfindel@puc.cl
• Tarea 1: Muestreo de Informes • MovieCity Dataset • Procesamiento de texto para RecSys – LSI (o LSA) – LDA
• Recap Tarea 2
TAREA 1
Tarea 1 – algunas consideraciones
• Considerar el tamaño del Dataset y la canDdad de cálculos necesarios para llevarlo a cabo
• Hacer análisis de datos para elegir estrategia de recomendación (usuarios e items)
*Del informe de N.R.
Tarea 1 – algunas consideraciones
*Del informe de N.R.
*Del informe de A.P.
Tarea 1 – algunas consideraciones
*Del informe de N.R.
*Del informe de A.P.
Importancia de Considerar metodologías híbridas o contexto
Discordancia RMSE y P@10
*De los informes de N.R. y de S.L.
Discordancia RMSE y P@10
*De los informes de N.R. y de S.L.
Tareas de Recomendación no siempre son consistentes
MOVIE CITY DATASET
MovieCity Dataset
MovieCity Dataset
Gonzalo Gili: Tal como lo mencionábamos, los datos son de
propiedad de LAPTV LLC y se comparten de buena fe y en el entendido que son para uso interno tuyo y de tus alumnos dentro de la universidad y que no serán traspasados a terceros sin la autorización de los dueños. Agradeceríamos que estas condiciones se traspasaran todos los que tengan que manipular
los datos.
Información de 3 meses de moviecity
Movie City Dataset
Movie City Dataset II
TAREA 2 HINTS
Recap Tarea 2
• Entrega: Octubre 5 de 2014 • Mejorar el proyecto de recomendación de tags usando content features
LSI & LDA
• Métodos de Reducción de Dimensionalidad, principalmente usados en textos, pero ya desde hace varios años con otras aplicaciones
Representación VSM
user_profile = {w_1, w_2, …., w_3} usando TF-‐IDF
Doc_1 = {w_1, w_2, …., w_3}
Doc_2 = {w_1, w_2, …., w_3}
Doc_3 = {w_1, w_2, …., w_3}
Doc_n = {w_1, w_2, …., w_3}
LSI (o LSA) • LSI (Latent SemanDc Indexing): Aproximación de la matriz de términos-‐documentos a una representación de menor dimensión
• Técnica para extraer e inferir relaciones de uso contextual esperado de palabras en un corpus.
• Aplicamos SVD a la matriz de términos-‐documents
SVD
Ejemplo LSI
SVD
SVD – dejando solo dos dimensiones
SVD – dejando solo dos dimensiones
En la tarea
• Representar Documents por su ktulo y abstract
• Aplicar LSI/LSA • Usar representación como features para predecir tags
LDA
• Latent Dirichlet AllocaDon (Blei et al, 2003) • Relación con LSI
LDA – Proceso GeneraDvo e Inferencia
LDA – a nivel de Documento
LDA – Modelo Gráfico
LDA -‐ A nivel de Corpus
Implementaciones
• LSI (cualquier libreria SVD: SVDLIBC, Matlab, JAMA, COLT)
• MALLET (java) LDA • Gensim (python) LSI & LDA • Graphlab (LDA)
• hpp://tml-‐java.sourceforge.net/ -‐ LUCENE
Referencias
• Manning, C. D., Raghavan, P., & Schütze, H. (2008). IntroducDon to informaDon retrieval (Vol. 1, p. 6). Cambridge: Cambridge university press.
• Steyvers, M., & Griffiths, T. (2007). ProbabilisDc topic models. Handbook of latent semanDc analysis, 427(7), 424-‐440.
• Blei, D. M. (2012). ProbabilisDc topic models. CommunicaDons of the ACM, 55(4), 77-‐84.