Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased&...

31
Review Tarea2 + Intro LSA & LDA para contentbased RecSys IIC3633 RecSys 2do semestre 2014 25 de SepDembre Denis Parra

Transcript of Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased&...

Page 1: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

Review  Tarea2  +  Intro  LSA  &  LDA  para  content-­‐based  RecSys  

IIC3633  RecSys  2do  semestre  2014  25  de  SepDembre  

Denis  Parra  

Page 2: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

Tópicos  

•  Aviso:  Notas  control  2  publicadas:  [email protected]  

•  Tarea  1:  Muestreo  de  Informes  •  MovieCity  Dataset  •  Procesamiento  de  texto  para  RecSys  – LSI  (o  LSA)    – LDA  

•  Recap  Tarea  2  

Page 3: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

TAREA  1  

Page 4: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

Tarea  1  –  algunas  consideraciones  

•  Considerar  el  tamaño  del  Dataset  y  la  canDdad  de  cálculos  necesarios  para  llevarlo  a  cabo  

•  Hacer  análisis  de  datos  para  elegir  estrategia  de  recomendación  (usuarios  e  items)  

*Del  informe    de  N.R.    

Page 5: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

Tarea  1  –  algunas  consideraciones  

*Del  informe    de  N.R.    

*Del  informe    de  A.P.    

Page 6: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

Tarea  1  –  algunas  consideraciones  

*Del  informe    de  N.R.    

*Del  informe    de  A.P.    

Importancia  de  Considerar  metodologías  híbridas  o  contexto  

Page 7: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

Discordancia  RMSE  y  P@10  

*De  los  informes    de  N.R.  y  de  S.L.    

Page 8: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

Discordancia  RMSE  y  P@10  

*De  los  informes    de  N.R.  y  de  S.L.    

Tareas  de  Recomendación  no  siempre  son  consistentes  

Page 9: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

MOVIE  CITY  DATASET  

Page 10: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

MovieCity  Dataset  

Page 11: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

MovieCity  Dataset  

Gonzalo  Gili:  Tal  como  lo  mencionábamos,  los  datos  son  de  

propiedad  de  LAPTV  LLC  y  se  comparten  de  buena  fe  y  en  el  entendido  que  son  para  uso  interno  tuyo  y  de  tus  alumnos  dentro  de  la  universidad  y  que  no  serán  traspasados  a  terceros  sin  la  autorización  de  los  dueños.  Agradeceríamos  que  estas  condiciones  se  traspasaran  todos  los  que  tengan  que  manipular  

los  datos.    

Información  de  3  meses  de  moviecity  

Page 12: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

Movie  City  Dataset  

Page 13: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

Movie  City  Dataset  II  

Page 14: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

TAREA  2  HINTS  

Page 15: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

Recap  Tarea  2  

•  Entrega:  Octubre  5  de  2014  •  Mejorar  el  proyecto  de  recomendación  de  tags  usando  content  features  

Page 16: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

LSI  &  LDA  

•  Métodos  de  Reducción  de  Dimensionalidad,  principalmente  usados  en  textos,  pero  ya  desde  hace  varios  años  con  otras  aplicaciones  

Page 17: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

Representación  VSM  

user_profile  =  {w_1,  w_2,  ….,  w_3}  usando  TF-­‐IDF  

Doc_1  =  {w_1,  w_2,  ….,  w_3}    

Doc_2  =  {w_1,  w_2,  ….,  w_3}    

Doc_3  =  {w_1,  w_2,  ….,  w_3}    

Doc_n  =  {w_1,  w_2,  ….,  w_3}    

Page 18: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

LSI  (o  LSA)  •  LSI  (Latent  SemanDc  Indexing):  Aproximación  de  la  matriz  de  términos-­‐documentos    a  una  representación  de  menor  dimensión  

•  Técnica  para  extraer  e  inferir  relaciones  de  uso  contextual  esperado  de  palabras  en  un  corpus.  

•  Aplicamos  SVD  a  la  matriz  de  términos-­‐documents  

Page 19: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

SVD  

Page 20: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

Ejemplo  LSI  

Page 21: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

SVD  

Page 22: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

SVD  –  dejando  solo  dos  dimensiones  

Page 23: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

SVD  –  dejando  solo  dos  dimensiones  

Page 24: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

En  la  tarea  

•  Representar  Documents  por  su  ktulo  y  abstract  

•  Aplicar  LSI/LSA    •  Usar  representación  como  features  para  predecir  tags  

Page 25: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

LDA  

•  Latent  Dirichlet  AllocaDon  (Blei  et  al,  2003)  •  Relación  con  LSI  

Page 26: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

LDA  –  Proceso  GeneraDvo  e  Inferencia  

Page 27: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

LDA  –  a  nivel  de  Documento  

Page 28: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

LDA  –  Modelo  Gráfico  

Page 29: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

LDA  -­‐  A  nivel  de  Corpus  

Page 30: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

Implementaciones    

•  LSI  (cualquier  libreria  SVD:  SVDLIBC,  Matlab,  JAMA,  COLT)    

•  MALLET  (java)  LDA  •  Gensim  (python)  LSI  &  LDA  •  Graphlab  (LDA)  

•  hpp://tml-­‐java.sourceforge.net/  -­‐  LUCENE  

Page 31: Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& …dparra.sitios.ing.uc.cl/classes/recsys-2014-2/pdfs/... · Review&Tarea2&+Intro&LSA&&&LDA& para&contentbased& RecSys& IIC3633&RecSys&

Referencias  

•  Manning,  C.  D.,  Raghavan,  P.,  &  Schütze,  H.  (2008).  IntroducDon  to  informaDon  retrieval  (Vol.  1,  p.  6).  Cambridge:  Cambridge  university  press.  

•  Steyvers,  M.,  &  Griffiths,  T.  (2007).  ProbabilisDc  topic  models.  Handbook  of  latent  semanDc  analysis,  427(7),  424-­‐440.  

•  Blei,  D.  M.  (2012).  ProbabilisDc  topic  models.  CommunicaDons  of  the  ACM,  55(4),  77-­‐84.