## Page 1 # Sistemas de recomendación: ## filtro colaborativo basado en memoria --- Gestión de la Información Grado en Ingeniería Informática Universidad de Burgos <img>Universidad de Burgos logo</img> UNIVERSIDAD DE BURGOS José Ignacio Santos, José Manuel Galán jisantos@ ubu.es, jmgalan@ ubu.es --- ## Page 2 # Contenidos * Filtros colaborativos basados en memoria * Filtro colaborativo basado en usuarios * Filtro colaborativo basado en productos * Problemas de filtros colaborativos --- ## Page 3 # Clases de sistemas de recomendación

Sistemas de recomendación → Filtros basados en contenidos → Filtros colaborativos	FC basados en modelos: utilizan los datos para ajustar modelos que después pueden ser utilizados para proponer recomendaciones (e.g. modelos de regresión) FC basados en memoria: utilizan los datos para definir similitudes entre usuarios y productos que serán utilizados para construir las recomendaciones (e.g. Amazon)
→ Basados en modelos → Basados en memoria

--- ## Page 4 # Clases de sistemas de recomendación

Sistemas de recomendación	FC basados en usuarios:
→ Filtros basados en contenidos	La estimación del rating de un usuario u al producto i se basa en los ratings al producto i de otros usuarios similares a u
→ Filtros colaborativos

	FC basados en productos: (e.g. Amazon)
→ Basados en modelos	La estimación del rating de un usuario u al producto i se basa en los ratings del usuario u a productos similares a i
→ Basados en memoria

→ Basados en usuarios
→ Basados en productos

--- ## Page 5 # Filtro colaborativo basado en usuarios La hipótesis de un filtro colaborativo **basado en usuarios** es que: * Si dos usuarios han valorado de forma similar un conjunto de productos, lo harán también en otro producto Los FC basados en usuarios requieren: 1. Una **matriz de utilidad** (e.g. ratings) 2. Una definición de **similitud entre usuarios** 3. Una definición de **vecindad** (subconjunto más próximo a un **usuario**) 4. Una **regla** para predecir el rating en base al conjunto de **usuarios** de la vecindad --- ## Page 6 # Matriz de utilidad graph TD subgraph Users A[1] B[2] C[...] D[u] E[v] F[...] G[n] end subgraph Items H[1] I[2] J[...] K[i] L[j] M[...] N[m] end Users -->|Users| Matrix Matrix -->|Items| Users Matrix[

1	2	...	i	...	j	...	m
1	2	...	...	...	...	...	...
...	...	...	...	...	...	...	...
u	...	...	...	...	...	...	...
v	...	...	...	...	...	...	...
...	...	...	...	...	...	...	...
n	...	...	...	...	...	...	...

] ru,i(ru,i) La matriz de utilidad representa una función de utilidad: U: users x items -> rating Ejemplos rating: * Binario (1,0) * Escala (1-5) --- ## Page 7 # Definición de similitud entre usuarios Items

...

Users

1	2	...	u	-	ru,2	...	ru,i	...	ru,j	...	ru,m
...	...	...	...	...	...	...	...	...	...	...	...
n	...	...	v	r_v,i	-	...	r_v,i	...	r_v,j	...	r_v,m

Ratings de productos i∈I que ambos usuarios (u,v) han valorado --- ## Page 8 # Definición de similitud entre usuarios (1) Similitud del coseno (-1,1) sim_u,v = Σ_i∈I r_u,ir_v,i / √(Σ_i∈I r²_u,i) √(Σ_i∈I r²_v,i) Coseno: qué tan parecidos son los gustos en dirección (2) Coeficiente correlación de Pearson (-1,1) sim_u,v = Σ_i∈I (r_u,i - r̄_u)(r_v,i - r̄_v) / √(Σ_i∈I (r_u,i - r̄_u)²) √(Σ_i∈I (r_v,i - r̄_v)²) Person: qué tan parecidos son los gustos independientemente de la escala personal de valoración I productos evaluados por u,v --- ## Page 9 # Intersección!!! ¡Cuidado! En las medidas de similitud solo se consideran los ítems que ambos usuarios han valorado (la intersección de sus valoraciones no vacías) I_uv = { i∈I | r_u,i y r_v,i existen} Las medidas de similitud se basan en comparar patrones de valoración comunes. Si un ítem no fue valorado por ambos, no hay información sobre cómo sus preferencias se relacionan respecto a ese ítem Incluir valores nulos o tratarlos como ceros introduce sesgo. La función pairwise_distances de SciKit no tiene en cuenta la intersección lo que sesga las similitudes en datos dispersos **Corolario:** si la intersección es muy pequeña (por ejemplo, 1 o 2 ítems comunes), la similitud puede ser poco fiable, generalmente se establecen algún tamaño mínimo --- ## Page 10 # Regla para estimar un rating Filtro colaborativo basado en usuarios (user-based): $$\hat{r}_{u,i} = \overline{r}_u + \frac{\sum_{v \in U} (r_{v,i} - \overline{r}_v) sim_{u,v}}{\sum_{v \in U} |sim_{u,v}|}$$ * Media ponderada de los ratings (normalizados) de los usuarios que evaluaron i (siendo los pesos la similitud de los usuarios) * U usuarios* que han evaluado i * Se suele hacer sobre un subconjunto de usuarios: por ejemplo los k vecinos más próximos --- ## Page 11 # Vecindad En un FC basado en usuarios, la predicción del rating de un usuario $u$ para un ítem $i$ puede calcularse utilizando solo las valoraciones de un subconjunto (vecindad) de usuarios más próximos a mi: * Vecindad fija (top-k): por ejemplo, los 10 usuarios más parecidos * Vecindad con “threshold”: incluir solo usuarios con similitud > threshold ¿Por qué? Porque si usáramos todos los usuarios: * Se introduce ruido (usuarios con gustos diferentes distorsionan la media) * Aumenta el coste computacional * Podría haber sesgos negativos (si muchos usuarios no han evaluado ítems similares) <img>A diagram showing a red dashed circle containing several green smiley face icons, representing users, with some yellow-green smiley face icons outside the circle, representing other users.</img> --- ## Page 12 # Ejemplo Matriz de utilidad:

	Star Wars VII	Batman v Superman	Ocho apellidos vascos	Marte
UserA	4	NaN	3	5
UserB	NaN	5	4	NaN
UserC	5	4	2	NaN
UserD	2	4	NaN	3
UserE	3	4	5	NaN

Queremos obtener la predicción del usuario C a la película Marte --- ## Page 13 # Ejemplo: FC basado en usuarios $\hat{r}_{u,i} = \overline{r}_u + \frac{\sum_{v\in U}(r_{v,i} - \overline{r}_v)sim_{u,v}}{\sum_{v\in U}|sim_{u,v}|}$ * Utilizaremos los ratings de aquellos usuarios U={A,D} que sí han visto Marte * Necesitaremos los rating medios de C y de los usuarios U={A,D} * Necesitamos la similitud entre cada usuario de U={A,D} y el usuario C (utilizaremos el coeficiente de correlación de Pearson) --- ## Page 14 # Ejemplo: FC basado en usuarios

	Rating a Marte	Rating medio	Similitud con C
A	5	(4+3+5)/3=4	0.780869
D	3	(2+4+3)/3=3	-0.514496
C		(5+4+2)/3=3.67

$\hat{r}_{C,Marte} = 3.67 + \frac{(5-4)0.780869 - (3-3)0.514496}{0.780869 + 0.514496} = 4.269484$ --- ## Page 15 # Filtro colaborativo basado en productos La hipótesis de un filtro colaborativo **basado en productos** es que: * Si dos productos han sido valorados de forma similar por los usuarios, serán valorados igual por otro usuario Los FC basados en productos requieren: 1. Una matriz de utilidad (e.g. ratings) 2. Una definición de similitud entre productos 3. Una definición de vecindad (subconjunto más próximo a un producto) 4. Una regla para predecir el rating en base al conjunto de productos de la vecindad --- ## Page 16 # Definición de similitud entre productos <img>A diagram illustrating the concept of product similarity based on user ratings. The diagram features two main axes: "Users" (vertical) and "Items" (horizontal). Users are represented by numbered boxes (1, 2, ..., u, v, n) along the left side, while items are represented by numbered boxes (1, 2, ..., i, j, m) along the top. The central part of the diagram shows a large grid where each cell represents a rating. For example, cells r1,i and r2,j represent the ratings of item i by users 1 and 2 respectively. Some cells contain red outlines, indicating specific ratings that are highlighted: * ru,i * ru,j * rv,i * rv,j * rn,i * rn,j Green arrows point to these highlighted cells, with labels underneath them: * Ratings de todo los usuarios que han valorado ambos productos (Ratings of all users who have rated both products)</img> --- ## Page 17 # Definición de similitud entre productos (1) Similitud del coseno (-1,1) sim_i,j = Σ_u∈U r_u,ir_u,j / √(Σ_u∈U r²_u,i) * √(Σ_u∈U r²_u,j) (2) Coeficiente correlación de Pearson (-1,1) sim_i,j = Σ_u∈U (r_u,i - r̄_i)(r_u,j - r̄_j) / √(Σ_u∈U (r_u,i - r̄_i)²) * √(Σ_u∈U (r_u,j - r̄_j)²) U usuarios que han evaluado i, j --- ## Page 18 # Regla para estimar un rating Filtro colaborativo basado en productos (item-based): $$\hat{r}_{u,i} = \frac{\sum_{j \in I} r_{u,j} sim_{i,j}}{\sum_{j \in I} |sim_{i,j}|}$$ I productos* evaluados por u Media ponderada de los ratings del usuario u a los productos que evaluó (siendo los pesos la similitud de los productos) * Se suele hacer sobre un subconjunto de productos: por ejemplo los k vecinos más próximos --- ## Page 19 # Ejemplo Matriz de utilidad:

	Star Wars VII	Batman v Superman	Ocho apellidos vascos	Marte
UserA	4	NaN	3	5
UserB	NaN	5	4	NaN
UserC	5	4	2	NaN
UserD	2	4	NaN	3
UserE	3	4	5	NaN

Queremos obtener la predicción del usuario C a la película Marte --- ## Page 20 # Ejemplo: FC basado en productos $\hat{r}_{u,i} = \frac{\sum_{j\in I} r_{u,j} sim_{i,j}}{\sum_{j\in I} |sim_{i,j}|}$ * Utilizaremos los ratings del usuario C a aquellas películas que vio I={Star Wars VII,Batman v Superman,Ocho apellidos vascos} * Necesitamos la similitud entre cada película vista por C y Marte (utilizaremos el coeficiente de correlación de Pearson) --- ## Page 21 # Ejemplo: FC basado en productos

	Star Wars VII	Batman v Superman	Ocho apellidos vascos
Rating de C	5	4	2
Similitud a Marte	0.8944	1	-1

* Podemos considerar todas las películas $$\hat{r}_{C,Marte} = \frac{(5)0.8944 + (4)1 + (2)(-1)}{0.8944 + 1 + 1} = 2.2360$$ * Podemos considerar un subconjunto de ellas, por ejemplo las 2 más próximas {Star Wars VII,Batman v Superman} $$\hat{r}_{C,Marte} = \frac{(5)0.8944 + (4)1}{0.8944 + 1} = 4.4721$$ --- ## Page 22 # Problemas de filtros basados en memoria Los Filtros Colaborativos basados en productos son muy utilizados (e.g. Amazon patent) Pero presentan algunos inconvenientes comunes a otros sistemas de recomendación (Su & Khoshgoftaar, 2009): * Muchos sistemas tienen datos dispersos lo que dificulta encontrar usuarios o productos similares (sobre los que basar una recomendación). * Problema de “cold start”: dificultad de hacer recomendaciones a usuarios y/o productos nuevos (para los que no se dispone de información) * Problemas de escalabilidad con el aumento del número de usuarios y/o productos * Los sinónimos (dos o más referencias diferentes al mismo producto que sin embargo el filtro trata como productos distintos) introducen ruido en las recomendaciones * “Gray sheep” y “black sheep”, cuando algunos usuarios tienen un patrón alejado del resto (o incluso único) el filtro colaborativo no hace buenas recomendaciones --- ## Page 23

Referencias

- Ekstrand, M. D., Riedl, J. T., & Konstan, J. A. (2011). Collaborative filtering recommender systems. Foundations and Trends in Human-Computer Interaction, 4(2), 81-173. - Collaborative recommendations using item-to-item similarity mappings (Amazon patent)

1	2	...	i	...	j	...	m
1	2	...	...	...	...	...	...
...	...	...	...	...	...	...	...
u	...	...	...	...	...	...	...
v	...	...	...	...	...	...	...
...	...	...	...	...	...	...	...
n	...	...	...	...	...	...	...

1	2	...	i	...	j	...	m
1	2	...	...	...	...	...	...
...	...	...	...	...	...	...	...
u	...	...	...	...	...	...	...
v	...	...	...	...	...	...	...
...	...	...	...	...	...	...	...
n	...	...	...	...	...	...	...

1	2	...	i	...	j	...	m
1	2	...	...	...	...	...	...
...	...	...	...	...	...	...	...
u	...	...	...	...	...	...	...
v	...	...	...	...	...	...	...
...	...	...	...	...	...	...	...
n	...	...	...	...	...	...	...