Ruben Zamblé-bi

26
Exposé Google Ruben Zamblé-bi Sébastien Péron Sébastien Forner Google - La recherche de données Sébastien Péron Ruben Zamblé-bi Sébastien Forner 09 mars 2006 Master A.S.S

description

Google - La recherche de données. 09 mars 2006. Sébastien Forner. Sébastien Forner. Sébastien Péron. Sébastien Péron. Ruben Zamblé-bi. Ruben Zamblé-bi. Master A.S.S. Table des matières. Présentation Générale. Fonctionnement du moteur Google. Structure déployée. - PowerPoint PPT Presentation

Transcript of Ruben Zamblé-bi

Page 1: Ruben Zamblé-bi

Exposé Google

Ruben Zamblé-bi

Sébastien Péron

Sébastien Forner

Google - La recherche de données

Sébastien Péron

Ruben Zamblé-bi

Sébastien Forner

09 mars 2006

Master A.S.S

Page 2: Ruben Zamblé-bi

Exposé Google

Table des matières

• Présentation Générale

• Fonctionnement du moteur Google

• Structure déployée

• Services offerts

• Une approche de Datamining

• Trustrank

• Conclusion

Page 3: Ruben Zamblé-bi

Exposé Google

Présentation générale

• Aboutissement d’un projet universitaire

- Fondée par Lawrence E. Page et Sergey Brin (1998)

- Approche scientifique de la recherche

- Référence mondiale du moteur de recherche

Sources: barometre.secrets2moteurs.com

Page 4: Ruben Zamblé-bi

Exposé Google

Présentation générale

• Aboutissement d’un projet universitaire

- Fondée par Lawrence E. Page et Sergey Brin (1998)

- Approche scientifique de la recherche

• Géant de l’informatique

- Buisness model innovant

- Référence mondiale du moteur de recherche

- Introduite en bourse en Mai 2004

Résultats (en M$) 2002 2003 2004 2005

chiffre d'affaires 440 1466 3189 6139

bénéfices 100 106 399 1465

Sources: wikipedia.org

Page 5: Ruben Zamblé-bi

Exposé Google

Fonctionnement du moteur Google (1 / 3)

• Sobriété et valorisation des mots

- Page simpliste

- Valorisation des mots Mise en place d’un système de vente d’espace publicitaire associé au mot recherché

Profilage des utilisateurs déjà mis en évidence

Accueil spécialement dédié à la recherche

Service accessible en bas débit

Page 6: Ruben Zamblé-bi

Exposé Google

Fonctionnement du moteur Google (2 / 3)

• Le système de classement « PageRank »

- Principe de fonctionnement Critère d’évaluation de la qualité d’une page

Échelle de notation variant de 0 à 10

- Dérive liée au PageRank Apparition du « bombardement Google » (Google Bombing)

• La « Google Dance »

- Mise à jour du PageRank

- Généralement 1 fois par mois

Page 7: Ruben Zamblé-bi

Exposé Google

Fonctionnement du moteur Google (3 / 3)

• Le processus d’indexation

- Les « GoogleBot » FreshCrawler

DeepCrawler

- Les « GoogleBot MediaPartner »

• Gestion des liens publicitaires

- Les « GoogleAdWords »

- Les « GoogleAdSense »

Page 8: Ruben Zamblé-bi

Exposé Google

La Structure déployée (1 / 3)

• Le Googleplex

- Une boite à outils logiciels

- Deux approches de sa structure

Page 9: Ruben Zamblé-bi

Exposé Google

La Structure déployée (1 / 3)

• Le Googleplex

a : Noyau linux

b : Une architecture distribuée permettant la connexion rapide de sources variées

c : une architecture technique identique à chaque niveau

d : Le réseau Internet

- Technologies importantes

Page 10: Ruben Zamblé-bi

Exposé Google

La Structure déployée (1 / 3)

• Le Googleplex

a : L’ingénierie logicielle

b : L’ingénierie matérielle

- Google se base sur la fusion de deux activités

Page 11: Ruben Zamblé-bi

Exposé Google

La Structure déployée (1 / 3)

• Le Googleplex

- Google se base sur la fusion de deux activités

Page 12: Ruben Zamblé-bi

Exposé Google

La Structure déployée (2 / 3)

• Les Serveurs et centres de données

- On distingue 6 principaux types de serveur

« Google Web » serveurs

« Data-Gathering » serveurs

« Index » serveurs

« Document » serveurs

« Ad» serveurs

« Spelling » serveurs

Page 13: Ruben Zamblé-bi

Exposé Google

La Structure déployée (2 / 3)

• Les Serveurs et centres de données

- Stockage des serveurs dans les « Data centers »

Sources: www.webrankinfo.com

Page 14: Ruben Zamblé-bi

Exposé Google

La Structure déployée (2 / 3)

• Les Serveurs et centres de données

- Les serveurs et centres de données dans le Googleplex

Page 15: Ruben Zamblé-bi

Exposé Google

La Structure déployée (3 / 3)

• Architecture d’indexation

- Description des principales étapes permettant l’indexation

Page 16: Ruben Zamblé-bi

Exposé Google

Les services offerts

• Mis œuvre par le « Google Labs »

- Google Web Accès principal au service de recherche

- Google Desktop Search

• Orientés indexation / référencement de données

- Google Mini & Search Appliance

- Google Images

- Google Search Book

- Google Video Store

- Google Earth

…….

Page 17: Ruben Zamblé-bi

Exposé Google

Google vous surveille (1 / 4)

• Google et les entreprises

- Google est synonyme de puissance

- Une grande promesse : ne plus perdre de documents stratégiques

- 2 outils : Google Mini et Appliance:

À partir de 2995 euros

Google Appliance peut accéder aux Bds et serveurs de fichiers

Indexe jusqu'à 15 millions de documents

Gère 150 requêtes à la minute

Page 18: Ruben Zamblé-bi

Exposé Google

• Google chez les particuliers

- La Google Toolbar au service de Google Desktop

Blocage des fenêtres indésirables

Correcteur d'orthographe

Recherches améliorées avec suggestions en temps réel

- L'espion qui m'aimait

Que se passe t'il lors d'une navigation à travers le web?

Google vous surveille (1 / 4)

Page 19: Ruben Zamblé-bi

Exposé Google

- Indication du PageRank de la page visitée Adresse IP du poste de départ

Adresse de la page visitée

L'utilisation des résultats proposés par Google

- Une arme fatale car elle est infalsifiable

- Création d'une BD à partir des différentes requêtes Les sites préférés d'un utilisateur

- Exemples d'applications possibles : Estimation de la qualité d'un site

Vérifier la qualité des résultats de Google

Identifier les spammeurs

Google vous surveille (1 / 4)

Page 20: Ruben Zamblé-bi

Exposé Google

• Vers une publicité intelligente

- Création d'un portrait plus vrai que nature de l'utilisateur

- Extension au géomarketing par l'intermédiaire de Google Earth

Vendre des liens publicitaires ciblés aux annonceurs

Une justification pour la hausse des tarifs

Augmenter le taux de transformation

- Que dit la législation?

- Buts recherchés :

Toute personne peut s'opposer à l'utilisation de ses données personnelles

Exportation de données vers les Etats-Unis : le Safe Harbor

Google vous surveille (1 / 4)

Page 21: Ruben Zamblé-bi

Exposé Google

TrustRank (1 / 5)

• La guerre contre le spamdexing

- Marque déposé par Google en mars 2005

- Introduit une année plus tôt par un article publié à Standford

Propagation du principe bonne page / mauvaise page à travers le web

Sélectionner un échantillon de page

Détection du spamdexing parmi l'échantillon (appel de l'Oracle)

- Principes :

Page 22: Ruben Zamblé-bi

Exposé Google

TrustRank (2 / 5)

• Vision du web

- le web est modélisé comme un graphe G = (V , E)

Pas de liens entrant = “page sans référence”

Pas de liens sortant = “page ne référençant pas”

- Chaque page possède des liens entrant et des liens sortants

Pas de liens = “page isolée”

Page 23: Ruben Zamblé-bi

Exposé Google

TrustRank (3 / 5)

• Sélection de l'échantillon

- Aléatoirement

- PageRank inversé

Sélectionner les pages ayant de nombreux liens sortants

Optimiser le nombre de liens sortants par pages

- PageRank élevé

Sélectionner des pages de fort PageRank

Permet d'orienter le TrustRank vers les pages dont il est important de connaître le niveau de confiance

Page 24: Ruben Zamblé-bi

Exposé Google

TrustRank (4 / 5)

• Appel de l'Oracle

- Séparation en deux sous-ensembles de l'échantillon :

- Attention la réciproque est fausse

1 pour les bonnes pages

0 pour les mauvaises pages

0,5 pour les pages n'appartenant pas à l'échantillon

- Une bonne page pointe rarement vers une mauvaise

• « Isolation approximative » des bonnes pages

- C'est le principe de la confiance ignorante

Page 25: Ruben Zamblé-bi

Exposé Google

TrustRank (5 / 5)

- Confiance à M étapes

C'est un mélange de la confiance ignorante et de l'isolation approximative

Confiance atténuée

Exemple avec N = 3 : { 1, 3, 6 }

• Amortissement de la confiance

Confiance fractionnée

• Propagation de la confiance

Page 26: Ruben Zamblé-bi

Exposé Google

Conclusion

• Google s’est imposé comme une référence

• Google instaure un modèle économique révolutionnaire

• Google a su utiliser au mieux le Data Mining

• La numérisation de la culture, le nouveau défi à relever

• Une logique professionnel ambitieuse :

- Anticiper nos besoins pour mieux y répondre…