Comment
Verrous technologiques
Le projet nécessite de résoudre une série de verrous scientifiques et technologiques essentiellement liés à la nouveauté des problèmes abordés, à la volumétrie des données, à la rapidité de réaction nécessaires pour répondre aux nouvelles formes de spam et aux nouveaux outils des spammeurs, et à la multiplicité des formes de spam sur les différents média du web.
Verrous scientifiques
- Extraction de caractéristiques : Quels sont les éléments caractéristiques qui permettent la détection du Spam ? Cela inclut aussi bien l’extraction de caractéristiques de contenu que l’extraction de caractéristiques de structure. Tout est ouvert aujourd’hui et les caractéristiques utiles ne sont pas les mêmes sur les différents média.
- Agrégation de caractéristiques : Etudier comment agréger les caractéristiques locales pour dégager des caractéristiques plus discriminantes du Spam. Par exemple, comment agréger les caractéristiques de pages Web pour classifier un site Web comme Spam ou non Spam
- Propagation de caractéristiques : Etudier comment utiliser la structure de graphe, non pas uniquement pour calculer des caractéristiques structurelles, mais aussi pour guider le processus d’étiquetage (spam ou non spam) dans le graphe du Web.
- Scalabilité/Volumétrie : Le système proposé doit être capable de traiter une grande masse de données rapidement. Le compromis performance/complexité doit donc être étudié sérieusement au niveau algorithmique.
- Apprentissage avec des variables interdépendantes, par exemple les nœuds du graphe du Web : les méthodes d’apprentissage automatiques doivent prendre en compte les relations entre documents. De plus les méthodes doivent pouvoir envisager conjointement des dépendances à court terme et des dépendances à long terme.
- Apprentissage avec peu d’exemples : dans un moteur grande échelle, ou dans un site de blog, il est nécessaire d’apprendre à détecter le spam tout en réduisant la quantité de spam à étiqueter manuellement.
- Détection de plagiat à grain fin : les faux contenus générés par les spammeurs sont bien souvent construits en mélangeant des morceaux de texte récupérés sur d'autres sites web ou à partir de flux RSS : la détection à grand échelle de cette forme de plagiat est un problème difficile.
- Dynamique du spam : quelles sont les stratégies des spammeurs pour infecter un réseau social ? Quels sont les points d’entrée dans les réseaux : sont-ils les individus (ou les communautés) les plus influents ? Ou bien le spam inonde-t-il massivement le réseau ? Quelles sont les caractéristiques de la diffusion, en termes de profondeur et de vitesse par exemple ?
Verrous technologiques
- Volumétrie : les volumes de données traitées qui peuvent représenter des terra-octets de données conservées sur les serveurs mais également un flux journalier extrêmement important nécessite d’adapter les infrastructures et les solutions logicielles développées (par exemple sur des systèmes répartis).
- Aspect algorithmique : il constitue au-delà même de la conception d’algorithmes bien adaptés un enjeu essentiel en ce qui concerne la mise en œuvre sur les infrastructures matérielles.
- Consensus entre rappel et la précision : La classification de Spam n’est pas dénuée d’erreurs et le système proposé doit pouvoir éviter d’être trop strict pour éviter de perdre trop de documents non spam, et éviter aussi d’être trop « laxiste » car il laisserait passer trop d’informations truquées. Le scénario idéal est de fournir un système paramétrable qui permette d’adapter la frontière entre spam et non spam
- La fiabilité : assurer la fiabilité et l’adaptation des méthodes développées pour faire face à l’évolution permanente des formes de spam est un enjeu technologique de premier plan pour maintenir la qualité des solutions développées et de l’offre des différents partenaires.
Verrous éthiques
- Comment différencier une action commerciale ou un effet de rumeur d’une action malveillante ou de spam. Le spam utilise-t-il les mêmes stratégies que le marketing ?