En SEO, comment traiter des données massivement simplement et efficacement ?

C’est la 3° fois que Nicolas intervient au Teknseo. Cette année, il vous parlera des traitements massivement parallèles, distribués et asynchrones en toute simplicité. Ces 2 dernières présentations étaient plutôt SEO orienté technique, cette fois, la présentation sera technique avec une mise en pratique SEO. Nous lui avons demandé de nous en dire plus sur son atelier à l’occasion de cette interview.

Nicolas, pourriez-vous vous présenter en quelques mots ?

Basé dans les Alpes Maritime, J’ai une agence web créée en 2004. Je propose de l’administration de serveur dédié, du développement de sites web et du référencement naturel. En parallèle de cela, je suis éditeur de site et j’ai une boutique e-commerce de plantes artificielles. Bien avant, j’ai été ingénieur en électronique et informatique pendant 10 ans.

Parlez-nous du thème de votre atelier

Souvent en SEO on développe des outils qui ont besoin de traiter plus ou moins de données et pour lesquelles les services qu’on interroge sont plus ou moins souples par rapport à la vitesse à laquelle on peut les parcourir.

Typiquement quand on veut récupérer une page de résultats sur Google, on ne peut pas aller vite…si on veut récupérer les pages de contenu d’un site web, on ne peut pas aller vite car on ne veut pas faire tomber le site en face si on a un serveur beaucoup plus puissant que celui qui héberge le site web. A l’inverse si on veut parcourir 100 sites web, il est possible d’aller vite car on peut faire un parcours pour chaque site et en traiter 100 en parallèle. Ainsi, on créé des outils pour enchainer des tâches qui peuvent être traitées en parallèle ou pas. L’idée c’est de donner des outils qui permettent d’aller vite quand il y a besoin d’aller vite, de prendre son temps s’il y a besoin de prendre son temps et puis d’enchaîner ces étapes de façon simple.

A quoi servent ces outils ? Sont-ils beaucoup utilisés par les référenceurs ?

Cela permet de réaliser des audits, d’analyser la concurrence, de créer un corpus de mots, d’extraire des phrases pour faire du spinning, de la génération de contenu. Des actions de type « White Hat » à très « Black Hat » car on peut traiter des données de façon beaucoup plus vite et simple, après tout dépend de leur exploitation et de ce qu’on en fait. Se sont finalement des outils qui peuvent être utilisés dans toutes les techniques SEO dès lors qu’on commence à faire un peu de développement et qu’on veut traiter des données. Si on n’utilise pas les bons outils on s’aperçoit que rapidement on est ralenti dans le traitement.

Pour ma part, je ne les ai pas trop vus à part dans des architectures assez compliquées. Souvent les outils en référencement se contentent de faire leur stockage Mysql avec une couche PHP éventuellement qui fait un traitement parallèle au sein du même script. L’idée ici est vraiment d’enchaîner les scripts de façon à ce que tout puisse être traité en parallèle massivement. Typiquement, moi j’ai un outil qui se fait en 8 étapes et à chaque étape on peut avoir de 1 à 100 processus afin de permettre un traitement efficace des données même si certains process sont lents ou génèrent beaucoup de données en un seul coup. Ensuite, quand il y a besoin de traiter beaucoup de données en parallèle, chaque script va traiter une seule information à la fois et je vais pouvoir en lancer 100 en parallèle.

Qu’allez-vous présenter lors de votre atelier ?

L’idée est de sortir de PHP et Mysql et d’utiliser d’autres systèmes un peu plus adaptés et simples à installer même s’ils nécessitent malgré tout des compétences de développeurs pour les exploiter. Je présenterai quelques outils et leurs variantes pour avoir un panel de ce qu’on peut faire. Nous ferons des mises en pratique SEO avec l’outil que moi j’utilise et que j’ai sélectionné après moult heures de recherche.

Quels sont les enjeux de maîtriser ces outils ?

Cela permet de faire des développements habituellement compliqués et peu efficaces d’une façon beaucoup plus simple, efficace et rapide. Tous les développements sont relativement atomiques et simples, on les empile comme des Légos. Les outils qu’on va mettre en place sont ces petits ergots sur les Légos qui font que c’est simple à empiler et à clipser. On peut faire des outils très riches et très performants en termes de volume de traitement ou d’enchaînement de séquence.

Par exemple, si on veut récupérer le contenu html des 100 pages positionnées sur une requête, on peut récupérer la page de résultats et traiter toutes les pages une par une ou alors on peut récupérer la page et ensuite traiter les 100 résultats en parallèle. Dans un cas on va mettre environ 1 demi-heure alors que dans l’autre ça peut être fait en 1 à 2 minutes.

Pourquoi avoir (encore) accepté notre invitation à Teknseo ?

C’est un format sympathique que j’aime beaucoup, même si un peu long à préparer, avec un public plutôt technique avec qui on a des affinités. Je suis développeur depuis 32 ans, c’est toujours sur l’aspect technique que j’ai orienté mon travail en référencement naturel et c’est un vrai plaisir de pouvoir le présenter sous cet angle-là. Voilà pourquoi je suis très content de revenir.