Archives par étiquette : SEO

Améliorer son référencement avec l’OCR et les outils PDF pour extraire du texte d’un fichier image

Pour un bon référencement de votre site internet, vous devez publier du contenu original et unique. Cela vous permet non seulement de favoriser les requêtes longue traine, la multiplication du contenu augmentant le nombre de correspondances (exactes ou partielles) possibles avec les recherches des internautes, mais également de démarquer votre site internet vis à vis de google par sa capacité à disposer de ce contenu unique.

Au delà des techniques de générations de contenu (bannies par Google), ou de l’écriture de contenu (très consommatrice en temps), vous disposez peut être d’une littérature d’entreprise ou d’ouvrages originaux et uniques (dont vous disposez de tous les droits d’auteur ou de reproduction), voir même de captures d’écran, dont le contenu pourrait être judicieusement et généreusement utilisé pour alimenter votre site internet en corpus uniques.

Associée aux multiples logiciels permettant d’extraire ou de copier le texte présent dans un fichier image, tout ça grâce à la technologie OCR (optical character recognition = reconnaissance optique de caractères), vous allez pouvoir obtenir votre précieux sésame (le contenu unique) en quelques clics.

Dans cet article, nous vous recommandons 8 solutions efficaces pour copier ou extraire du texte depuis un fichier image.

1 – PDFelement 6

Un des meilleurs logiciels pour gérer les fichiers images et en extraire ou copier le texte est PDFelement 6.
Il présente les fonctionnalités pour une parfaite gestion de vos fichiers, c’est un redoutable éditeur de PDF :

  • Modifier du texte : suppression/ajout de texte, changement de police, d’alignement, de taille des caractères, de couleurs ;
  • Éditer des images et des objets et ajouter ou supprimer des objets/images sur n’importe quelle partie du fichier ;
  • Ajouter des annotations : ajout de tampons, de zones surlignées, vous pouvez souligner ou barrer du texte, ajouter des notes, des numérotations Bates ;
  • Fusionner plusieurs PDF en un seul PDF ;
  • Diviser un fichier en plusieurs documents ;
  • Créer un PDF à partir d’une page vierge ;
  • Créer des formulaires PDF à remplir, ou vous pouvez remplir des formulaires PDF numériquement ;
  • Ajouter ou supprimer une page ou plusieurs pages ;
  • Extraire des données de différents fichiers, comme des feuilles de calculs par exemple ;
  • Convertir différents formats de fichiers (HTML, TEXT, Images, Word, PPT, Excel, etc.) en PDF, et convertir des PDF en différents formats ;
  • Copier ou extraire du texte à partir d’un fichier image avec la technologie OCR puissante et précise.

Sa fonctionnalité OCR est particulièrement intéressante, elle est disponible dans 23 langues dont le français, l’anglais, l’espagnol, l’allemand, le chinois et le japonais. Avec l’OCR, vous pourrez extraire ou copier le texte de tous vos documents images afin de les transformer en fichiers consultables et modifiables.
L’OCR de PDFelement 6 est très précise et elle conserve la mise en page du fichier d’origine (style de polices, titres, taille de police, tableaux etc.)

Pour effectuer l’OCR avec PDFelement 6, suivez ces quelques étapes très simples et rapides pour obtenir le meilleur résultat possible :

Étape 1 : Ouvrir le fichier Image

Démarrez Wondershare PDFelement et cliquez sur « Ouvrir » dans l’onglet Fichier pour naviguer dans vos dossiers et choisissez le fichier Image comportant du texte que vous voulez extraire/copier.

Étape 2 : Extraire/copier le Texte du Fichier Image

Une fois le fichier ouvert, cliquez sur « OCR » dans la barre d’outils de l’onglet Modifier.
Choisissez la langue de sortie souhaitée du fichier image (parmi de nombreuses langues disponibles) en cliquant sur « Changer la Langue », et choisissez l’intervalle de pages sur lesquelles effectuer l’OCR en cliquant sur « Personnaliser des Pages ».
Enfin, cliquez sur OK pour effectuer l’OCR.

Étape 3 : Modifier le document OCR

Après avoir effectué l’OCR sur votre fichier image, vous pourrez alors faire toutes les modifications que vous souhaitez sur ce document puisque le texte aura été extrait et sera modifiable. Pour l’éditer, cliquez sur l’onglet correspondant aux modifications que vous souhaitez faire (ex. : onglet Pages, Modifier ou Annotations) et choisissez les outils nécessaires, effectuez les modifications puis terminez par enregistrer le fichier finalisé dans le format souhaité (Word, PDF, PPT, etc.)

2 – PDF OCR X

PDF OCR X est un logiciel à télécharger et permettant de convertir des fichiers PDF et ainsi que des images en documents TXT. Il extraie donc le texte contenu dans une image. Puis, vous aurez la possibilité de modifier ce texte en appliquant différents outils d’édition rapides et faciles. Les textes extraient conservent leur mise en page originale et les documents contenant des tableaux et des objets sont reconnus par le logiciel.
Le logiciel prend en charge les formats JPG, TIF, GIF, PSD, PNG contenant du texte, donc vous pourrez utiliser l’OCR sur ces types de fichiers avant d’enregistrer le texte extrait et le fichier terminé au format PDF.
PDF OCR X présente également la possibilité d’effectuer l’OCR dans une vingtaine de langues telles que le français, l’espagnol, l’anglais, l’allemand ou encore l’italien par exemple.
C’est un logiciel assez abordable pour extraire et copier du texte à partir d’image avec la fonction d’OCR, mais utilisez-le seulement si vous n’avez pas de grands besoins en édition sur les données extraites.

3- Prizmo

Prizmo est un logiciel dont la fonctionnalité clé est d’effectuer l’OCR pour extraire et copier du texte à partir de fichiers scannés ou d’images. Il permettra d’exporter le fichier en plusieurs formats mais présente quand même plus de limites dans les formats de fichiers de sortie que les autres logiciels recommandés dans cet article.
Cependant, l’OCR est parfaite dans la langue choisie, et vous pouvez effectuer l’OCR directement depuis la fenêtre d’accueil du logiciel, fournissant un gain de temps.
Prizmo présente une interface simple et intuitive, surtout pour les utilisateurs débutants, ceux-ci n’ont pas besoin de s’y connaitre en éditeur de PDF pour pouvoir utiliser les simples fonctionnalités du logiciel.
Ce logiciel n’est pas très cher et serait parfait si vous n’avez pas besoin de fonctions d’édition exceptionnelles.

4 – OCRKit

OCRKit est un logiciel intuitif, très simple à utiliser et super efficace pour extraire ou copier du texte à partir d’images en effectuant la fonction OCR sur des fichiers scannés sur Mac mais aussi sur Windows.
OCRKit permet d’effectuer l’extraction de texte sur plusieurs fichiers en même temps et la précision du logiciel est surprenante, quel que soit l’état ou la résolution du fichier image original.
Si vous devez extraire les données d’un scan de documents – ou d’une image – particulièrement vieux ou endommagé, on vous recommande d’essayer OCRKit si vous ne voulez pas dépenser beaucoup d’argent sur ce type de logiciel OCR.
Il y a d’autres fonctions intéressantes sur OCRKit ; l’outil de rotation détecte automatiquement l’orientation de chaque fichier, donc vous n’aurez pas besoin de faire pivoter manuellement vos documents.
OCRKit détecte aussi automatiquement différentes langues sur vos images, ce qui est une fonction très utile si vous scannez des documents dans plusieurs langues.
OCRKit est intégré avec Pages, le logiciel processeur de documents sur Mac, ce qui signifie que vous pouvez modifier votre document ou le texte extrait avec l’application Pages.

5 – OneNote

OneNote est un des meilleurs outils OCR gratuits depuis de nombreuses années maintenant. En fait, la fonction OCR de OneNote est une fonction moins connue de l’application que les utilisateurs utilisent peu.
Mais nous vous recommandons de l’utiliser afin de vous rendre compte à quel point cette fonctionnalité est parfaite pour extraire ou copier du texte à partir d’images de manière rapide et précise.
Dans ce logiciel, vous aurez simplement à ouvrir votre fichier image, puis à cliquer sur « Copier texte depuis image » et coller le texte où vous le souhaitez, sur une page vierge ou sur n’importe quel autre type de document.

6 – FreeOCR

FreeOCR est souvent cité comme l’un des meilleurs outils pour extraire du texte depuis des images et ce n’est pas pour rien !
Même si les mises à jour sont peu courantes, le logiciel ne crée pas de problème, même sur les systèmes les plus récents.
Une super option dans ce logiciel est la possibilité d’exporter le texte extrait directement dans Microsoft Word. FreeOCR lui-même n’a pas vraiment de super options d’édition, mais en exportant le texte extrait dans Word, cela ne devrait pas vraiment poser de problème.
Malheureusement, si votre image source n’est pas de haute résolution ou est de mauvaise qualité, FreeOCR ne sera pas tellement précis, contrairement aux autres logiciels dans cet article.

7 – Copyfish

Copyfish est une simple extension pour Google Chrome et elle est un peu plus flexible que d’autres outils proposés dans cet article.
À la place de travailler à partir d’un fichier image, vous pouvez utiliser Copyfish pour sélectionner n’importe quelle partie de la page de votre écran navigateur et extraire le texte à partir de là de manière instantanée.
S’il s’agit d’une image, vous pouvez simplement sélectionner l’image entière au lieu de télécharger l’image en premier avant de la charger dans un logiciel OCR.
Plutôt pratique, n’est-ce pas ?

8 – Online OCR

Online OCR est une solution un peu différente, en effet, si vous ne souhaitez pas installer de logiciel, d’application ou d’extension, alors nous vous recommandons Online OCR.
Avec cet outil en ligne, vous pouvez sélectionner un fichier image et simplement extraire le texte rapidement et de manière pratique.
Online OCR est très rapide, simple à utiliser et permet de sortir le texte extrait en formats texte, Word ou Excel. Rien de plus !
C’est une solution rapide et pratique, sauf si vous souhaitez quelque chose d’un peu plus poussé pour éditer les données extraites de votre image.

L’édition de fichiers images pour collecter vos textes n’a plus besoin d’être compliquée. Nous vous embêter plus à retaper manuellement le texte que vous avez trouvé dans une image ou même dans un fichier scanné. Nous sommes en 2017 ! Tout est possible ! Avec la liste de recommandations ci-dessus, vous êtes paré pour tous vos besoins en termes d’OCR et d’extraction ou de copie de texte sur fichier image. Notre petit préféré reste PDFelement 6, l’OCR est absolument parfaite et tous ses autres outils d’édition sont un bonus non négligeable pour la gestion de tout type de fichier.

Référencer un site internet à l’étranger

Lorsque l’on souhaite promouvoir son activité à l’étranger, avant de développer son lectorat, il faut disposer d’une base fiable.

En particulier, les critères suivants sont importants :

  • le site internet doit être dans la langue native de l’internaute. En revanche, si vous ne la maîtrisez pas, préférez un site internet dans votre langue maternelle, ou, si possible et si vous le maîtrisez, en Anglais. Cela donnera plus de liberté à l’utilisateur qui sera libre de traduire ou non, vous évitez ainsi nombre de contresens et erreurs de traduction.
  • Le site internet peut être hébergé dans un pays où la langue du site est parlée. Par exemple, le site www.immobilierespagne.ch est enregistré en Espagne avec un nom de domaine Suisse (CH) contenant des mots clefs en français, et est hébergé en France, c’est parfaitement cohérent pour un site francophone qui vise à s’adresser au marché suisse.
  • Les liens pointant vers votre site internet proviennent idéalement du pays de destination de votre marché (en terme d’hébergement et nom de domaine) , ce sera la preuve de votre légitimité sur un sujet donné dans le pays
  • Dans la console Google Webmaster Tools, vous pouvez cibler un pays particulier. Si vous adressez plusieurs pays, laissez la configuration par défaut.

ciblage-international-google-webmaster-tools-console

 

Vous pouvez également contrôler le bon fonctionnement de vos balises hreflang, utiles au référencement, dans le cas d’un site multilingue, ou avec affichage d’informations propres à un pays (par exemple en terme de devise EUR vs CHF)

Recommandation seo, utilisez un plan de site au format XML

Régulièrement, nous vous informons d’une recommandation à mettre en œuvre sur votre site internet en partant d’un exemple concret sur un site réel.

Le site internet: billiga.ch

Pour l’exemple du jour, nous avons retenu billiga.ch , qui, nous le souhaitons, sera attiré par nos recommandations ! Billiga est un comparateur d’assurance proposé par Web Auction Sarl à Genève. Le site internet, en plus de proposer une évaluation des différentes offres, peut vous faire faire des économies avec un système d’enchères inversées: vous configurez ce pourquoi vous souhaitez être assuré, et Billiga se charge d’obtenir des devis le moins cher possible, en faisant jouer la concurrence.

Le problème identifié: billiga.ch ne propose pas de fichier standardisé sitemap.xml

Aujourd’hui l’adresse suivante n’est pas accessible:

http://www.billiga.ch/sitemap.xml

Et l’adresse du sitemap n’est pas non plus référencée dans le fichier robots.txt :

http://www.billiga.ch/robots.txt

Cette situation peut avoir un impact pour le référencement du site internet, car, en l’absence d’une déclaration manifeste du webmaster dans chacun des moteurs de recherche avec l’adresse exacte du plan de site au format XML (qui existe peut être et probablement par ailleurs pour ce site), les moteurs de recherche ne pourront pas aller à l’essentiel.

En mettant à disposition ce fichier sitemap.xml, vous pouvez orienter la manière dont les moteurs de recherche, à qui vous soumettrez ce fichier ou qui le trouveront tout seul, vont indexer votre site, de la même manière que pour le fichier robots.txt

Exemple de sitemap.xml

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>
      <loc>http://www.billiga.ch/</loc>
      <lastmod>2014-01-21</lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.8</priority>
   </url>

Un fichier sitemap avec un nom différent de sitemap.xml  ?

Vous pouvez également choisir de le nommer différemment, à condition de le signaler aux moteurs de recherche dans le fichier robots.txt :

Sitemap: http://www.billiga.ch/differentsitemap.xml

Comment créer le fichier sitemap.xml

Site internet de type développement spécifique

Créez manuellement le fichier à partir d’un exemple, ou faites en sorte qu’il soit générer, dynamiquement ou périodiquement.

Site internet de type CMS (wordpress, Joomla, etc…)

Orientez vous vers un plugin qui générera pour vous ce fichier. Par exemple pour WordPress essayez ce plugin

 

Recommandation seo, avec et sans www : redirigez votre domaine

Régulièrement, nous publions une best-practice pour vous aider à optimiser votre site internet.

Le site internet: capinformatique.ch

Aujourd’hui, nous prenons l’exemple de CapInformatique.ch , qui, nous l’espérons, suivra nos recommandations ! Cap Informatique est une entreprise spécialiste du marché informatique (PC et Apple) dans le canton de Genève dans l’arc lémanique qui propose ses services aux entreprises, mais également aux particuliers.

Le problème identifié: capinformatique.ch ne redirige pas vers www.capinformatique.ch

Aujourd’hui deux sites distincts sont accessibles:

http://capinformatique.ch et http://www.capinformatique.ch

Cette situation est préjudiciable sur le plan SEO car les moteurs de recherche considèrent qu’il s’agit de deux sites internet différents, dont le contenu est identique. Pour comprendre la différence, imaginez un hébergeur de pages personnelles dont le site serait « free.fr » et dont un utilisateur publierait un site sous le nom « mapageperso.free.fr » ou encore « wwww.free.fr » avec un contenu identique au site de free !

Le site principal est généralement celui du domaine (sans www), mais le plus souvent le site connu du grand public, celui qui est communiqué dans les documents commerciaux et déjà référencé est celui préfixé par www, et il convient donc de rediriger domaine.com vers www.domaine.com . Pour cela différentes solutions:

Redirection PHP: 2 virtualhosts, 2 dossiers public_html : dans le dossier correspondant à capinformatique.ch, faites une redirection avec un fichier index.php contenant:

<?php
header('HTTP/1.1 301 Moved Permanently', false, 301);
header('Location: http://www.capinformatique.ch');
exit();
?>

Redirection HTTP 301: 1 seul virtual host, dans la définition de votre virtualhost, ou avec l’aide d’un fichier .htaccess, réalisez la redirection si le module de réécriture d’URL est activé:
RewriteEngine on
RewriteCond %{HTTP_HOST} ^capinformatique.ch
RewriteRule ^(.*)$ http://www.capinformatique.ch$1 [r=301,L]

Cas particulier: si votre site internet domaine.com est déjà référencé sans le préfixe www, alors vous avez intérêt à rediriger www.domaine.com vers domaine.com

Référencement d’un nouveau site web

Le lancement d’un nouveau site Internet est toujours difficile . Lorsque vous commencez , votre site est totalement inconnu (sans référencement) , vous n’avez pas de liens entrants , et vous ne pouvez pas être trouvé dans les moteurs de recherche . Alors, que faire ?

J’ai lancé beaucoup de nouveaux sites au fil des ans et j’ai expérimenté avec différentes méthodes de sites obtenir indexées.

Proposer une URL de site à Google pour commencer le référencementréf

C’est un peu une évidence, mais il a vraiment liez d’être le premier dans cette liste. Google ne peut pas indexer votre site si il ne sait pas à ce sujet , soumettre votre page d’accueil  est certainement le meilleur endroit pour commencer .

Bien sûr, Google ne garantit pas que ce sera l’indice toutes les URL qui est ajouté mais ne laissez pas cela vous arrêter . Assurez-vous que d’ajouter une URL par domaine ( normalement votre page d’accueil ), sinon il pourrait être considéré comme du spam . Les robots de Google trouveront toutes les autres pages de votre site en suivant les liens internes .

Voici le lien pour soumettre votre URL à Google :
www.google.com/addurl

Yahoo a également une fonction similaire » Ajouter URL  » :
search.yahoo.com/info/submit.html

Et pour finir Microsoft Bing  :
http://www.bing.com/toolbox/submit-site-url

Ajouter un sitemap XML

Il peut prendre un certain temps pour les robots de Google pour indexer toutes les pages dans un nouveau site Web tout en suivant les liens . Plus le site Web est grand, plus cela peut prendre de temps.
Je trouve que l’ajout d’un sitemap XML résout vraiment le problème , car il indique à Google sur toutes vos pages à l’avance . Si vous avez un grand site avec de nombreuses pages clic élevé de profondeur puis d’une sitemap XML permettra l’indexation énormément.

Un sitemap XML est fondamentalement un fichier texte ( enregistré avec une extension XML ) qui répertorie toutes les URL de votre site web . Le protocole sitemap XML est très simple de sorte qu’il peut facilement être créé à la main ou automatiquement avec un outil de générateur de sitemap XML . La norme XML sitemap est soutenu par Google , Yahoo! et Microsoft de sorte que le même plan du site peut être utilisé pour tous les trois moteurs de recherche .
Une fois que vous avez créé votre fichier sitemap , vous devez présenter à chaque moteur de recherche . Pour ajouter un sitemap à Google , vous devez d’abord vous enregistrer votre site web avec Google Webmaster Tools . Ce site vaut bien l’ effort , il est complètement libre , plus il est chargé avec des informations précieuses sur le classement de votre site et l’indexation dans Google . Vous trouverez également de nombreux rapports utiles , y compris classement des mots clés et des contrôles de santé . Je le recommande fortement .
De même , vous pouvez ajouter un sitemap XML pour Yahoo! grâce à la fonctionnalité Yahoo! Site Explorer . Comme Google, vous devez autoriser votre domaine avant que vous pouvez ajouter le fichier sitemap , mais une fois que vous êtes inscrit , vous avez accès à de nombreuses informations utiles sur votre site .
Microsoft n’a pas une façon particulière de présenter encore un plan du site ( ils semblent toujours être si loin derrière la concurrence ) il faut donc utiliser leur Terminer ma forme régulière du site à la place.

Qualité des liens entrants Source

Une autre méthode très utile pour accélérer l’indexation est d’obtenir autant de liens entrants provenant de sites Web de qualité que possible . Si vous connaissez quelqu’un qui dirige un site web ou un blog populaire , pourquoi ne pas leur demander un lien ? Il semble que le plus populaire d’un site Web est , le plus d’attention de l’indexation qu’elle reçoit de Google , créant ainsi une bonne stratégie de liens entrants est essentiel . Passez du temps à écrire des articles intéressants et utiles pour votre nouveau site et ceux-ci devraient commencer à attirer de plus en plus de bons liens de qualité au fil du temps …