Pagina 1 di 1

robots.txt fatto come si deve

Inviato: 08/05/2006, 22:42
da Fabrizio88
Ciao

Ho problemi con google, e a quanto pare solamente con lui :x
Peccato che sia il più usato... :lol:

Cercando di fare il meglio per il mio sito ho controllato il mio file robots (non si sà mai)

e trovo questo schifo:

# Sample robots.txt file (make sure the filename is ALL LOWERCASE on Linux/Unix systems)
# This file should go in your web site's ROOT directory
# The root directory is where your site's main /index.html file would be found
# It is usually found in /yourhomedir/public_html/ or /yourhomedir/httpdocs
# Where "yourhomedir" is your user account's name
#
# We invite you to also check out our popular contribution: Simple Template System (STS)
# It lets you layout or change your OSC look-and-feel by modifying a single HTML file
# http://www.oscommerce.com/community/contributions,1524 or SimpleTemplateSystem.com
# Enjoy! - Brian Gallagher @ DiamondSea.com

# This says to apply these settings to ALL search engine spiders/crawlers
User-agent: *

# These settings will keep spiders from indexing your unwanted pages
# This assumes that your OSC install is in your web site's ROOT directory
# ie: http://www.yoursite.com/index.php <- Use if this brings up your OSC main page
Disallow: /admin

Disallow: /account.php
Disallow: /advanced_search.php
Disallow: /checkout_shipping.php
Disallow: /create_account.php
Disallow: /login.php
Disallow: /login.php
Disallow: /password_forgotten.php
Disallow: /popup_image.php
Disallow: /shopping_cart.php

# These settings will keep spiders from indexing your unwanted pages
# This assumes that your OSC install is in your web site's ROOT directory
# ie: http://www.yoursite.com/catalog/index.php <- Use if this brings up your OSC main page
Disallow: /catalog/admin
Disallow: /catalog/account.php
Disallow: /catalog/advanced_search.php
Disallow: /catalog/checkout_shipping.php
Disallow: /catalog/create_account.php
Disallow: /catalog/login.php
Disallow: /catalog/login.php
Disallow: /catalog/password_forgotten.php
Disallow: /catalog/popup_image.php
Disallow: /catalog/shopping_cart.php

# Feel free to add any other pages on your site that you don't want to be indexed by
# the search engines.
# PLEASE NOTE: Any pages that you list here should be secured by other means if you
# don't want people to be able to view them, as some malicious users will look at a
# robots.txt file to try to find "hidden" or "secret" areas of web sites to find
# confidential information.
# Just Uncomment a line or add new ones as you see fit.
# Disallow: /private
# Disallow: /hidden

# IF YOU DO NOT WISH TO HAVE THE GOOGLE IMAGE BOT SCAN YOUR DOMAIN FOR IMAGES
# THEN YOU CAN INCLUDE THE FOLLOWING IN YOUR ROBOTS FILE.
# I FOUND THAT MY BANDWIDTH USAGE DROPPED BY A MASSIVE AMOUNT AFTER I GOT RID
# OF THE GOOGLE IMAGE BOT. ALL I HAD WAS IMAGE HUNTERS STEALING PRODUCT SHOTS
# AND NOT EVEN BROWSING THE SITE.

User-agent: Googlebot-Image
Disallow: /



Vorrei sapere oltre ad eliminare testo e doppioni.. qual'è il file robots migliore per osc???
Altra domanda... questo robots è fatto per google, lo seguono alla lettera anche gli altri motori di ricerca???

GRAZIE!!

Inviato: 08/05/2006, 22:57
da Fabrizio88
Ho controllato un paio di siti online che vanno benone su google...
e non usano un robots.txt!!!
è possibile non farlo visualizzare? altrimenti penso di eliminarlo definitivame nte... :shock:

Inviato: 08/05/2006, 23:27
da elvinomac
il tuo catalogo è nella root del sito quindi:

crei un file di testo con
User-agent: *
Disallow: /admin/
Disallow: /download/
Disallow: /images/
Disallow: /includes/
Disallow: /pub/
Disallow: /temp/

lo nomini robots.txt e finito li !

non serve una contribution per cose così semplici.
oppure ti documenti in : http://www.robotstxt.org/


se hai bisogno per l' indicizzazione son quà...

Inviato: 08/05/2006, 23:31
da Fabrizio88
si lo so che non c'è bisogno di una contribution :wink:
Ma la domanda principale ora è: a che diavolo serve ???
Facendo una ricerchina ottimi siti non la usano... possibile???
che rischi corro non usandolo?

poi a parte l'area admin le altre cartelle perchè le dovrei nascondere?

Inviato: 09/05/2006, 2:46
da Faber73
Perchè schifo ? a me sembra buono.

Il file robots è importante, inquanto dice hai motori di ricerca cosa possono indicizzare e cosa no.

Fondamentale evitare l' indicizzazione delle aree protette come la cartella ADMIN e le altre che di fatto non serve trovarle nel motore, come la CACHE e la TEMP.

E' importante ottimizzare l' indicizzazione inquanto all' utente finale arrivino le sole informazioni importanti e che gli interessano, senza creare troppo caos con link a roba che non serve affatto. Senza contare che l' indicizzazione è più veloce ;)



Faber

Inviato: 09/05/2006, 9:32
da Fabrizio88
Sono sempre indeciso se mettere un file robots.txt o meno..

Comunque, come mi hanno fatto notare a cosa servirebbe Disallow: /admin/ se si usa l'area protetta da password???

Io non ho la cartella cache :cry: come mai?

Guardando le cartelle che ho, praticamente sono tutte da nascondere! :shock: rimane la cartella includes!
e a quanto pare anche lei si deve nascondere...

Alla fine rimangono i file nella root...

Inviato: 09/05/2006, 11:54
da Faber73
Fabrizio88 ha scritto:Sono sempre indeciso se mettere un file robots.txt o meno..

Comunque, come mi hanno fatto notare a cosa servirebbe Disallow: /admin/ se si usa l'area protetta da password???

Io non ho la cartella cache :cry: come mai?

Guardando le cartelle che ho, praticamente sono tutte da nascondere! :shock: rimane la cartella includes!
e a quanto pare anche lei si deve nascondere...

Alla fine rimangono i file nella root...

Che cmq sono gli unici files che interessano veramente :wink:

Inviato: 09/05/2006, 17:30
da Fabrizio88
Guardate il file come lo fatto ora:

User-agent: *

Disallow: /88admin88
Disallow: /Annunci
Disallow: /cancella
Disallow: /cgi-bin
Disallow: /chat
Disallow: /download
Disallow: /Forum
Disallow: /Immagini
Disallow: /includes
Disallow: /pub
Disallow: /temp
Disallow: /tmp
Disallow: /account.php
Disallow: /advanced_search.php
Disallow: /checkout_shipping.php
Disallow: /create_account.php
Disallow: /login.php
Disallow: /password_forgotten.php
Disallow: /popup_image.php
Disallow: /shopping_cart.php
Disallow: /cookie_usage.php

Secondo voi comè?

Inviato: 10/05/2006, 18:52
da mustafa
è ok. guarda comunque il link che ho in firma ;)

Inviato: 25/08/2006, 4:02
da SxM
Scusate..ma io non ho capito..

Se la root è cosi'composto

catalog
index.html

Penso che il file robots vada editato cosi' no ?

crei un file di testo con
User-agent: *
Disallow: /catalog/admin/
Disallow: /catalog/download/
Disallow: /catalog/images/
Disallow: /catalog/includes/
Disallow: /catalog/pub/
Disallow: /catalog/temp/

Inviato: 25/08/2006, 16:22
da mustafa
si, se hai oscommerce dentro /catalog/ dovrai includere anche questo nel path.

insomma, il robots.txt va messo nella docroot e deve contenere i path assoluti a partire da questa ;)

Inviato: 25/08/2006, 20:38
da SxM
Perfetto...grazie...

Inviato: 25/08/2006, 23:36
da mustafa
prego, figurati :)