Post by Dimono » Wed Aug 21, 2013 3:11 pm

Help, Ik probeer al een week een webshop te laten indexeren bij Google Webmaster tools. Bij het testen van de sitemap en het laten "Fetchen als Google". Kreeg ik in het begin de melding robots.txt onbereikbaar en nu af en toe de melding Mislukt maar meestal de melding Onbereikbare pagina.

Ik krijg de site maar niet geïndexeerd. Sta in contact met de hostingmaatschappij(een groot bedrijf).. Deze zegt de firewall leeg te hebben gehaald, Google niet te blokkeren en vraagt mij daarnaast of ik op de één of andere manier kan achterhalen via welk ip adres google webmastertools probeert de site te indexeren. Naar mijn weten geeft Google geen IP adressen prijs.

Begin een beetje te wanhopen. Waarom is de site onbereikbaar?
Via browser is de site gewoon te bereiken, incl. robots.txt en de sitemap. Alles laad ook lekker vlot.
Aangezien de robots.txt en de xml sitemap ook niet gecrawled wordt (/index.php?route=feed/google_sitemap) vermoed ik dat het niet aan mijn html code ligt.

De site is geverifieerd via het HTML bestand van webmaster tools. Deze is op de 1 of andere manier wel bereikbaar.

Ik gebruik o.a. SEO Pack Pro, maar ik ben er niet zeker van of dit een OpenCart probleem is of dat dit aan de hosting ligt.

Wellicht dat jullie fouten zien in mijn robots.txt of de .htaccess

Mijn robots.txt:

Code: Select all

User-agent: *
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Googlebot
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Mijn .htaccess

Code: Select all

# 1.To use URL Alias you need to be running apache with mod_rewrite enabled. 

# 2. In your opencart directory rename htaccess.txt to .htaccess.

# For any support issues please visit: http://www.opencart.com

Options +FollowSymlinks

# Prevent Directoy listing 
Options -Indexes

# Prevent Direct Access to files
<FilesMatch "\.(tpl|ini|log)">
 Order deny,allow
 Deny from all
</FilesMatch>

# SEO URL Settings
RewriteEngine On
# If your opencart installation does not run on the main web folder make sure you folder it does run in ie. / becomes /shop/ 

RewriteBase /
RewriteRule ^sitemap.xml$ index.php?route=feed/google_sitemap [L]
RewriteRule ^googlebase.xml$ index.php?route=feed/google_base [L]
RewriteRule ^download/(.*) /index.php?route=error/not_found [L]
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{REQUEST_URI} !.*\.(ico|gif|jpg|jpeg|png|js|css)
RewriteRule ^([^?]*) index.php?_route_=$1 [L,QSA]

### Additional Settings that may need to be enabled for some servers 
### Uncomment the commands by removing the # sign in front of it.
### If you get an "Internal Server Error 500" after enabling any of the following settings, restore the # as this means your host doesn't allow that.

# 1. If your cart only allows you to add one item at a time, it is possible register_globals is on. This may work to disable it:
# php_flag register_globals off

# 2. If your cart has magic quotes enabled, This may work to disable it:
# php_flag magic_quotes_gpc Off

# 3. Set max upload file size. Most hosts will limit this and not allow it to be overridden but you can try
# php_value upload_max_filesize 999M

# 4. set max post size. uncomment this line if you have a lot of product options or are getting errors where forms are not saving all fields
# php_value post_max_size 999M

# 5. set max time script can take. uncomment this line if you have a lot of product options or are getting errors where forms are not saving all fields
# php_value max_execution_time 200

# 6. set max time for input to be recieved. Uncomment this line if you have a lot of product options or are getting errors where forms are not saving all fields
# php_value max_input_time 200

# 7. disable open_basedir limitations
# php_admin_value open_basedir none
Tips zijn zeer welkom, mijn ideeën beginnen een beetje op te raken!

New member

Posts

Joined
Thu May 23, 2013 3:18 pm

Post by k2tec » Wed Aug 21, 2013 8:00 pm

Voorbeeld van mijn robot.txt

Code: Select all

#****************************************************************************
# robots.txt
#     : Robots, spiders, and search engines use this file to detmine which 
#       content they should *not* crawl while indexing your website.
#     : This system is called "The Robots Exclusion Standard."
#     : It is strongly encouraged to use a robots.txt validator to check
#       for valid syntax before any robots read it!
#
# Examples:
#
# Instruct all robots to stay out of the admin area.
#     : User-agent: *
#     : Disallow:   /admin/
#
# Restrict Google and MSN from indexing your images.
#     :User-agent: Googlebot
#     :Disallow:   /images/
#     :User-agent: MSNBot
#     :Disallow:   /images/
#****************************************************************************
User-agent: twiceler
Disallow: /

#Baiduspider
User-agent: Baiduspider
Disallow: /

User-agent: Vagabondo
Disallow: /

User-agent: *
Disallow: /admin/
Disallow: /system/
Disallow: /image/cache
Disallow: /*&limit
Disallow: /*&sort
Disallow: /*?route=checkout/
Disallow: /*?route=account/
Disallow: /*?route=product/search
Disallow: /*?route=affiliate/
Als je nog meer dir hebt die niet geindexeed moeten worden plaats je er tussen.

User avatar
Active Member

Posts

Joined
Mon Apr 12, 2010 8:06 pm
Who is online

Users browsing this forum: No registered users and 3 guests