Use Rselenium for scrapping

Denis.Mongin · July 16, 2019, 9:27pm

J’essaye de faire marcher RSelenium sur baobab, avec des instance locale de firefox ou chrome. Voilà mon script :

*library(RSelenium)*
*rD <- RSelenium::rsDriver(browser = "firefox")*
*remDr <- rD[["client"]]*
*remDr$open()*
*remDr$navigate(["http://www.google.com/ncr"](http://www.google.com/ncr))*
*remDr$getCurrentUrl() # should print the url*
*remDr$close()*

j’ai ces problèmes :

Selenium message:invalid argument: can’t kill an exited process
Build info: version: ‘4.0.0-alpha-2’, revision: ‘f148142cf8’, time: ‘2019-07-01T21:30:10’
System info: host: ‘login2.cluster’, ip: ‘192.168.100.12’, os.name: ‘Linux’, os.arch: ‘amd64’, os.version: ‘3.10.0-957.5.1.el7.x86_64’, java.version: ‘1.8.0_181’
Driver info: driver.version: unknown
remote stacktrace:

Could not open firefox browser.
Client error message:
Summary: UnknownError
Detail: An unknown server-side error occurred while processing the command.
Further Details: run errorDetails method
Check server log for further details.

Et pour chrome :

[1] “Connecting to remote server”

Selenium message:unknown error: cannot find Chrome binary
Build info: version: ‘4.0.0-alpha-2’, revision: ‘f148142cf8’, time: ‘2019-07-01T21:30:10’
System info: host: ‘login2.cluster’, ip: ‘192.168.100.12’, os.name: ‘Linux’, os.arch: ‘amd64’, os.version: ‘3.10.0-957.5.1.el7.x86_64’, java.version: ‘1.8.0_181’
Driver info: driver.version: unknown
remote stacktrace: #0 0x5612f10865e9

Could not open chrome browser.
Client error message:
Summary: UnknownError
Detail: An unknown server-side error occurred while processing the command.
Further Details: run errorDetails method
Check server log for further details.

Quel est le moyen de faire fonctionner RSelenium sur baobab ?

Massimo.Brero · July 18, 2019, 9:54am

Bonjour,

Selenium nécessite un browser. Actuellement Firefox est installé sur les nœuds de Baobab, mais pas Chrome/Chromium (et il n’est pas prévu de l’installer). Nous n’avons pas d’expert Selenium dans notre équipe, mais je vous recommande de vérifier la compatibilité entre votre version de Selenium et Firefox qui pourrait être la cause de votre problème.

En dernier recours, mais c’est une solution vraiment très lourde que je ne vous recommande pas : vous pourriez créer un container Docker avec l’environnement dont vous avez besoin et déployer des instances de ce container avec Singularity sur Baobab : https://baobabmaster.unige.ch/enduser/src/enduser/applications.html#singularity

Bonne journée

Dimitrios.Proios · August 31, 2019, 12:11am

Did you try with headless chrome ? There are also quite some docker images with binaries of chrome. Try it with singularity.

Btw scraping of pure html doesnt require selenium in my opinion, unless the page to be scrapped uses heavily javascript.