<div dir="ltr"><div>Hello all,</div><div><br></div><div>Cyrille already teased it in some of his previous mails on this list, but I've been working for several months on a tool to scrape bibles from any web page into a standard format (OSIS and USFM outputs are supported) : the Bible Scraper.<br></div><div>It mostly serves two purposes :</div><div><ul><li><b>Help converting "loosely formatted" bibles, such as bibles transcribed from facsimiles on wikisource, to a standard semantic format.</b><br>These bibles usually have some light formatting that aims at replicating the visual appearance of the original document, but without a strong semantic markup. With proper configuration, the scraper can convert those to a fully formed OSIS or USFM document, as long as the formatting is consistent throughout the bible.<br>This is the usage Cyrille has been experimenting a lot recently, and with which we have been achieving promising results.<br><br></li><li><b>Allow individual users to convert bibles, which are freely available on the web but which we don't have the rights to redistribute, into sword modules for their personal usage</b>.<br>This relies on the right to personal copy, which is quite strongly upheld in French law (and probably most other european countries, as there are texts on the topic from the CJEU as well) : as long as a user has legitimate access to the contents he wishes to copy, he is allowed to download and process it for personal use. Since the scraper is just software that any user can run on his own machine, there is no intermediate that could be accused of illegitimate "redistribution" in any form.<br></li></ul></div><div></div><div>In its current state, the tool is still mostly targeted at developers (I don't yet publish a downloadable artifact, so interested users have to clone the git repo, and run a maven build), but it's becoming mature enough to be shared with those who want to have a look : <a href="https://github.com/UnasZole/bible-scraper">https://github.com/UnasZole/bible-scraper</a> </div><div><br></div><div>I'm open to any kind of feedback or suggestions of course !</div><div>In particular :</div><div><ul><li>if you have any specific website in mind that you would like to be able to build sword modules from, let me know, we can try to add it. (Currently I only included a few French websites, but I'm interested to add some other languages).</li><li>And if you are knowledgeable about the intellectual property laws in other countries, I'm interested : currently, I've added a section to the README explaining why the usage of the scraper on any public website is allowed in France with references to the related texts, but it would probably be useful to have similar information for users from other countries.<br></li></ul></div><div>Thanks all and best regards,</div><div><br></div><div>Arnaud<br></div></div>