Имеется несколько словарей в lsd формате, но под Linux +Stardict/Goldendict они бесполезны, а найти рабочий DSLCompiler от Лингвы, чтобы перегнать их в читаемый формат не удалось (если кто ткнёт мордой, будет неплохо).
Но суть темы не в этом, а в перегоне некоторых онлайновых ресурсов (первый словарь, а именно толковый словарь слэнга [http://urbaanisanakirja.com] путём парсинга уже имеется в черновом, но вполне рабочем варианте) оффлайн копии.

Мысли и идеи есть разные, потому и "вопросов" будет много и чтоб не плодить много тем, всё буду описывать тут. Поскольку большинство исследуемых ресурсов мультиязычные, то решения будут актуальны и для других языков, особенно редких!
И так, вопросы на повестке дня.
Скачал отсюда http://www.dicts.info/uddl.php (словари для многих языков доступны) доступные варианты словарей, но они в текстовом и никак не форматированном виде:
- Code: Select all
железо rauta
желудок maha ; vatsa
желудочно-кишечный тракт ruoansulatuskanava
желчный пузырь sappirakko
жена vaimo ; aviovaimo
женщина nainen
жертва uhraus
живая изгородь pensasaita
животноводство karjanhoito
животноводческая продукция eläintuote
животное eläimet
животное, выращиваемое на ферме kotieläin
животные виды eläinlaji
животные для забоя teuraseläin
животные ресурсы eläinvarat
жидкие отходы nestemäinen jäte
жидкий навоз lietelanta, lantavesi
жидкость neste
жидкость, образовавшаяся в мусорной яме kaatopaikan suotovesi
жизненная среда elinympäristö
жизненное пространство elintila
так что как привести их в нормальный для конвертации вид слабо представляю.
Есть вариант набыдлокодить скрипт, но нужна помощь. Т.е. нужно разбить каждую строку на две, тогда в одной строке будут исходные слова, а во второй перевод. Дальше уже проще. Вот и вопрос, как разбить строку таким образом? Хоть sed'ом, хоть как-то ещё.
На первый раз пока всё. Идут работы над снятия снапшота с glosbe.com и его парсинга. В планах нужен снапшот с wiktionary (финско-финские статьи). Но об этом по ходу басни, если не разберусь. Если есть желающим присоединиться - tervetuloa!