Skip to content

Instantly share code, notes, and snippets.

@grishy
Created May 16, 2020 10:20
Show Gist options
  • Save grishy/d6b4510bbb8baa126b0811f57608287f to your computer and use it in GitHub Desktop.
Save grishy/d6b4510bbb8baa126b0811f57608287f to your computer and use it in GitHub Desktop.
1
@grishy
Copy link
Author

grishy commented May 16, 2020

  1. взять данные с rlsnet. у них кодировка windows-1251. Может понадобиться менять
    image

    1. скачать сырые документы просто меняя ID в url=https://www.rlsnet.ru/mkb_index_id_6.htm и сохранить их в папку, где будут файлы mkb_index_id_6.htm просто while, пока не станет все время получать code=404. Пропускаем запросы, которые вернули 404 и не сохраняем их.
    2. преобразуем в древовидную структуру. взять каждый файл из папки (где они просто плоским листом лежат). И каждый файл.
      1. Прочитать файл и вытащить из него #breadcrumbs (html элемент с id=breadcrumbs) image
      2. прочитать путь в массив, и создать папку по этому пути (рекурсивно). в данном случае будет путь tree/"МКБ-10/I00-I99 КЛАСС IX Болезни системы кровообращения"/"I26-I28 Легочное сердце и нарушения легочного кровообращения"/ Аналог вызова mkdir -p. код можно тут посмотреть https://stackoverflow.com/a/600612
      3. внутрь этой папки положить файл, который мы только что прочитали с именем doc.html
      4. теперь можно посмотреть древовидную структуру всего в браузере. нужно будет папку в браузере открыть.
    3. теперь нужно вытащить список лекарств и описание болезней из doc.html файлов и положить рядом в формате JSON
      1. TODO
  2. записать их в базу данных (может MongoDB, ElasticSearch)

  3. сделать Web UI

  4. написать отчет

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment