Skip to content

Instantly share code, notes, and snippets.

@vseloved
Created June 4, 2019 20:00
Show Gist options
  • Save vseloved/ce96a6ad6e88cf187e49732dd4c4ff7c to your computer and use it in GitHub Desktop.
Save vseloved/ce96a6ad6e88cf187e49732dd4c4ff7c to your computer and use it in GitHub Desktop.

Теми курсових проектів

Проекти, для яких немає готових корпусів

  1. Визначення зв’язків між сутностями на основі даних з Wikipedia, Freebase, DBPedia тощо для української мови.
  2. Визначення суб’єктивних висловлювань в текстах новин (зокрема, новин українською мовою).
  3. Генерація поезії. Доступні дані: сайти з віршами, словники рим тощо.
  4. POS-tagging для української мови. Проанотованих корпусів немає, але є граматичний словник та корпуси сирих текстів.
  5. Перевірка правопису для української мови. Дані можна проанотувати через LanguageTool; також схожий проект є тут.
  6. Автоматична генерація відповідей на запитання. Дані можна брати з Вікіпедії чи https://ukrainian.stackexchange.com (та інших SE сайтів).
  7. Реалізації алгоритму побудови векторів NNSE - це задача для тих, хто хоче заглибитись в математичну частину лінгвістичних алгоритмів.
  8. Пошук плагіату в україномовних текстах. Дані можна видобувати на: сайтах з рефератами, сайтах новин (передруківки).
  9. Передбачення поширення неологізмів (сленгу чи жаргону) в соцмережих. Є цікаве дослідження на цю тему: http://aclweb.org/anthology/C18-1135. Дані можна скрейпити з соцмереж.
  10. Ведення дебатів; визначення аргументів "за" і "проти" у дебатах. Дані можна знайти в http://www.debatepedia.org.
  11. Перетворення змін до законів у структуровану форму Автоматичний пошук неузгодженості чи протиріч у законодавчих актах.
  12. Перевірка гіпотези, що людей з різними психотипами (екстроверт/інтроверт) чи соціотипами (INTJ/ENTP/...) по-різному спілкуються у соціальних мережах. Визначення типу людини за соціальним профілем.
  13. Трансфер авторського стилю.

Проекти, для яких є готові корпуси

Передбачається, що якщо ви обрали один з цих проектів, то ви будете шукати і використовувати додаткові дані, а не просто відтворювати вже готові результати.

  1. Визначення тролінгу, образливих коментарів чи критики. Можна використати дані:
  2. Визначення подібності тексту чи перефразування тексту. Можна на основі новин зробити (різні ресурси часто перепощують ту саму інформацію іншими словами), а також використати дані:
  3. Визначення авторства чи визначення статі/віку/соціальної групи автора. Можна будь-яких авторів будь-якою мовою назбирати. Приклад даних: https://www.kaggle.com/c/spooky-author-identification.
  4. Визначення емоцій/сентиментів для конкретного домену. Можна своїх даних наскрейпити зі споживацьких сайтів. Також є багато готових корпусів, наприклад, про емоції є тут:
  5. Визначення найбільш ймовірного закінчення історії. Можна нагенерувати своїх даних з невеличких текстів, а також є https://competitions.codalab.org/competitions/15333.
  6. Визначення значень слів. Є, наприклад, https://nlpub.github.io/russe-wsi-kit/.
  7. Моделювання граматичних помилок, які роблять ті, хто вивчає мову:
  8. Виправлення граматичних помилок, які роблять ті, хто вивчає мову:
  9. Визначення іронії, сарказму чи мовних каламбурів:
  10. Усунення гендерних/вікових/расових/тощо упереджень з даних та моделей NLP:
  11. Визначення рівня ввічливості тексту:
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment