- Визначення зв’язків між сутностями на основі даних з Wikipedia, Freebase, DBPedia тощо для української мови.
- Визначення суб’єктивних висловлювань в текстах новин (зокрема, новин українською мовою).
- Генерація поезії. Доступні дані: сайти з віршами, словники рим тощо.
- POS-tagging для української мови. Проанотованих корпусів немає, але є граматичний словник та корпуси сирих текстів.
- Перевірка правопису для української мови. Дані можна проанотувати через LanguageTool; також схожий проект є тут.
- Автоматична генерація відповідей на запитання. Дані можна брати з Вікіпедії чи https://ukrainian.stackexchange.com (та інших SE сайтів).
- Реалізації алгоритму побудови векторів NNSE - це задача для тих, хто хоче заглибитись в математичну частину лінгвістичних алгоритмів.
- Пошук плагіату в україномовних текстах. Дані можна видобувати на: сайтах з рефератами, сайтах новин (передруківки).
- Передбачення поширення неологізмів (сленгу чи жаргону) в соцмережих. Є цікаве дослідження на цю тему: http://aclweb.org/anthology/C18-1135. Дані можна скрейпити з соцмереж.
- Ведення дебатів; визначення аргументів "за" і "проти" у дебатах. Дані можна знайти в http://www.debatepedia.org.
- Перетворення змін до законів у структуровану форму Автоматичний пошук неузгодженості чи протиріч у законодавчих актах.
- Перевірка гіпотези, що людей з різними психотипами (екстроверт/інтроверт) чи соціотипами (INTJ/ENTP/...) по-різному спілкуються у соціальних мережах. Визначення типу людини за соціальним профілем.
- Трансфер авторського стилю.
Передбачається, що якщо ви обрали один з цих проектів, то ви будете шукати і використовувати додаткові дані, а не просто відтворювати вже готові результати.
- Визначення тролінгу, образливих коментарів чи критики. Можна використати дані:
- Визначення подібності тексту чи перефразування тексту. Можна на основі новин зробити (різні ресурси часто перепощують ту саму інформацію іншими словами), а також використати дані:
- Визначення авторства чи визначення статі/віку/соціальної групи автора. Можна будь-яких авторів будь-якою мовою назбирати. Приклад даних: https://www.kaggle.com/c/spooky-author-identification.
- Визначення емоцій/сентиментів для конкретного домену. Можна своїх даних наскрейпити зі споживацьких сайтів. Також є багато готових корпусів, наприклад, про емоції є тут:
- Визначення найбільш ймовірного закінчення історії. Можна нагенерувати своїх даних з невеличких текстів, а також є https://competitions.codalab.org/competitions/15333.
- Визначення значень слів. Є, наприклад, https://nlpub.github.io/russe-wsi-kit/.
- Моделювання граматичних помилок, які роблять ті, хто вивчає мову:
- Виправлення граматичних помилок, які роблять ті, хто вивчає мову:
- Визначення іронії, сарказму чи мовних каламбурів:
- Усунення гендерних/вікових/расових/тощо упереджень з даних та моделей NLP:
- Визначення рівня ввічливості тексту: