Регіон: Дистанційно
Зарплата: 20000 грн., З податками, за результат
Вид зайнятості: повна зайнятість, неповна зайнятість
Досвід роботи: від 1 року
ОПИС ВАКАНСІЇ
Опис проєкту:
Шукаємо фахівця для виконання проєкту з конвертації двомовного словника добруджанської говірки кримськотатарської мови з документа Word у формат Name-Value Hierarchy (NVH), придатний для імпорту в лексикографічну систему Lexonomy.
Завдання:
Розробити скрипт (наприклад, на Python), який:
- Парсить напівструктурований текстовий документ Word, використовуючи візуальні ознаки форматування (колір, шрифт, дужки, символи).
- Розпізнає та структурує заголовні слова, вимову, переклади, приклади, скорочення, ідіоми, прислів'я, етимології тощо.
- Розкриває скорочення (наприклад, tr_pos: is. → isim., ro_pos: s. → substantiv).
- Генерує текстовий файл у форматі .nvh (UTF-8) з ієрархією за відступами.
- За потреби — інтегрувати в роботу LLM (наприклад, OpenAI GPT-4 або Anthropic Claude 3) через API для точного розпізнавання контексту та структури статей.
Очікуваний результат:
- Повний .nvh-файл зі структурованими словниковими статтями.
- (Бажано) Скрипт або інструкція, що дозволить відтворити конвертацію.
Вимоги:
- Досвід роботи з обробкою тексту (наприклад, python-docx, re, BeautifulSoup, pandas).
- Досвід парсингу напівструктурованих документів Word або PDF.
- Розуміння принципів форматів словників, ієрархічних структур типу NVH або YAML.
- Бажано: досвід роботи з LLM через API.
- Вітається досвід у лінгвістиці, лексикографії, опрацюванні багатомовних корпусів.
Терміни:
- Бажаний термін виконання: 2 тижні.
- Максимально допустимий термін: 1 місяць.
- Передбачається 1 раунд правок після перевірки результату.
Оплата:
- Вкажіть вашу комерційну пропозицію.
- Вартість API-запитів до LLM покривається в межах бюджету 800 євро — прохання надати приблизну оцінку або деталізацію.
Зв’язок:
- Запланувати зустріч:Google Calendar
- Телеграм для повідомлень:https://t.me/qirim_young
Контактна інформація →