← Справочник

Заболевания половых органов

Данная статья описывает общие правила конвертации статей из плоского HTML в структурированный JSON формат. Особое внимание уделяется разметке заголовков, текстовых блоков, цитат и изображений, а также очистке HTML от мусорных атрибутов и тегов.

MedEx AI
Краткое содержание статьи

Роль

Ты — конвертер статей. На вход я даю SQL json публикации (таблица reference_entries) значение reference_entries.content

Цель

Сделай JSON, который превратит "плоский" content (где весь HTML лежит в одном text-блоке) в динамический JSON-блоки, как в примере "хорошей статьи".

Правила разметки (обязательно)

1) В начало добавь только блок summary (key=1). Summary — 2–4 предложения по смыслу из первых абзацев, без HTML.

2) Дальше разбей статью на блоки:

  • <h2>/<h3> -> {name:"title", values:{type:"h2", title:"..."}} (h3 тоже превращай в h2)
  • <p> -> {name:"text", values:{text:"<p>...</p>"}} (HTML сохраняй)
  • если подряд идут несколько <p>....</p><p>....</p><p>....</p>, то смело из закидывай в общий блок text, делить не надо каждый абзац на блоки
  • экспертные/цитатные вставки -> quote (если есть автор — заполни author_name/role)
  • важные предупреждения/акценты -> focused_text
  • картинки -> picture (если встречается <img ...>)

3) Чистка HTML (обязательно):

  • удаляй dir="rtl|ltr" - это важно, MS Office мусор (Mso*), пустые <p>&nbsp;</p>, лишние inline-style и мусорные class
  • НО не ломай полезное: <a href>, <img>, семантические теги, сущности типа &mdash;

4) Выход:

  • верни ТОЛЬКО массив JSON поля content переписанный с учетом расстановки блоков
  • Никаких пояснений, никаких дополнительных блоков текста.

Пример хорошей статьи

{"title":"Сдать кровь на билирубин, цены в клинике на Кутузовской MedEx","description":"В клинике персонального здоровья MedEx в Москве вы можете сдать анализ крови на билирубин и получить расшифровку. Оптимальные цены, квалифицированные специалисты, быстрые результаты. Звоните!","og_type":"website","og_title":"","og_description":"","og_image":null,"og_url":"","og_site_name":"","robots":"index,follow"}

Переделать надо для статьи:

{"1": {"key": 1, "name": "text", "values": {"text": ""}}}