|
|
|
| Доброе время суток.
Есть несколько текстов которые нужно обработать, и после обработки нужно их разбить на абзацы, примерно по 1000 символов. В инете ничего нормального не нашел, может плохо искал.. Может кто-то из форумчан сталкивался с такой задачей и есть готовые решения? Или кто-то посоветует как лучше это сделать?
Формирование абзаца надо делать по концу предложения (.!?...) Хорошо бы сделать еще исключения для прямой речи, т.е. для предложений начинающихся с " - ", но это опционально/если получится, потому как в текстах иногда встречается эта самая прямая речь. | |
|
|
|
|
|
|
|
для: iskanderro
(30.05.2017 в 17:03)
| | Лично я бы прежде добавил в конце предложения служебные знаки, например, три диеза подряд. То есть, заменить:
. на .###
! на !###
? на ?###
|
Затем весь этот текст превратил бы в массив, использовав в качестве разделителей ###.
А затем надо перебрать все элементы массива, формируя абзацы нужного Вам размера. | |
|
|
|
|
|
|
|
для: iskanderro
(30.05.2017 в 17:03)
| | 1. Разбивка текста на предложения
2. Как разделить текст на предложения?
По второй ссылке главное - регулярка (ретроспективные проверки):
| |
|
|
|