Hi there, the automatic extraction we rely on looks for certain HTML elements to determine which HTML block is most likely to contain the article content. One of the clues is the number of paragraph (<p>
) elements.
This site, very unusually, appears to be using header (<h3>
) elements instead of paragraph elements. So my guess is that’s what’s causing extraction issues.
Here’s a sample:
<h3>Самооправдувањето е болест која е пораширена, понезабележлива и потешка од судењето и осудувањето.</h3>
<h3>Самооправдувањето и осудувањето се две страни на една гревовна состојба – гордоста.</h3>
<h3>Пораширена – затоа што, најчесто, дури и тие што внимаваат да не осудуваат и да не им судат на другите, не внимаваат дека се самооправдуваат.</h3>
<h3>Понезабележлива – затоа што, најчесто, тој што се самооправдува не го фаќа моментот на гревот на самооправдувањето.</h3>
These should all be marked up as regular paragraph (<p>
) elements.
If you’re using a self-hosted version of Full-Text RSS, you can create a custom site config file to tell Full-Text RSS which block to extract from this site. That should give you more consistent results.