Apache solr search, Resultatet ignorerar utf-8? (å ä ö )

Events happening in the community are now at Drupal community events on www.drupal.org.
Cristobal Wetzig's picture

Hej Drupalister

Undrar om någon annan stött på samma problem. Jag har en solr search server med ticka installerat.

När jag söker på siten får jag träff på både låg och log. Dvs åäö får ekvivalent till a. Misstänker att det är en enkel fix.

Tex en sökning på björk och bjork ger båda samma träff. Det lustiga i sammanhanget är att det både gällernoder och uppladdade dokument.

Någon?

Comments

Kan det vara som så att

pontus_nilsson's picture

Kan det vara som så att Tomcat inte är inställd att stödja UTF-8? Se troubleshooting guide

//Pontus Nilsson, Digitalist

Desvärre inte det :(

Cristobal Wetzig's picture

Tack pontus, Desvärre hjälper det inte mig i detta fall :(

Som jag förstår det gör ändringen i tomcat att man kan ställa själva frågan till solr med åäö.

Mitt problem är att resultatet på frågan inte skiljer mellan åäö.

Du har så klart tittat

sl27257's picture

Du har så klart tittat här:

solr FAQ

???

/Thomas

Tja. Vad säger din schema.xml

cato's picture

Tja. Vad säger din schema.xml om datatypen för fälten?
Edit: Kanske det är sökfiltret som gör det hela - http://wiki.apache.org/solr/LanguageAnalysis#Swedish

Låter som det kan vara ett collation-problem

Ooof,

Cristobal Wetzig's picture

Tack alla!

Inser att jag måste fördjupa mig närmare i hur solr fungerar. Tänkte att det kunde vara en quickfix.

Återkommer!

Det luktar collationsproblem

dblade1975's picture

Har ingen expertkunskap i drupal men lite småproblem har jag ändå kunnat lösa. Jag hade problem med att sortera alfabetiskt i views. åä gick under a och ö under o. Löste det genom att ändra kollation i databasen för node från utf8-general till utf-8-swedish. Det löste mitt problem. Kanske värt att prova?
/ David

Hej Dblade!

Cristobal Wetzig's picture

Hej Dblade!

Detta är desvärre mer avancerat än så, Solr är en extern sökmotor med duktigt mycket inställningar. Jag har dock en lösning! kommer skriva den här. Måste få resten i land. Men jag förmodar att någon annan kommer fastna med samma problem. Tack alla på drupalmeetup som frågade hur det hade gått och kom med förslag. Speciellt du Cato!

Joråsåatt

cato's picture

det var så lite så, bara kul att kunna hjälpa till. Fick du svar på solr-user? väntar med spänning på att höra om fixen

Först och främst

Cristobal Wetzig's picture

Förlåt att jag svara så sent. Har lite dåligt samvete för det.

Genom att avkommentera följande i schema.xml:

Notera att det behövs i både i query och index delen. Avkommentera med html syntax dvs <!-- --> 

Exempel på query:

<analyzer type="query">
    <!--
    <filter class="solr.ASCIIFoldingFilterFactory"/>
    <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ISOLatin1Accent.txt"/>
    -->
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
    <filter class="solr.StopFilterFactory"
            ignoreCase="true"
            words="stopwords.txt"
            enablePositionIncrements="true"
            />
    <filter class="solr.WordDelimiterFilterFactory"
            protected="protwords.txt"
            generateWordParts="1"
            generateNumberParts="1"
            catenateWords="0"
            catenateNumbers="0"
            catenateAll="0"
            splitOnCaseChange="1"
            preserveOriginal="1"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.SnowballPorterFilterFactory" language="English" protected="protwords.txt"/>
    <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
  </analyzer>
</fieldType>

Cred till stackoverflow, Cato och Cloudnet.

http://stackoverflow.com/questions/8882884/apache-solr-search-returning-...

Sweden

Group notifications

This group offers an RSS feed. Or subscribe to these personalized, sitewide feeds:

Hot content this week