^^DocFetcher

La mia programmazione attuale 2020

 

Per escludere dall'indicizzazione files e direttori:

 

Per escludere i Files

ix.* i file indice generici di raccolta
index.* i file indice dei folders
.*\.pdf i file di estensione pdf. Escludo i pdf, poiche' sono gia' indicizzati gli odg.
Nel sito c'e' solo il pdf sugli angoli che non sia anche odg.
search_list_ixtitle_dfn.*  
 

Per escludere i direttori

Absolute path, cioe' nella colonna "Match Against" selezionare la voce "Absolute path" con click nel campo

.*/scl/.* absolute path per escludere il direttorio scl
.*/scl_val/.* absolute path per escludere il direttorio scl_val
.*/scl_lz/.* absolute path per escludere il direttorio scl_lz
.*/_.*/.* absolute path per escludere i direttori privati di FrontPage, che iniziano con _

Attento ai trailing blank nella regex string, evitarli, poiche' vengono interpretati.

 

Nelle preferenze:

use AND operator in queries as default

 

Evitare l'indicizzazione di un intero direttorio. To exclude sub folders.

2011-11-25 06:40:46 PST
Hello, It seams, that it is possible to exclude sub folders completely in the newest version 1.1 beta. But I have not find out, what the right syntax is. My idea is, to put a folder with the program into my library folder ad exclude it form indexing. Is this possible and when yes, can you give me an example please. The best way were to use relative paths for it. Thanks.
 

qforceProject Admin 2011-11-28 09:30:43 PST
The filters are only applied to files, not folders. However, since they can be applied to filepaths, you can use that to exclude certain folders.

Example:

Let's say you have the following two files: C:\outer\outer.txt C:\outer\inner\inner.txt To exclude all files in the folder 'inner', use this regex: .*/inner/.* Note that the regex must be matched against the filepath, not against the filename. You can find a little regex tutorial in the manual.

 

Programmazione DocFetcher obsoleta

1) Per evitare l'indicizzazione degli indici del sito:

Skip files
ix.* $ index.*

2) Per evitare l'indicizzazione di un intero direttorio, non ho capito come si fa, quindi lo tolgo (momentaneamente prima di indicizzare).

- Togliere il direttorio scl
- Devo rinominare www_puro in www