#!/bin/csh
cd /home/slap/public_html/mat1/predavanja/
set var1=`ls node*.html`
foreach dir1 ( $var1 )
	html2text.pl $dir1 > '/home/slap/Ivancica/mat1/mat1txt/'$dir1'.txt'
end
cd /home/slap/Ivancica/mat1/mat1txt

# gawk je genijalan - interpunkcija i brojevi se zamijene s ""
# ispisu se samo rijci dulje od 2 znaka i to s malim slovima
# sort -u sortira po abecedi i -u izbaci duplikate

set var1=`ls node*.html.txt`
foreach dir1 ( $var1 )
	gawk -F ' ' '{for (i=1;i<=NF;i++) {gsub(/[[:punct:][:digit:]]/,"",$i); if (length($i)>2) print tolower($i)}}' $dir1 | sort -u > $dir1'.cl'
end

# cat node*.html.txt.cl | sort -u > all
