Главная
Молодежный форум
Православные знакомства
Поиск друзей по интересам
Молодежный чат
Клуб 'Чайка'
Содружество 'Фавор'
Молодежные организации
Интерактивное обучение


Молодежный форум

"Чайка" — первый православный молодежный форум Рунета


 FAQFAQ    ПоискПоиск    ПользователиПользователи    Правила форумаПравила форума  РегистрацияРегистрация 
 ПрофильПрофиль   Войти и проверить личные сообщенияВойти и проверить личные сообщения   ВходВход 

Чем ищете слова по куче PDF?

 
Начать новую тему   Ответить на тему    Список форумов Молодежный форум -> Hi-Tech
Предыдущая тема :: Следующая тема  
Автор Сообщение
volny


   

Зарегистрирован: 17.06.2005
Сообщения: 5819
Откуда (город): Spb

СообщениеДобавлено: Пн 28 Июн, 2010 20:59    Заголовок сообщения: Чем ищете слова по куче PDF? Ответить с цитатой

На винде Адоб Ридером я ищу так:
www.online-tech-tips.com/computer-tips/how-to-search-for-text-inside-multiple-pdf-files-at-once/ писал(а):
To use the advanced PDF search option, you can choose Open Full Reader Search in the drop down menu of the search box or press SHIFT + CTRL + F


На линуксе ищут так:
http://mydebianblog.blogspot.com/2006/10/pdf.html писал(а):
$ find -name '*.pdf' -exec pdftotext -nopgbrk -q {} \; index++ -v3 -e "text:*.txt" .
$ search++ morphology and erosion and dilation not medicine
и pdfgrep

А Вы чем ищете слова по куче PDF?
_________________
ХВ!
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Cheburashka


   

Зарегистрирован: 16.06.2010
Сообщения: 630
Откуда (город): ua

СообщениеДобавлено: Вт 29 Июн, 2010 8:53    Заголовок сообщения: Ответить с цитатой

На винде можно поставить локальный гуголь (%
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
volny


   

Зарегистрирован: 17.06.2005
Сообщения: 5819
Откуда (город): Spb

СообщениеДобавлено: Вт 29 Июн, 2010 12:24    Заголовок сообщения: Ответить с цитатой

Cheburashka писал(а):
На винде можно поставить локальный гуголь (%
он будет искать по пдф? я просто не узнавал.
_________________
ХВ!
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Cheburashka


   

Зарегистрирован: 16.06.2010
Сообщения: 630
Откуда (город): ua

СообщениеДобавлено: Вт 29 Июн, 2010 12:26    Заголовок сообщения: Ответить с цитатой

volny писал(а):
Cheburashka писал(а):
На винде можно поставить локальный гуголь (%
он будет искать по пдф? я просто не узнавал.
Вроде искал по всем документам, но я давно им не пользовался, года 3 как.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
volny


   

Зарегистрирован: 17.06.2005
Сообщения: 5819
Откуда (город): Spb

СообщениеДобавлено: Вт 29 Июн, 2010 13:43    Заголовок сообщения: Ответить с цитатой

Cheburashka писал(а):
На винде можно поставить локальный гуголь
Вроде искал по всем документам
Ага, тоже юзает PDFtoText (из пакета poppler-utils): http://desktop.google.com/support/bin/answer.py?hl=ru&answer=17208
Для линукса тоже есть http://dl.google.com/linux/deb/pool/non-free/g/google-desktop-linux/google-desktop-linux_current_i386.deb
спасибо.

Бред, но факт - не проверяет зависимости и предлагает переустановку для полноценного поиска + десятки часов переиндексирования:
http://desktop.google.com/support/linux/bin/answer.py?hl=en&answer=76816 писал(а):
Can Google Desktop for Linux find my Microsoft Word, Excel, or PowerPoint files?

If you don’t have these tools installed and you’ve already downloaded Google Desktop, just uninstall Desktop, add the tools to your Linux distribution, and re-index or reinstall Desktop.

sudo apt-get install wv catdoc
http://desktop.google.com/support/linux/bin/answer.py?hl=en&answer=66147 писал(а):
Why can't I find my PDF or Postscript files?

If you're having trouble locating Postscript or PDF files, please make sure that you have the pdftotext and ps2ascii tools installed within your Linux distribution. Google Desktop uses these tools to index your PDF and PS files. If they are not in place on your Linux, please install them before downloading Google Desktop. If they aren't installed, you'll only be able to search the filenames of PDF and PS files, not the content.


Короче, капризный конструктор - лучше самому придумать последовательность команд с предсказуемым поведением, чем пользоваться гуглдесктопом со всякими плохо предсказуемыми ограничениями типа:
http://desktop.google.com/support/linux/bin/answer.py?answer=63264&cbid=v5ujjg6cn7x1&src=cb&lev=answer писал(а):
if you're searching for a word within the file, please note that Google Desktop searches only about the first 6,000 words. In a few cases, Google Desktop may index slightly fewer words to save space in your search index

_________________
ХВ!
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
volny


   

Зарегистрирован: 17.06.2005
Сообщения: 5819
Откуда (город): Spb

СообщениеДобавлено: Пн 20 Июн, 2011 11:40    Заголовок сообщения: Ответить с цитатой

This oneliner searches for empty links in all PDFs in the current directory recursively:

Код:
for f in $(find . -type f |grep -i pdf$);do echo $f;pdftohtml -stdout $f|cat|grep -n "href=\"\"";done


Чтобы во всех PDF в домашней директории найти слово ТЫЦ или словосочетание ТЫЦ ТЫДЫЦ (регистровонезависимо):
Код:
for f in $(find ~ -type f |grep -i pdf$);do echo $f;pdftohtml -stdout $f|w3m -T text/html|cat -n|grep -i ТЫЦ;done


Код:
for f in $(find ~ -type f |grep -i pdf$);do echo $f;pdftohtml -stdout $f|w3m -T text/html|cat -n|grep -i 'ТЫЦ ТЫДЫЦ';done


Чтобы найти во всех вордовых документах DOC в текущей папке и вложенных папках словосочетание ТЫЦ ТЫДЫЦ (регистровонезависимо):
Код:
for f in $(find . -type f |grep -i \.doc);do echo $f;antiword $f|cat -n|grep -i 'ТЫЦ ТЫДЫЦ';done


Чтобы найти во всех вордовых документах DOCX в текущей папке и вложенных папках словосочетание ТЫЦ ТЫДЫЦ (регистровонезависимо):
Код:
for f in $(find . -type f |grep -i \.docx);do echo $f;unzip -p $f word/document.xml |sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g' |fold -s -w 80|cat -n|grep -i 'ТЫЦ ТЫДЫЦ';done


Или то же самое (используя http://sourceforge.net/blog/this-command-line-utility-converts-docx-files-to-text/ ):
Код:
for f in $(find . -type f |grep -i \.docx);do echo $f;perl ~/docx2txt.pl $f -|cat -n|grep -i 'ТЫЦ ТЫДЫЦ';done



В именах файлов не должно быть пробелов.
_________________
ХВ!


Последний раз редактировалось: volny (Пн 20 Июн, 2011 22:09), всего редактировалось 4 раз(а)
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
самнезнаюкто


   

Зарегистрирован: 29.03.2010
Сообщения: 2639
Откуда (город): Ближнее Замкадье

СообщениеДобавлено: Пн 20 Июн, 2011 14:40    Заголовок сообщения: Ответить с цитатой

Вот поэтому нас линуксоидов и не любят %)
_________________
Сам ты не знаешь кто, и говоришь не пойми чего! (c)
write-only
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
315


   

Зарегистрирован: 06.06.2011
Сообщения: 3930

СообщениеДобавлено: Пн 20 Июн, 2011 17:05    Заголовок сообщения: Ответить с цитатой

самнезнаюкто писал(а):
Вот поэтому нас линуксоидов и не любят %)
а за что нас любить? (%
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Показать сообщения:   
Начать новую тему   Ответить на тему    Список форумов Молодежный форум -> Hi-Tech Часовой пояс: GMT + 3
Страница 1 из 1

 
Перейти:  
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах

Рейтинг@Mail.ru ЧИСТЫЙ ИНТЕРНЕТ - www.logoSlovo.RU Rambler's Top100
Реклама


Powered by phpBB © 2001, 2005 phpBB Group