Home Chmura Zaawansowana infiltracja w Google – nie tylko dla hakerów

Zaawansowana infiltracja w Google – nie tylko dla hakerów

0
0
181

Nie wszyscy wiedzą jednak, że funkcje googlowskich mechanizmów nie ograniczają się jedynie do wyszukiwania tekstów, obrazów czy materiałów wideo na podstawie pojedynczych słów lub fraz, składających się z więcej niż jednego słowa. W bardzo prosty i wydajny sposób użytkownik może zawężać kryteria wyszukiwania, ograniczając je do wybranych rodzajów plików (lub wyłączając te rodzaje z wyników), wybranych domen i wielu innych czynników. W tym artykule skoncentrujemy się właśnie na prostych a jednocześnie dających ogromne możliwości rodzajach zapytań do wyszukiwarki Google.

Podstawy

Zacznijmy od kilku podstawowych zasad, z których warto zdawać sobie sprawę podczas używania wyszukiwarki.
◦Po pierwsze, Google nie działa w sposób case-sensitive (wrażliwy na wielkość liter). Nie ma zatem różnicy, czy wpiszemy słowo: „Hackować”, „hackować” czy „hacKOWać”. Wyniki, które zwróci strona, będą zawsze tożsame.
◦Kolejną interesującą cechą aplikacji jest możliwość używania wieloznaczników, tzw. wildcards, (w tłumaczeniu dosłownym: „dzika karta”), czyli „*”. Znak „*”  jest interpretowany przez wyszukiwarkę jako pojedyncze słowo w wyszukiwanej frazie. Przykład? Wpiszmy w wyszukiwarkę: "ogniem * mieczem". Zwrócone zostaną nam wyniki, w których dominować będzie fraza, gdzie za znak wildcard podstawiony zostanie spójnik “I”. Zauważmy, że w stronach nie występują frazy, w których pomiędzy słowem „ogniem” a słowem „mieczem” występuje więcej niż jeden wyraz.
◦Kolejnym ważnym elementem jest limit słów, które są interpretowane przez wyszukiwarkę. Ze względów wydajnościowych Google ogranicza ilość szukanych znaków do dziesięciu fraz (w tym znaczeniu jako fraza liczy się słowo, a więc z informatycznego punktu widzenia ciąg znaków separowany spacją). W przypadku wyszukania złożonego, długiego wyrażenia (składającego się z większej ilości słów), możemy użyć znanych już znaków wildcard, które nie są zaliczane do wspomnianego wyżej limitu, ale są interpretowane (jako dowolne słowo). Szczególnie przydatne może się to okazać w przypadku wyszukiwania słów piosenek lub treści książek, wierszy, cytatów, których nie znamy w całości.

Przykładem, który pokazuje powyższy mechanizm, jest próba wyszukania preambuły konstytucji Stanów Zjednoczonych. Wpiszmy do wyszukiwarki "we * people * * united states * *  * form * more * * establish *". Na podstawie powyższego zapytania widzimy, w jaki sposób, znając tylko część frazy, możemy jednoznacznie dopasować wyniki do naszych oczekiwań.

Wśród dodatkowych opcji wyszukiwania, które zostały wspomniane w pierwszym akapicie tekstu, warto skupić się na następujących:

•"intitle" – szuka wystąpienia frazy wewnątrz znacznika <title> strony, czyli w jej tytule. Przykład użycia: intitle:”Kopalnia Wiedzy”, zwróci wszystkie strony z tymi dwoma znakami w tytule strony. Co więcej, ponieważ zostały one zawarte w cudzysłowiu, pomiędzy nimi nie może znaleźć się żaden znak.

•"inurl"  – szuka wystąpienia frazy wewnątrz url witryny. Przykład użycia: inurl:” kopalniawiedzy.pl”. Otrzymamy wszystkie strony, które posiadają w swoim adresie URL nazwę „kopalniawiedzy.pl”.

•"site" – zawęża wyniki wyszukiwania do zdefiniowanej domeny. Ten operator może być używany wielokrotnie w tym samym zapytaniu. Prostym przykładem użycia jest „wszechświat site:kopalniawiedzy.pl”, które wyszuka nam frazę „wszechświat” w ramach witryny kopalniawiedzy.pl. Przykład na zerową listę wyników? „site:com site:gov.pl”. Ponieważ nie ma domen jednocześnie w domenie .com i .edu, stąd Google zwróci nam pustą listę wyników. Zauważmy, że tę samą frazę np. „ekstraklasa” możemy wyszukiwać na wielu stronach, dzięki sformułowaniu: „site:strona1.org OR site:strona2.com star wars”, w którym operator „OR” odpada polskiemu „Lub” w rozumieniu logiki formalnej. W tłumczeniu dosłownym powyższe sformułowanie oznacza: „Znajdź wystąpienia frazy star wars na stronie1.org LUB na stronie2.com” i zwraca wyniki na obu tych witrynach.

•"filetype" – wyszukuje dostarczoną przez użytkownika frazę, zawężając wyniki wyszukiwań do określonego typu plików. Przykład użycia: „biologia filetype:pdf”. Ćwicząc użycie kombinacyjne poznanych metod, możemy zaserwować wyszukiwarce zapytanie „filetype:pdf -inurl:pdf”. Zwróci nam ono zerową liczbę rezultatów. Stanie się tak, ponieważ szukamy wszystkich materiałów pdf (filetype:pdf), ale jednocześnie wyłączamy (znak minusa) z wyników Urle posiadające ciąg znaków „pdf”. Ponieważ nie istnieje plik pdf zaindeksowany w googlu, który nie posiada w swoim adresie liter „pdf”, zostanie zwrócona pusta lista wyników.

•"inanchor" – inanchor lokalizuje tekst wewnątrz linka. Jeżeli chcemy zbadać, ile i gdzie są zlokalizowane linki (niezależnie od stron, do których prowadzą) zawierające na przykład nasze nazwisko, wystarczy wysłać zapytanie: „inanchor:mojenazwisko”. Google zwróci nam listę wszystkich stron, gdzie nazwą linka jest Twoje nazwisko.

•"daterange" – jest ciekawym operatorem, który zwraca nam wyniki wyszukiwań w ramach witryn zaindeksowanych w podanym przedziale czasu. Zapytanie musi zostać zrealizowane w ramach pewnego zakresu. Jeżeli chcesz zlokalizować treści, które zostały w danym konkretnym dniu, wartości brzegowe powinny być identyczne. Obie daty muszą być numerem dnia, który minął od 1 stycznia 4713 przed narodzeniem Chrystusem (pierwszy dzień kalendarza Juliańskiego). Na przykład, pierwszy września 2010 roku, to 2452154 dzień kalendarza. Sprawdzając treści zaindeksowane na przykład pomiędzy 1 a 2 stycznia 2013 roku na temat postanowień noworocznych wystarczy spróbować z następującym zapytaniem: daterange:2456294-2456295 “postanowienia noworoczne”.

Zapytania, jak pokazaliśmy w powyższych przykładach, mogą posiadać wiele operatorów. Nie ma przeciwwskazań wobec stosowania w jednym sformułowaniu kilku różnych lub tych samych operatorów. Możemy przećwiczyć precyzyjne zapytania, zwracające ściśle określone wyniki:

Przykład nr 1:

Dla przykładowego projektu chcemy wyszukać wszystkie dokumenty pdf, które posiadają link „Kowalski”, ale jednocześnie nie pochodzą z serwisu chomikuj.pl.

Rozwiązanie:

inanchor:"Kowalski” filetype:pdf -site:chomikuj.pl

 

Przykład nr 2:

Chcemy wyszukać wszystkie informacje na serwisie kopalniawiedzy.pl dotyczące programu, którego nazwę pamiętamy tylko częściowo (IE 11 <wyraz, które nie pamiętamy> Toolkit). Jednocześnie chcielibyśmy się zapoznać jedynie z tekstami redakcyjnymi i wykluczyć teksty pochodzące z forum (i znajdujące się fizycznie na subdomenie forum.kopalniawiedzy.pl).

Rozwiązanie:

"IE11 * Toolkit" site:kopalniawiedzy.pl -site:forum.kopalniawiedzy.pl

 

Przykład nr 3:

Porównajmy ilość wpisów zawierających słowo „Osama” w sierpniu 2001 i w październiku tego samego roku. W tym przypadku konieczne będzie wykonanie dwóch zapytań i porównania wyników:

daterange:2452123-2452153 “Osama”                (1-31 sierpnia)

daterange:2452184-2452214 “ Osama”                (1-31 października)

Pierwsze zapytanie na 2013-11-20 zwróciło 629 wyników, drugie natomiast 23 600 wyników.

 

Oto kilka przydatnych linków, które pomogą utrwalić lub efektywnie wykorzystywać zaprezentowane w artykule możliwości wyszukiwarki.

•http://google.com – główna strona wyszukiwarki

•http://groups.google.com – możliwość uczestniczenia, tworzenia i edycji grup w ramach Google

•www.google.com/images – wyszukiwarka zdjęć / grafik z możliwością wyszukiwania plików na podstawie uploadowanych grafik.

•www.google.com/advanced_search – wyszukiwarka zaawansowana, która stanowi intuicyjny panel, który ułatwia zaawansowanych zapytań. Stwarza mniejsze możliwości aniżeli biegłe stosowanie powyższych operatorów, jednak jest wyjątkowo prosta i wydajna.

•www.google.com/m/preferences – ustawienia preferencji wyszukiwarki, umożliwiające zakładanie filtrów, określanie liczby wyników na stronie, zarządzanie historią wyszukiwarki oraz innymi parametrami aplikacji.

Dodaj komentarz

Przeczytaj również

Twój e-PIT bez przysługujących Ci ulg? Zadbaj o swój interes i obniż podatek. Kto prześpi – straci.

Koniec miesiąca zbliża się wielkimi krokami, a wraz z nim – ostateczny termin na złożenie …