filtrowanie Bayesa (filtrowanie Bayesa) jest jednym z najbardziej efektywnych rozwiązań mających na celu zwalczanie spamu. Spam jest problemem, który teraz stoi wszystkich użytkowników e-maili oraz liczby wiadomości spamowych dziennie wzrośnie. Powszechnie stosowane techniki oprogramowanie antyspamowe są statyczne, co oznacza, że spamerzy muszą badać tylko te techniki i znaleźć sposób, jak ich uniknąć (na przykład zmienić tytuł raportu). To dało programistom nowe wyzwanie. Zamiast obecnych metod statycznych potrzebnych przyjść do antyspamowego techniką, która byłaby w stanie dostosować się do ciągle zmieniających się taktyki spamerským. Odpowiedź została znaleziona w Bayesa matematyki i technologia powstała filtrowanie Bayesa.

Zasada filtrowanie Bayesa

filtrowanie Bayesa jest to proces, który wykorzystuje naiwny klasyfikator Bayesa do identyfikacji spamu e-mail. Podstawowym założeniem jest to, że większość wydarzeń są od siebie zależne i prawdopodobieństwa wystąpienia zdarzenia przyszłych zdarzeń może pochodzić z poprzednich imprez tego wydarzenia. To może być stosowana do spamu. Jeśli kawałek tekstu znajdują się w spam, a nie szynką , możemy stwierdzić, że e-mail jest prawdopodobnie spam.

Dostosowywanie filtr Bayesa

Ważne jest, aby pamiętać, że analiza potrzeby e-maile wykonane filtr Bayesa w danym środowisku jest przystosowany do tego środowiska. Na przykład instytucje finansowe mogą często używają słowa „kredyt hipoteczny” i stosowanie ogólnych zasad przez e-mail ze słowem zostały oznaczone jako spam. filtr Bayesa jest przeszkolony specjalnie dla tego środowiska, zwracając uwagę na częste stosowanie tego słowa w niezbędnych raportów i dlatego lepsze wyniki. filtrowanie Bayesa jest inteligentne podejście do sortowania wiadomości e-mail, ponieważ analizuje wszystkie aspekty sprawozdania, w przeciwieństwie do zwykłej kontroli treści wiadomości. Na przykład, nie każdy e-mail zawierający słowo „wolny” lub „środki pieniężne” jest spam. Metoda Bayesa by te słowa, chociaż ujęte w klasyfikacji, ale według wiarygodnego nadawcy e-mail jako spam sklasyfikować.

Wady filtry Bayesa

Jedną z wad jest uczenie oprogramowania. Po instalacji wymagany okres dwóch tygodni, gdy filtr Bayesa szkolenie dla środowiska celnego, w którym się on znajduje. Po zakończeniu tego etapu, oprogramowanie jest w stanie odróżnić spam z szynką wiadomości i klasyfikuje je poprawnie, będąc w stanie przystosować się do nowych technik spamowych, które są prezentowane na niego. Podczas gdy konwencjonalne filtry dla słów kluczowych będą zachowywać się lepiej w pierwszym miesiącu, filtr Bayesa jest najbardziej prawdopodobne, aby prześcignąć koniec miesiąca.

Oprogramowanie antyspamowe z bardzo podstawowych funkcji, takich jak Bayesa filtr spamu Microsoft Outlook nie tworzy danych dostosowanych szczególnej ochrony środowiska, ale daje standardowe pliki Ham danych. Chociaż metoda ta nie wymaga zastosowania nauki, ma dwie poważne wady: Plik Ham dane są publicznie dostępne, a zatem może być posiekany przez profesjonalnych spamerów. Taki plik hamových danych jest zbyt ogólne i dlatego nie może być tak skuteczne, jak w przypadku, gdy nauka odbywa się w określonym środowisku.

Dla efektywnego wykorzystania musimy również technik spamowych ostatniej aktualizacji za pomocą pliku danych spam. Dzięki temu mamy pewność, że spamerzy filtry Bayesa znać najnowsze taktykę i osiągnąć wysoki wskaźnik skuteczności wykrywania spamu. Jako przykład można wymienić techniki antyspamowe muszą literowania słowa „free” na słowo „wolny”, że typowy filtr antyspamowy musiały być rejestrowane jako inny ciąg tekstowy.

filtr Bayesa i Wielojęzyczność

Metoda Bayesa jest wielojęzyczna, w przeciwieństwie do większości kluczowych słów arkuszy, które mogą być wykorzystywane tylko w jednym języku. Filtr Bayesa bierze również pod uwagę różne sposoby mówienia konkretnych języków i dialektów, pozwala mu lepiej klasyfikować spam. Filtr Bayesa jest trudny do obejścia przeciwieństwie filtrowanie według słów kluczowych. Zaawansowane spamerem kto chce ominąć filtr Bayesa musi użyć mniej słów, które wskazywałyby wiadomość jako spam lub więcej słów, że typowa szynka . Drugi sposób, w jaki spamer próbuje znaleźć żądane słowo jest niemożliwe, jednak, jeśli chce spam większą grupę różnych ludzi, ponieważ wyszukiwania słowa dla każdej osoby byłoby bardzo czasochłonne.

Leave a Reply

Your email address will not be published. Required fields are marked *