ML
Machine Learning Mastery Quiz
Test your knowledge of machine learning concepts, including classification, clustering, and granular computing. This quiz covers 24 thought-provoking questions designed to challenge your understanding and help you learn more about effective strategies in managing imbalanced datasets and advanced algorithms.
- 24 multiple-choice questions
- Topics covered: classification, clustering, and more
- Perfect for students and professionals alike
Niezrównoważone klasy. Metoda NearMiss Algorytm (Undersampling) jest lepsza od losowego ‘undersamplingu’, zamiast usuwać losowe rekordy, może np. zachować przykłady leżące blisko granicy decyzyjnej, co ułatwi klasyfikację. To zdanie jest:
Prawdziwe
Fałszywe
Granular computing. W czym widzisz zaletę sieci granul w porównaniu z klasycznym drzewem decyzyjnym?
Sieci granul gwarantują budowę najprostszego (optymalnego) drzewa z inną zawartością węzłów I opisem łuków
Sieci granul nie preferują nadmiernie żadnego atrybutu
Klasteryzacja. Wskaż prawdziwe zdanie:
DBSCAN nie wymaga podawania liczby klastrów I liczba powstałych klastrów jest określana automatycznie, niezależnie od wszelkich decyzji użytkownika
DBSCAN nie wymaga podawania liczby klastrów, ale liczba powstałych klastrów zależy od parametrów metody podanych przez użytkownika
Niezrównoważone klasy. Popularny sposób ‘oversamplingu’ to generowanie próbek które znajdą się blisko istniejących danych lub pomiędzy dwiema próbkami danych. Metoda ta:
Powoduje zwiększanie szumu I overfitting, co jest jego wadą, zwłaszcza dla danych zaszumionych
Jest lepsza niż losowe dodawanie przykładów I zaszumienie danych nie ma tu znaczenia
Klasyfikacja wieloetykietowa. Miary oparte na przykładach (ang. example-based). Mamy przykład Y1 opisany zbiorem etykiet: {A, B, C, D, E}. Klasyfikator K1 zwrócił odpowiedź: Y1’: {A, B, C, D, T, U}, a klasyfikator K2 zwrócił: Y1’': {A, B, T, U}. Miara 0/1 subset accuracy (classification accuracy, exact match ratio) zwróci wyniki:
Ten sam dla K1 I dla K2
Większą wartość dla k1 niż dla K2, jako że K1 zwrócił więcej poprawnych etykiet dla analizowanego przykładu
Sieci granul. Zaznacz prawdziwe zdanie:
W sieci granul (ang. Granule network) każdy węzeł jest koniunkcją podstawowych granul (ang. Conjunctively definable granule)
W sieci granul (ang. Granule network) każdy węzeł jest zbiorem atrybutów, za pomocą którego tworzony jest podział uniwersum
Klasyfikacja wieloetykietowa. W tym zadaniu, niezrównoważenie danych:
Jest dwu-wymiarowe: w odniesieniu do pojedynczych etykiet, oraz w odniesieniu do pozytywnych I negatywnych przykładów dla każdej z klas
Jest dokładnie takim samym problemem jak w zadaniu klasyfikacji wieloklasowej
Klasteryzacja. Miary Silhouette Coefficient Score lub elbow są użyteczne do ustalania odpowiedniej liczby klastrów.
Powyższe zdanie jest prawdziwe
Powyższe zdanie nie jest prawdziwe, bo te miary pozwalają porównać dwa klastry miedzy sobą a nie jakoś klasteryzacji przy różnej liczbie klastrów
Niezrównoważone klasy. Algorytm Tomek Links:
Szuka par instancji przeciwstawnych klas, które są własnymi najbliższymi sąsiadami I usuwa z tej pary klasę większościową
Szuka par instancji z klasy mniejszościowej, które są najbliżej przykładu z klasy większościowej I dodaje przykład leżący wewnątrz ‘trójkąta’ tworzonego przez te 3 punkty
Klasyfikacja wieloetykietowa. Zadanie to może być zdefiniowane: (i) w terminach podziału zbioru etykiet na podzbiór etykiet relewantnych dla danego przykładu oraz podzbiór etykiet nierelewantnych dla danego przykładu oraz (ii) jako zadanie zwracające ranking etykiet
Każde z tych sformułowań, (i) I (ii), stwarza różne wymagania odnośnie metody I stosowanych miar
Wszystkie powyższe sformułowania, (i) I (ii), są równoważne odnośnie stosowanych miar I metod
Klasteryzacja. K-means nie da dobrych wyników w sytuacji, gdy:
Punkty danych tworzą klastry o wklęsłych kształtach
Punkty danych tworzą klastry o kołowych lub elipsoidalnych kształtach
Klasteryzacja – DBSCAN, z uwagi na mechanizm jego tworzenia jest odporny na przypadki odstające (outliers).
Powyższe zdanie jest poprawne
Powyższe zdanie nie jest poprawne
Klasyfikacja wieloetykietowa. Miary oparte na etykietach (ang. label-based):
Nadają się do zdefiniowania zadania jako ‘bipartition’ ale nie można wykorzystywać tutaj takich miar jak precision I accuracy
Nadają się do zdefiniowania zadania jako ‘bipartition’ I stosuje się tu typowe miary jak precision, recall, accuracy I F1-score
Obliczenia granularne. Ogólność pojęcia E (generality of E) to:
Względny rozmiar pojęcia E liczony jako stosunek liczby przykładów spełniających E do rozmiaru różnicy zbiorów U – m(E), gdzie m(E) oznacza funkcję znaczeniową
Względny rozmiar pojęcia E liczony jako stosunek liczby przykładów spełniających E do rozmiaru U
Klasyfikacja wieloetykietowa. Miary oparte na przykładach (ang. example-based). Mamy przykład Y1 opisany zbiorem etykiet: Y1={A, B, C, D, E}. Klasyfikator K1 zwrócił odpowiedź: Y1’: {A, B, C, D}, natomiast klasyfikator K2 zwrócił: Y1’': {A, B, C, D, E, U}. Miara Hamming Loss zwróci wyniki:
Większą wartość dla K1 bo on zwrócił wszystkie poprawne etykiety
Taką sama wartość dla K1 I dla K2
Niezrównoważone klasy. Wskaż prawdziwe zdanie:
Równowaga między-klasowa (Between-Class) świadczy o nierównej liczbie obiektów reprezentujących poszczególne klasy a wewnątrzklasowa informuje o tym, że jedna z klas jest niereprezentowana w pewnych obszarach przestrzeni obiektów
Problem niezrównoważonych klas odnosi się do nierównomiernego rozłożenia obiektów z co najmniej jednej klasy w przestrzeni obiektów (cech obiektów)
Niezrównoważone klasy. Wskaż prawdziwe zdanie:
Zaletą jest brak konieczności dodawania I / lub usuwania próbek, ale powoduje nieczytelność metody, co utrudnia przejrzystość metody dla uzytkownika końcowego
Metody wrażliwe na koszt (Cost-Sensitive Learning) polegają na względnym ważeniu poszczególnych próbek (z niezrównoważonych klas), co zwalnia z konieczności dolosowywania bądź usuwania danych
Obliczenia granularne. Mamy regułę E -> H. O warunkowym prawdopodobieństwie, że losowo wybrany element spełnia H pod warunkiem, że spełnia E mówi miara:
Bezwzględne wsparcie (ang. Absolute support)
Ogólność E (ang. Generality of E)
Zmiana wsparcia H udzielonego przez E
Niezrównoważone klasy. System klasyfikacji wielokrotnej (ang. Multiple Classification System) jest obiecującym podejściem podobnym do zespołu klasyfikatorów, ale z innym podziałem danych uczących:
Klasa większościowa jest dzielona na podzbiory o liczności zbliżonej do liczności klasy mniejszościowej, to decyduje o liczbie klasyfikatorów ‘bazowych’, można stosować dynamiczny sposób podejmowania decyzji gdy obiekty klasy większościowej były uprzednio klasteryzowane
Metoda tworzenia klasyfikatorów ’bazowych’ nie różni się od tworzenia zespołów klasyfikatorów, wymaga zaproponowania innego sposobu podejmowania decyzji końcowej, np. dynamicznie
Klasteryzacja. Który z poniższych klasteryzatorów jest w stanie zbudować klastry wklęsłe:
DBSCAN
Każdy z wymienionych
K-średnich (k-means)
Hierarchiczny aglomeracyjny
Klasteryzacja. Metody gęstościowe są bardziej uniwersalnymi metodami pod względem kształtów generowanych klastrów niż metody odległościowe (oparte na podobieństwie).
Powyższe zdanie jest prawdziwe
Powyższe zdanie jest fałszywe
Obliczenia granularne – podziały (ang. partitions) I pokrywanie (ang. coverings). Wskaż poprawne zdanie:
Partition I covering to dwa jednakowe podziały uniwersum dokonane za pomocą innych podejść – pierwsze za pomocą uściślania (ang. refinement) a drugie za pomocą rozszerzania ((ang. coarsening)
Partition I covering to dwa różne podziały uniwersum, przy czym w partition muszą to być rozłączne podzbiory, a w covering nie
Klasteryzacja. Które z poniższych metryk mogą być stosowane do określenia odmienności (dissimilarity) pomiędzy dwoma klastrami w klasteryzacji hierarchicznej?
Tylko Single-link
Wszystkie wymienione
Tylko Average-link (Group Average)
Tylko Complete-link
Niezrównoważone klasy. Klasyfikacja przy niezrównoważonych zbiorach danych zwiększa problem wynikający z nakładania się klas (ang. Class overlapping). Zdanie to jest:
Prawdziwe
Fałszywe
{"name":"ML", "url":"https://www.quiz-maker.com/QPREVIEW","txt":"Test your knowledge of machine learning concepts, including classification, clustering, and granular computing. This quiz covers 24 thought-provoking questions designed to challenge your understanding and help you learn more about effective strategies in managing imbalanced datasets and advanced algorithms.24 multiple-choice questionsTopics covered: classification, clustering, and morePerfect for students and professionals alike","img":"https:/images/course1.png"}