1. NoSql system:
No Data Cleaning, No Data extraction, No verification, No Schema specification => NOTHING => it is noSql system
2. Find Frequent Pairs
a. Naive solution to all of the C(2,n) pairs
b. A priori algorith. Find frequent single elements. And then count pairs from that domain.
3. Find similar objects
(shingling) Convert docs to sets of items for example k-gramm for text documents
(minhashing) Conver large sets of shingles into short signatures, preserving similarity
(local sensitive hashing) Split signature to band and hash them. Docs with similar signatures should be hashed to similar buckets
4. Кластеризация точек. Популярный алгоритм k-means
Ограничения k - means
1. Сходится к разным результатам в зависимости начального положения центрова классов. Т.к. алгоритм найдя локальный минимум уже не может выйти из него.
Но алгоритм построен именно так.
2. Можно подобрать такую конфигурацию центров когда классы будут совсем не то, что ожидалась даже в простых примерах.
Выходи - запускать алгоритм несколько раз