Dokumente und Wörter

Der Klassifizierer, den Sie erstellen werden, braucht Merkmale, die Sie zum Klassifizieren von verschiedenen Elementen nutzen. Ein Merkmal ist alles, was Sie in einem ement entweder als vorhanden oder als nicht vorhanden feststellen können. Wenn Sie Dokumente klassifizieren wollen, sind die Dokumente die Elemente und die Merkmale die Wörter in den Dokumenten. Wenn man Wörter als Merkmale verwendet, geht man davon aus, dass manche Wörter häufiger in Spam-Texten als in normalen Texten auftauchen. Auf dieser grundlegenden Voraussetzung bauen die meisten Spam-Filter auf. Merkmale müssen allerdings keine einzelnen Wörtersein, es kann sich auch um Wortpaare, Phrasen oder irgendetwas anderes handeln, das in einem bestimmten Dokument ...

Get Kollektive Intelligenz analysieren, programmieren und nutzen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.