Metin Madenciliği (Text Mining)

Yazan : Şadi Evren ŞEKER

Bu yazının amacı, literatürde metin madenciliği (text mining) veya metin veri madenciliği (text data mining) kavramını açıklamaktır.

En basit anlamda, metin madenciliği çalışmaları metni veri kaynağı olarak kabul eden veri madenciliği (data mining) çalışmasıdır diğer bir tanımla metin üzerinden yapısallaştırılmış (structured) veri elde etmeyi amaçlar. Örneğin metinlerin sınıflandırılması, bölütlenmesi (clustering), metinlerden konu çıkarılması (concept/entity extraction), sınıf taneciklerinin üretilmesi (production of granular taxonomy), duygusal analiz (sentimental analysis), metin özetleme (document summarization), varlık ilişki modellemesi (entity relationship modelling) gibi çalışmaları hedefler.

Yukarıdaki hedeflere ulaşılması için metin madenciliği çalışmaları kapsamında enformasyon getirimi (information retrieval)hece analizi (lexical analysis), kelime frekans dağılımı (Word requency distribution), örüntü tanıma (pattern recognition), etiketleme (tagging), enformasyon çıkarımı (information extraction), veri madenciliği (data mining) ve hatta görselleştirme (visualization) gibi yöntemleri kullanmaktadır[1].

Metin madenciliği çalışmaları, metin kaynaklı literatürdeki diğer bir çalışma alanı olan doğal dil işleme (natural language processing, NLP) çalışmaları ile çoğu zaman beraber yol yürümektedir. Doğal dil işleme çalışmaları daha çok yapay zeka altındaki dil bilim bilgisine dayalı çalışmalarını kapsamaktadır. Metin madenciliği çalışmaları ise daha çok istatistiksel olarak metin üzerinden sonuçlara ulaşmayı hedefler. Metin madenciliği çalışmaları sırasında çoğu zaman doğal dil işleme kullanılarak özellik çıkarımı da yapılmaktadır.

Genel olarak klasik bir metin madenciliği çalışmasını aşağıdaki şekilde özetleyebiliriz.

Metin_madenciligi_text_mining

Yukarıdaki şekilde de görüldüğü üzere, bir metin veri tabanından alınan veriler öncelikle bir özellik çıkarımına tabi tutulur. Ardından çıkarılan özellikler üzerinde bir makine öğrenmesi algoritması çalışır (sınıflandırma (classification), bölütleme (clustering), tahmin (prediction) v.b.) ve neticede yapılandırılmış veri (structured data) elde edilir.

Buradaki makine öğrenmesi aşaması genelde kullanılmakla birlikte, metin madenciliği için şart olmayan bir aşamadır. Bazı durumlarda, doğrudan çıkarılan özellik aranan yapılandırılmış veri olabilmektedir. Bazı durumlarda ise makine öğrenmesi adımı yerine, istatistiksel bazı farklı yöntemler kullanılabilir.

Metin kaynakları, genelde doğal dilde yazılmış kaynaklardır. Yani bir gazetedeki köşe yazıları, bir kitap, bir makale olabilir. Hatta internet üzerindeki web siteleri bile metin kaynağı olarak görülebilir (bu konu daha özel olarak web madenciliği (web mining) olarak da adlandırılmaktadır). Bu yazıların, metin madenciliği açısından önemli bir de üst bilgileri olması söz konusudur. Örneğin yazının tarihi, yazının yayınlandığı web sitesi, yazar bilgisi gibi, yazının içerisinde yer almayan ancak yazı ile ilgili metin madenciliğinde kullanılabilecek önemli üst bilgiler (meta data) bulunabilir.

Özellik çıkarımı (feature extraction) aşamasında, metinlerin doğrudan içeriğinden veya üst bilgilerinden yararlanılarak istenilen özellikler çıkarılabilir ve çıkarılan özellikler üzerinde işlem yapılabilir.

Örnek Metin Madenciliği uygulaması:

Örneğin elimizde 100 adet yazı olsun. Bu yazıları yazan yazarları biliyor olalım (diyelim ki 5 farklı yazarın 20’şer adet yazısı olsun). Yeni gelen 101. Yazının bu 5 yazardan hangisine ait olduğunu bulmak, klasik bir metin madenciliği uygulamasıdır ve literatürde yazar tanıma (author recognition) olarak da geçer.

Burada örnek olarak metinlerdeki kelime kullanma sıklıklarını özellik çıkarımı için kullanmak isteyelim. Yani yazarlarımızı kullandıkları kelime sıklıklarından tanıyabileceğimizi düşünüyoruz (author attribution). Her metinde ve dolayısıyla her yazar için hangi kelimeyi ne sıklıkla kullandığı bilgisi bizim özellik çıkarımı aşamamız oluyor.

Ardından kullanılan kelime sıklıklarını örnek olarak makine öğrenme algoritması olan KNN algoritmasına veriyoruz ve diyelim ki yazarını tanımak istediğimiz 101. Yazı için her kelime için en çok kullanan yazarları listeliyoruz. Neticede bize bir olası yazarlar listesi çıkıyor ve biz de en yüksek ihtimalle hangi yazarın bu yazıyı yazmış olabileceğini söylüyoruz. Bu çıkan sonuç aslında 101. Yazı için anlamlı ve yapılandırılmış bir sonuç olarak kabul edilebilir.

Metin madenciliğinin çalışma alanları:

Metin madenciliği sırasında genelde aşağıdaki problemlerle ilgilenilir (bunlarla sınırlı değildir).

Enformasyon Getirimi (Information Retrieval): Bu aşama ilgilenilen külliyet (derlem, corpus) hakkında ön bilginin toplandığı aşamadır. Örneğin metin madenciliği web üzerindeki veri kaynakları üzerinde yapılacaksa web sayfaları, adresleri veya dosya sistemi üzerindeyse dosyaların tarihleri, kullanıcı bilgileri, dosya isimleri, dizin bilgileri gibi bilgilerin toplandığı aşamadır.

Doğal dil işleme aşaması (natural language processing): Bu aşama bütün metin madenciliği aşamalarında kullanılmasa bile genelde özellik çıkarımı ve metinden bazı anlamsal bilgilerin elde edilmesinde sıklıkla başvurulan aşamadır. Örneğin, konuşma parçalarının etiketlenmesi (part of speech tagging) veya cümlebilimsel parçalama (syntactic parsing) veya diğer dilbilimsel işlemler doğal dil işleme aşamasında yapılır.

Adlandırılmış varlık tanıma (named entity recognition): Genellikle metin işleme aşamasında istatistiksel bazı özelliklerin çıkarılması için kullanılır. Örneğin, metnin içerisindeki kişi isimleri, yer isimleri, semboller, kısaltmalar v.s. bu yöntemle bulunur. Metin madenciliği çalışmalarının her zaman temiz metinlerde yapılmadığını hatırlatmakta yarar vardır. Örneğin facebook, twitter mesajları, telefonlardan yollanan SMS mesajları gibi mesajların çoğunda yazım hataları hatta kısaltmalar kullanılmaktadır. Metin madenciliği bu ihtimallerin de göz önünde tutulması gereken çalışmalardır. Örneğin ‘’osmanbey’’ kelimesi, istanbulda bir semt ismi olabileceği gibi bir kişi ismi de olabilir. Adlandırılmış varlık tanıma çalışmalarında, hedeflenen kelime gruplarının metin içerisinden çıkarılması, sayılması, yoğunluğunun bulunması, etiketlenmesi gibi işlemler yapılabilir.

Örüntüsü tanımlı varlıkların bulunması (pattern identified entities): Bazı durumlarda, metnin içerisinden özel bazı bilgilerin metin madenciliğine konu olması mümkündür. Örneğin e-posta adresleri, telefon numaraları, adresler, tarihler gibi bazı bilgileri özel olarak almak isteyebiliriz. Genelde bu durumlarda düzenli ifadeler (regular expressions) veya içerik bağımsız gramerler (context free grammers) tanımlanarak metin üzerinde çalıştırılır[2].

Eş Atıf (Coreference): Bir varlığa işaret eden (atıf eden) isim kelime gruplarını ve diğer terimlerin bulunması/ayrılmasını hedefler.

İlişki, kural, olay çıkarımları: Çeşitli amaçlarla metnin içerisinden bazı bilgilerin çıkarılması istenebilir. Örneğin doktora çalışmam sırasında, verilen bir metnin içerisindeki olayları çıkararak sıralamak (event ordering) üzerine çalışmış, Türkçedeki fiil yapılarını, olay belirten kelime gruplarını, zaman kalıplarını ve bütün bu kelime grupları arasındaki olası ilişkileri gösteren özel bir matematik tasarlamıştım[3].

Duygu analizi (sentimental Analysis) : Metinlerde geçen duygusal ifadelerin çıkarılmasını amaçlar. En sık kullanılanı duygusal kutupsallıktır (sentimental polarity). Buna göre bir konu hakkında geçen mesajların veya yazıların olumlu veya olumsuz olmasına göre iki sınıfa ayrılması hedeflenir[4]. Ancak duygu analizi bunun dışında, metinlerdeki ruh hali, kanaat ve daha karmaşık duyguların çıkarılması üzerinde de çalışmaktadır.

[1]Sadi Evren SEKER, Cihan Mert, Khaled Al-Naami, Nuri Ozalp, Ugur Ayan (2013), Correlation between the Economy News and Stock Market in Turkey., International Journal of Business Intelligence and Review (IJBIR), vol. 4, is. 4, pp. 1-21, 2013

[2] Şadi Evren ŞEKER, “Turkish Query Engine on Library Ontology”, IKE12, Internet Knowledge Engineering, 2012, ISBN:1-60132-222-4, Pages:26-33

[3]Sadi Evren SEKER, Banu DIRI, International Conference on Artificial Intelligence konferansı dahilinde , "Proceedings of International Conference on Artificial Intelligence", bildiri “TimeML and Turkish Temporal Logic”, pp. 881-887, ICAI 2010

[4] Sadi Evren SEKER, Khaled Al-NAAMI “Sentimental Analysis on Turkish Blogs via Ensemble Classifier“, PROCEEDINGS OF THE 2013 INTERNATIONAL CONFERENCE ON DATA MINING, ISBN:1-60132-239-9, DMIN, pp. 10-16,  2013

 

 

67 responses to “Metin Madenciliği (Text Mining)”
  1. ... [Trackback]

    [...] Here you can find 12900 additional Information on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  2. CI-CD dedi ki:

    ... [Trackback]

    [...] Find More on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  3. ... [Trackback]

    [...] Info to that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  4. Read More Here dedi ki:

    ... [Trackback]

    [...] Find More on to that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  5. ... [Trackback]

    [...] Read More on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  6. kardinal stick dedi ki:

    ... [Trackback]

    [...] Find More here on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  7. JakaRiandi.biz dedi ki:

    ... [Trackback]

    [...] Here you will find 78903 more Info on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  8. افلام dedi ki:

    ... [Trackback]

    [...] Find More to that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  9. 대밤 dedi ki:

    ... [Trackback]

    [...] Here you will find 77364 additional Information to that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  10. ... [Trackback]

    [...] Here you can find 42482 additional Information on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  11. ... [Trackback]

    [...] Find More on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  12. ... [Trackback]

    [...] Here you can find 16344 more Information on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  13. ... [Trackback]

    [...] Read More on to that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  14. ... [Trackback]

    [...] Information to that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  15. Speed Paste dedi ki:

    ... [Trackback]

    [...] Read More Info here on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  16. ... [Trackback]

    [...] Find More Info here on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  17. expense software dedi ki:

    ... [Trackback]

    [...] Find More Info here on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  18. ... [Trackback]

    [...] Read More on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  19. ... [Trackback]

    [...] Read More here on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  20. køb engle kort dedi ki:

    ... [Trackback]

    [...] Here you can find 50590 more Information on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  21. ... [Trackback]

    [...] Here you can find 61577 more Information to that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  22. ... [Trackback]

    [...] There you can find 62077 more Info to that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  23. HP Servis dedi ki:

    ... [Trackback]

    [...] Read More Info here to that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  24. ... [Trackback]

    [...] Here you will find 98430 more Information on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  25. CHEE TING dedi ki:

    ... [Trackback]

    [...] Find More Info here to that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  26. hack instagram dedi ki:

    ... [Trackback]

    [...] Read More on to that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  27. World Market URL dedi ki:

    ... [Trackback]

    [...] Read More to that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  28. 우리카지노 dedi ki:

    ... [Trackback]

    [...] Info on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  29. ... [Trackback]

    [...] Find More here on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  30. ... [Trackback]

    [...] Info on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  31. Energy Rates dedi ki:

    ... [Trackback]

    [...] Here you can find 86630 more Info to that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  32. ... [Trackback]

    [...] There you will find 55545 more Info on that Topic: mis.sadievrenseker.com/2014/06/metin-madenciligi-text-mining/ [...]

  33. I’ve been looking for info on this topic for a while. I’m happy this one is so great. Keep up the excellent work 안전토토사이트

  34. 먹튀검증 dedi ki:

    You bear through a awesome vacancy. I sanity definitely quarry it moreover personally suggest to my buddys. I am self-possessed they determination be benefited from this scene. 먹튀검증

  35. This is a wonderful post. I came to this site first time and I really like your post. Keep posting it. I love seeing websites that understand the value of providing a quality resource for free.I will wait for your post. Thank you. 토토커뮤니티

  36. 토토사이트 dedi ki:

     am glad to read this post, it’s an impressive one. I am always searching for quality posts and articles and this is what I found here, I hope you will be adding more in future 토토사이트

  37. "I truly appreciate basically perusing the majority of your weblogs. Just needed to advise you that you have individuals like me who value your work. Certainly an awesome post. Caps off to you! The data that you have given is exceptionally useful.

    " Mlb중계 NBA중계

  38. 토토사이트 dedi ki:

    You bear through a awesome vacancy. I sanity definitely quarry it moreover personally suggest to my buddys. I am self-possessed they determination be benefited from this scene. 토토사이트

  39. 바다이야기 dedi ki:

    "Informative article, just what I was looking for.

    " 바다이야기

  40. 토토사이트 dedi ki:

    You bear through a awesome vacancy. I sanity definitely quarry it moreover personally suggest to my buddys. I am self-possessed they determination be benefited from this scene. 토토사이트

  41. 토토사이트 dedi ki:

     Technical report only adds extra time and work for clients to wade through and the detail and doesn't guarantee comprehension.  토토사이트

  42. 토토사이트 dedi ki:

    I am typically to writing a blog and that i actually appreciate your articles. The article has really peaks my interest. Im likely to bookmark your site and hold checking for brand spanking new information 토토사이트

  43. 토토사이트 dedi ki:

    This is a magnificent article, Given such an exceptional measure of information in it, These kind of articles keeps the clients fervor for the site, and continue sharing more ... positive conditions 토토사이트

  44. 토토 dedi ki:

    Thanks for posting this info. I just want to let you know that I just check out your site and I find it very interesting and informative. I can't wait to read lots of your posts. Our services are created to help your dental company in attracting new patients. We also help bring back more of your existing patients. We know that every dental company is different. Therefore their treatments are created in a unique way to best represent the doctor. All of our services are world-class in performance and affordability. We market your services with professionalism and style. We pride ourselves on getting an ongoing connection with all our clients. We’ll always be by your side supporting and aiding you in growing the businesses of your dreams 토토

  45. 스포츠토토 dedi ki:

    Youre so cool! I dont suppose Ive read something like this before. So nice to seek out any person with some unique ideas on this subject. realy thank you for beginning this up. this website is one thing that’s needed on the web, somebody with a little originality 스포츠토토

  46. 토토사이트 dedi ki:

    "Informative article, just what I was looking for.

    " 토토사이트

  47. "Informative article, just what I was looking for.

    " 메이저사이트

  48. I am fascinated this informative article.  에볼루션카지노

  49. 슬롯사이트 dedi ki:

    "Informative article, just what I was looking for.

    " 슬롯사이트

  50. I’m happy I found this weblog, I couldnt uncover any data on this topic matter prior to. security companies

  51. Pressure Washing dedi ki:

    I’m happy I found this weblog, I couldnt uncover any data on this topic matter prior to. Pressure Washing

  52. I’m happy I found this weblog, I couldnt uncover any data on this topic matter prior to. pressure washing san diego

  53. Thanks for taking the time to discuss this, I feel strongly about it and love learning more on this topic. If possible, as you gain expertise, would you mind updating your blog with extra information? It is extremely helpful for me Pest control london

  54. Thanks for taking the time to discuss this, I feel strongly about it and love learning more on this topic. If possible, as you gain expertise, would you mind updating your blog with extra information? It is extremely helpful for me Shipping To FBA Warehouse From China

  55. buy traffic dedi ki:

    Thanks for taking the time to discuss this, I feel strongly about it and love learning more on this topic. If possible, as you gain expertise, would you mind updating your blog with extra information? It is extremely helpful for me buy traffic

  56. avocado recipes dedi ki:

    Our approach brings together best-in-class virtualized compute, storage, and networking infrastructure. avocado recipes

  57. Our approach brings together best-in-class virtualized compute, storage, and networking infrastructure. call of duty mobile apk

  58. Our approach brings together best-in-class virtualized compute, storage, and networking infrastructure. cause of hair loss

  59. Our approach brings together best-in-class virtualized compute, storage, and networking infrastructure. chilean sea bass recipe

  60. Our approach brings together best-in-class virtualized compute, storage, and networking infrastructure. lasik eye surgery

  61. Our approach brings together best-in-class virtualized compute, storage, and networking infrastructure. Courtier immobilier Aylmer

  62. Our approach brings together best-in-class virtualized compute, storage, and networking infrastructure. rooftop deck shade solutions

  63. Our approach brings together best-in-class virtualized compute, storage, and networking infrastructure. courtier immobilier longueuil

  64. Our approach brings together best-in-class virtualized compute, storage, and networking infrastructure. best hot tub cover

  65. It is truly a well-researched content and excellent wording. I got so engaged in this material that I couldn’t wait reading. I am impressed with your work and skill. Thanks used motorcycles for sale

  66. polaris dealer dedi ki:

    It is truly a well-researched content and excellent wording. I got so engaged in this material that I couldn’t wait reading. I am impressed with your work and skill. Thanks polaris dealer

  67. seo tijuana dedi ki:

    It is truly a well-researched content and excellent wording. I got so engaged in this material that I couldn’t wait reading. I am impressed with your work and skill. Thanks seo tijuana

Leave a Reply